جستجوی الگوهای نوظهور با ویژگی های جریانی |
کلاسه بندی بر پایه الگوها، یک متدلوژی جدید محسوب می شود. کشف الگوهایی که نشاندهنده تمایز بین کلاس های مختلف هستند، یکی از موضوعات مهم در داده کاوی محسوب می شود. در این تحقیق، ما کلاسه بندی را بر اساس الگوهایی به نام الگوهای نوظهور (Emerging Patterns) که تمایز بین کلاس ها را بصورت بارزی نشان می دهند، از مجموعه داده ها استخراج می کنیم و سپس، بر اساس آنها، کلاسه بندی را انجام می دهیم.
1-2- مفهوم الگوهای نوظهور
مفهوم الگوهای نوظهور برای استخراج دانش از پایگاه داده ها توسط Dong و Li پیشنهاد شده است تا تغییرات قابل توجه بین کلاس ها را به تصویر بکشند [1]. یک الگوی نوظهور، ترکیب عطفی بین ویژگی هایی است که میزان احتمال حضور آن در یک کلاس نسبت به دیگر کلاس ها بطور قابل توجهی تغییر می کند [1،2]. این الگوها مفید هستند به این دلیل که قادر هستند تا وجه تمایز بین کلاس ها را بیان کنند. در صورتی که میزان فراوانی هر الگو که در یک کلاس نسبت به دیگر کلاس ها قابل توجه باشد، نشاندهنده آن است که این الگو، بطور خاص به این کلاس اختصاص دارد و از طرفی این نوع الگوها برای پایگاه داده هایی که بحث محدودیت زمانی برای استخراج دانش از آنها مطرح است، اهمیت ویژه ای می یابند.
استخراج الگوهای نوظهور بدین صورت مطرح می شود: « پیدا کردن آیتم هایی که نرخ رشد آن (که بصورت نسبت احتمال آن آیتم بین کلاس های مختلف تعریف می شود) از مقدار آستانه ای بیشتر باشد.» این مقدار آستانه باید بگونه ای انتخاب شود که الگوهای استخراجی ، تفاوت و تمایز بین کلاس های مختلف را نشان دهند. این الگوها در واقع مجموعه ای از آیتم ها هستند که بیان کننده ترکیب عطفی بین مقادیر ویژگی ها هستند [2].
نوعاً، تعداد الگوهای استخراجی بسیار زیاد است اما فقط شمار کمی از این الگوها برای تحلیل داده ها و کلاسه بندی مطلوب و مفید هستند. از آن جایی که مقدار زیادی از این الگوها بی ربط و تکراری هستند، دانش جدیدی را فراهم نمی کنند و لذا تاثیر نامطلوبی بر روی دقت کلاسه بند دارند که موجب کاهش دقت پیش بینی می شوند. برای افزایش کارایی و دقت، بایستی روالی را توسعه داد که الگوهای وابسته و غیر مفید حذف شوند تا شمار این الگوها کاهش یابد.
یک الگوی نوظهور با احتمال بالا در کلاس خودش و احتمال پایین در کلاس مقابلش می تواند برای تعیین یک نمونه تست بکار رود. قدرت این الگو توسط معیارهایی مثل فراوانی نسبی و نرخ رشد ( نسبت احتمال الگو در یک کلاس نسبت به دیگر کلاس ها) آن بیان می شود.
مفهوم ویژگی های جریانی
در داده های جریانی، نمونه ها به مرور زمان دریافت می شوند در حالیکه تعداد ویژگی ها ثابت می باشد. اما در ویژگی های جریانی، تعداد داده های یادگیری ثابت می باشد ولی ویژگی ها بصورت دینامیک تولید می شوند و الگوریتم یادگیری به مرور زمان ویژگی ها را دریافت می دارد [31، 32]. در ویژگی های جریانی روال بدین صورت است ویژگی های توسط روش های تولید ویژگی مانند روش های یادگیری رابطه ای آماری و تعاملات بین ویژگی ها، تولید می شوند. مشکلاتی که در پی تولید ویژگی ها توسط این روش ها بروز می کند بدین شرح است که: 1) میلیون ها و یا حتی بیلیون ها ویژگی تولید می شوند که بدلیل محدودیت های حافظه امکان نگهداری این حجم از ویژگی وجود دارد و از طرفی زمان بسیار زیادی بایستی صرف شود تا فرآیند یادگیری شروع شود. 2) ویژگی ها توسط کوئری های موجود در SQL تولید می شوند که اجرای این کوئری ها محدود به زمان پروسسور است تقریبا پروسسور هر صدهزار کوئری را در 24 ساعت اجرا می کند. از طرفی بسیاری
خرید متن کامل این پایان نامه در سایت nefo.ir
از ویژگی ها تولیدی بی ربط و تکراری هستند. این موضوع نشان می دهد که شمار کمی از این ویژگی های تولیدی در عمل در فرآیند یادگیری موثر است و لذا تولید ویژگی ها هزینه بر است [32]. بر این اساس برای فائق آمدن بر این مشکلات، مفهوم ویژگی های جریانی شکل گرفت و تلاش شد تا با تولید دینامیک ویژگی ها و بررسی این ویژگی ها در زمان تولید و تاثیر آن بر روال یادگیری فرآیند تولید ویژگی ها را هدایت کنند.
برای برخورد با چالش های مطرح شده، بایستی فرآیند یادگیری قابلیت پاسخگویی به ویژگی های جریانی را داشته باشد. در واقع، روال یادگیری بایستی بصورت افزایشی با دریافت هر ویژگی قابل بروزرسانی شدن داشته باشد بدون اینکه به اولین مرحله یادگیری بازگردد. لذا در راستای استخراج الگوهای قوی بایستی در ابتدا ویژگی ها بررسی شوند و ویژگی هایی که بی ربط هستند را حذف کرد، سپس از روی ویژگی های مفید و قوی ، الگوها را استخراج کرد.
چالشهای موجود در استخراج الگوهای نوظهور
در روال استخراج این الگوها سه مساله اساسی وجود دارد:
- چگونه مجموعه مفید و موثری از الگوهای نوظهور، بین داده های کلاس های مختلف استخراج شود؟
- از آنجایی که همه این الگوها مفید نیستند در واقع شمار زیادی از این الگوها در راستای یادگیری مدل و کلاسه بند بکار نمی روند، در نتیجه بایستی بتوان مجموعه کوچک و در عین حال قوی از این الگوها تشکیل داد، در همین راستا مسائلی که مطرح می شود این است که کدامیک از این الگوها برای هدف یادگیری و کلاسه بند مفید است و در واقع چگونه می توان مجموعه قوی از این الگوها را تشکیل داد؟ از طرفی موضوع دیگر ابعاد ویژگی های مسئله خواهد بود، در صورتی که ابعاد ویژگی ها بالا باشد، در نتیجه شمار الگوهای نوظهور سیر صعودی خواهد داشت که شمار زیاد از این الگوها هم برای آنالیز داده ها بصورت برخط مشکل ساز است و هم این که روال یادگیری و کلاسه بند را زمانبر و هزینه بر می کند که مناسب نیست. لذا با بیان این مسائل بایستی بتوان مجموعه کوچک و در عین حال قوی از الگوهای نوظهور را تشکیل داد که این موضوع خود موضوعی چالش برانگیز است، و اینکه کدامیک از الگوهای جدید مفید و موثر هستند ؟
- کدامیک از این الگوها برای هدف کلاسه بند مفید هستند؟ و چگونه این الگوها یک کلاسه بند مفید و موثر و در عین حال دقیق را می سازند؟
- طریقه استفاده از این الگوها و یا همان مدل است که بتواند از الگوها بخوبی بهره گرفته و کلاسه بندی دقیقی را انجام دهد بطوری که دقت کلاسه بند بالا باشد.
وقتی که ابعاد ویژگی ها بالا باشد، استخراج الگوهای نوظهور مشکل تر خواهد شد؛ چرا که ذخیره، بازیابی، هرس و مرتب کردن آنها برای کلاسه بند با تعداد کاندیداهای بسیار زیاد الگوها، سخت و یا غیرممکن خواهد شد. با ظهور داده های حجیم و بزرگ که شامل صدها هزار ویژگی هستند مانند پردازش تصویر ، داده های ژنی و داده های متنی و … ، فضای جستجوی این الگوها نسبتاً بزرگ، هزینه بر و گاهی اوقات حتی غیرممکن است [19].
ایجاد یک مدل بر اساس الگوهای نوظهور با داده های با ابعاد بالا و نمونه های حجیم یک موضوع چالش برانگیز است. مشکل حتی سخت تر می شود اگر همه فضای ویژگی ها، قبل از عملیات یادگیری در دسترس نباشد و یا نامتناهی باشد [19].
از طرفی روش های یادگیری مرسوم [37، 38، 40] قادر هستند که بحث چند کلاسه را از طریق روش های دو به دو مثل یکی در مقابل یکی و یکی در مقابل همه مدیریت کنند. بلاوه، بسیاری از روش های موجود استخراج الگوهای نوظهور مانند روش های مبتنی بر مرز [1، 3، 13] و روش های مبتنی بر محدودیت [2]، الگوهای مربوط به هر کلاس را در فرآیند جداگانه ای استخراج می کنند که این امر مطلوب نیست و منجر به تکرار محاسبات سنگین می شود. لذا بایستی بتوان روش استخراجی ارائه داد که این قابلیت را دارا باشد که تمامی الگوهای کلاس های مختلف را بصورت همزمان استخراج کند.
بنابراین در این حوزه با موضوعات چالش برانگیزی بدین شرح روبرو هستیم:
- چگونه بصورت موثر، مجموعه کوچکی از الگوهای نوظهور قوی را از داده های با ابعاد بالا استخراج کنیم؟
- چگونگی استخراج کردن الگوهای نوظهور وقتی که کل ویژگی ها قبل از فرآیند یادگیری در دسترس نیستند؟
- چگونگی ارائه مدل افزایشی و دینامیک در پاسخ به ویژگی های جریانی؟
فرم در حال بارگذاری ...
[شنبه 1400-05-16] [ 05:39:00 ب.ظ ]
|