روشهای ابرگراف
مدل ترکیبی
Single link
Comp. link
Avg. link
دیگر روشها
CSPA
HGPA
MCLA
۱-۶- تحقیقات انجام گرفته در پایان نامه
در این پایان نامه تحقیقات انجام گرفته بر روی ارائه روشی است که مسئلهی خوشهبندی توافقی را بر روی دادههای توزیع شده ناهمگن انجام دهد. منظور از دادههای توزیع شده ناهمگن دادههایی است که از تقسیم مجموعه دادهای اصلی به زیر مجموعههایی از صفات خاصه بدست آمده باشد. در چنین حالتی خوشهبندیهایی که بر روی این دادهها ایجاد میشوند اغلب دارای کیفیت مناسبی نمیباشند، زیرا در زمان خوشهبندی تمام ویژگیهای داده در دسترس الگوریتم خوشهبندی نخواهند بود. بنابراین وجود خوشهبندیهایی با کیفیت پایین میتواند باعث تولید خوشهبندیهایی گردند که از کیفیت مناسبی برخوردار نمیباشند.
( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
فرایند پیشنهادی که در این پایان نامه ارائه خواهد شد از سه قسمت عمده تشکیل میشود: ۱) تشخیص نظیر به نظیر بودن خوشهها، ۲) وزندار نمودن خوشهبندیهای اولیه و ۳) خوشهبندی توافقی بر روی داده های توزیع شده ناهمگن. جهت تشخیص نظیر به نظیر بودن خوشهها بین خوشهبندیها، ما الگوریتمی ارائه خواهیم نمود که تشخیص دهد کدام دو خوشه در دو خوشهبندی مختلف، متناسب یکدیگر میباشند. وزندار نمودن خوشهبندیها به این هدف انجام میشود که خوشهبندیهایی با کیفیت بالاتر در تولید نتیجهی نهایی، نسبت به خوشهبندیهایی که از کیفیت پایینتری برخوردارند، تأثیرگذاری بیشتری داشته باشند. جهت وزندار نمودن خوشهبندیها ما روشی را بر اساس استفاده از معیار Davies-Bouldin ارائه خواهیم نمود. خوشهبندی توافقی نیز بر اساس وزن اختصاص داده شده به هر یک از خوشهبندیها به صورت رأی محور انجام میگردد. به این صورت که رأی خوشهبندیای با وزن بالاتر، در تولید نتیجهی نهایی تأثیرگذارتر است.
۱-۷- نتایج بدست آمده
ما فرایند پیشنهادی را بر روی دادههای توزیع شده ناهمگن مورد ارزیابی قرار دادهایم تا کارآیی الگوریتم پیشنهادی را در شرایطی نشان دهیم که اجتماع اولیه خوشهبندیها دارای خوشهبندیهایی از کیفیت پایین نیز میباشد. نتایج ارزیابی الگوریتم پیشنهادی و مقایسهی آن با ۴ الگوریتم مطرح دیگر (IVC، CSPA، HGPA و MCLA) در زمینهی خوشهبندی توافقی در فصل ۴ ارائه میگردد. نتایج بدست آمده در کار عملی نشان دهندهی این مسئله است که فرایند پیشنهادی اغلب از کارآیی بالاتری نسبت به ۴ روش دیگر برخوردار است.
۱-۸- ساختار پایان نامه
در فصل بعدی کارهای مرتبط با خوشهبندی توافقی مورد بررسی قرار خواهد گرفت. در فصل ۳ به بررسی الگوریتم پیشنهادی جهت خوشهبندی توافقی بر روی دادههای توزیع شده ناهمگن خواهیم پرداخت. در فصل ۴ نتایج بدست آمده از پیاده سازی و آزمایش الگوریتم بر روی مجموعههای دادهای ارائه میشود. در فصل ۵ نیز به نتیجه گیری و ارائه پیشنهاد جهت کارهای آینده میپردازیم.
فصل دوم
مروری بر کارهای انجام شده
۲-۱- مقدمه
در این فصل به بررسی کارهای انجام شده در زمینهی خوشهبندی و به ویژه خوشهبندی توافقی خواهیم پرداخت. ابتدا انواع روشهای موجود در خوشهبندی به طور اجمالی بررسی میشوند. سپس یکی از الگوریتمهای مطرح در خوشهبندی به نام الگوریتم K-Means تشریح میگردد. دلیل بررسی این الگوریتم استفاده از ساختار و نحوهی عملکرد آن در الگوریتم پیشنهاد شده در این پایان نامه است. پس از آن به مرور کارهای انجام شدهی اخیر در زمینهی خوشهبندی توافقی پرداخته خواهد شد. در نهایت نیز روشهای تولید اجتماع اولیهی خوشهبندیها بررسی میشود.
۲-۲- روشهای خوشهبندی
یکی از مهمترین فعالیتهای اصلی بشر، گروهبندی موضوعات و مسائل مشابه است. انسانها جهت آموختن موضوعی جدید یا درک پدیدهای نو، همیشه سعی در یافتن ویژگیهایی دارند که آن موضوع یا پدیده را تشریح کند، سپس میزان تشابه یا تفاوت آن را با موضوعات و یا پدیدههای شناخته شده قبلی مقایسه کنند [۷۲]. به مجموعهای از اشیاء مشابه، خوشه و به مجموعهای از خوشهها، خوشهبندی گفته میشود. خوشهبندی یک روش یادگیری نظارت نشده بشمار میآید، به این دلیل که بر خلاف طبقهبندی (به عنوان یک روش یادگیری نظارت شده) هیچ برچسب گذاری اولیهای که از طریق آن بتوان گروه دادهها را تشخیص داد، بر روی دادهها انجام نشده است. خوشهبندیای مناسب و مطلوبست که میزان وابستگی اشیاء درون خوشهها بیشینه و میزان وابستگی اشیاء در خوشههای مجزا کمینه باشد.
انجام خوشهبندی مسئلهی مشکلی بشمار میآید، به این دلیل که عوامل زیادی (نظیر روشهای مؤثر جهت اندازهگیری میزان تشابه، الگوریتمها و پارامترهای اولیه آنها) در انتخاب یک روش خوشهبندی مناسب برای یک مسئله خوشهبندی مشخص، تأثیرگذار است. علاوه بر این، واضح است که هیچ روش خوشهبندیای به تنهایی نمیتواند تمام ویژگیهای لازم (شکل، اندازه و تراکم[۴۲]) برای یک خوشه را بدرستی تشخیص دهد [۴۵].
بعضی از مواقع میتوان کیفیت خوشهبندی را با اجرای پیش پردازش[۴۳] لازم بر روی دادهها بهبود بخشید. به عنوان مثال میتوان مقادیر دارای نویز را شناسایی و حذف نمود. استفاده از روشهای پس پردازش[۴۴] نیز میتواند سبب افزایش کیفیت خوشهبندی شود. به عنوان مثال، خوشههای کوچکی که ممکن است دارای دادههای دور افتاده (مقادیر همراه با نویز) باشند، حذف شوند و یا اینکه دو خوشه مشابه در یکدیگر ادغام شوند. همچنین میتوان خوشههای بزرگ را به خوشههای کوچکتری تقسیم نمود [۴۵]. فرایند خوشهبندی شامل ۴ مرحله میشود. شکل ۲-۱ این ۴ مرحله و ترتیب اجرای آنها را نشان میدهد.
شکل ۲-۱ فرایند خوشهبندی. خوشهبندی در حالت ساده شامل ۴ گام با یک مسیر بازخورد میشود[۷۲].
به دلیل تنوع بسیار زیاد روشهای خوشهبندی و شباهتهای زیاد بین برخی از روشها، ارائه یک بررسی کامل از این روشها کار سادهای نمیباشد. با این حال روشهای مختلف خوشهبندی در [۴۵،۳۶] به گونهای مناسب مورد نقد و بررسی قرار گرفتهاند. بر این اساس الگوریتمهای خوشهبندی را میتوان به روشهای بخشبندی[۴۵]، روشهای سلسله مراتبی[۴۶]، روشهای تراکم محور[۴۷]، روشهای شبکهای محور[۴۸]، روشهای مدل محور[۴۹]، روشهای فازی[۵۰] و روشهای خوشهبندی مجموعههای دادهای بزرگ[۵۱] تقسیم نمود.
موضوع اصلی این پایان نامه، روشهای ترکیب چندین خوشهبندی (به گونهای که یک خوشهبندی واحد بدست آید) و ارائه الگوریتم پیشنهادی در این زمینه میباشد. با این حال به منظور بیان مقدمات لازم، در ادامه به طور مختصر به دو گروه بزرگ از روشهای خوشهبندی، یعنی روشهای بخشبندی و روشهای سلسله مراتبی اشاره خواهد شد.
روشهای بخشبندی
فرض کنید مجموعه دادهای[۵۲] به صورت X={x1, x2, …, xN} باشد. هر یک از دادهها برداری به صورت خواهند بود، که در آن xij یکی از صفات خاصه[۵۳] (ویژگی[۵۴]) بردار یا چندتایی[۵۵] xi و d تعداد صفات خاصه میباشد. روشهای بخشبندی سعی در یافتن K خوشه از مجموعه دادهای X به صورت π={C1, C2, …, CK} دارند به طوری که [۱۱]:
در الگوریتمهای بخشبندی، هر خوشه دارای یک بردار به عنوان مرکز خوشه است. اشیاء داده زمانی به یک خوشه تعلق مییابند که کمترین فاصله را با مرکز آن خوشه نسبت به خوشههای دیگر دارا باشند. جهت محاسبهی فاصلهی بین دو شئ داده، روشهای مختلفی وجود دارد که برخی از آنها ه همراه ویژگیهایشان درجدول ۲-۱ معرفی شدهاند. پس از تخصیص تمام اشیاء داده به خوشههای موجود، مرکز خوشهها دوباره محاسبه میگردند. این فرایند دو مرحلهای (تخصیص اشیاء داده به خوشهی مناسب و محاسبهی مرکز خوشهها)، به طور معمول تا زمانی تکرار میشود که هیچ دادهای از یک خوشه به خوشهی دیگر منتقل نشود.
جدول ۲-۱ روشهای مختلف اندازه گیری فاصلهی دو بردار xi و xj
اندازه گیریها | روابط | توضیحات | کاربردها |
فاصلهی Minkowski | صفات خاصهای با مقادیر و واریانس بزرگ بر روی دیگر صفات خاصه تأثیر گذار خواهند بود. | الگوریتم C-Means به صورت فازی بر مبنای فاصلهی Minkowski [33]. | |
فاصلهی اقلیدسی[۵۶] |