۴-۵-۳- شاخص Rand
همانطور که گفته شد شاخص Rand نرخ تصمیمات صحیح اتخاذ شده در خوشهبندی را محاسبه میکند. مقدار محاسبه شده برای این شاخص عددی بین صفر و یک است. هر چه این مقدار بزرگتر باشد خوشهبندی مناسبتری را در اختیار خواهیم داشت. ما این معیار را برای هر یک از خوشهبندیهای نهایی تولید شده، محاسبه نموده و الگوریتم پیشنهادی را با ۴ الگوریتم دیگر در نمودارهای مختلف مقایسه خواهیم نمود. هر یک از شکلهای ۴-۱۰ تا ۴-۱۳ ارزیابی شاخص Rand را به ترتیب برای مجموعههای دادهای iris، glass، vehicle و segment به ازاء ۵ الگوریتم نشان میدهند.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
شکل ۴-۱۰ ارزیابی شاخص Rand برای مجموعه دادهای iris در دو حالت با تعداد خوشههای ۳ و ۴
شکل ۴-۱۱ ارزیابی شاخص Rand برای مجموعه دادهای glass در سه حالت با تعداد خوشههای ۴، ۶ و ۸
شکل ۴-۱۲ ارزیابی شاخص Rand برای مجموعه دادهای vehicle در دو حالت با تعداد خوشههای ۴ و ۸
شکل ۴-۱۳ ارزیابی شاخص Rand برای مجموعه دادهای segment در دو حالت با تعداد خوشههای ۴ و ۸
ارزیابی شاخص Rand برای ۴ مجموعه دادهای و به ازاء هر یک از ۵ الگوریتم خوشهبندی توافقی نشان میدهد که الگوریتم COHD در افزایش مقدار این شاخص مؤفقتر عمل نموده است. البته مانند معیار دقت، الگوریتم COHD در خوشهبندی مجموعه دادهای glass با تعداد ۶ و ۸ خوشه نتوانسته است مقدار بیشتری را برای شاخص Rand نسبت به ۴ الگوریتم دیگر کسب نماید. علت آن نیز همان مسئلهای است که در بخش ۴-۵-۱ برای معیار دقت مطرح گردید.
۴-۵-۴- متوسط اطلاعات دوجانبه نرمال سازی شده (ANMI)
همانطور که گفته شد معیار NMI میزان به اشتراک گذاری اطلاعات بین دو خوشهبندی (دو توزیع آماری) را محاسبه مینماید. ANMI نیز میانگین NMIهای محاسبه شده بین خوشهبندی نهایی و هر یک از خوشهبندیهای اولیه میباشد. مقدار محاسبه شده برای این معیار عددی بین صفر و یک است. مقدار بیشتر برای معیار ANMI بیانگر این است که خوشهبندی نهایی توافق بیشتری با اجتماع خوشهبندیها دارد. ما این معیار را برای هر یک از خوشهبندیهای نهایی تولید شده، محاسبه نموده و الگوریتم پیشنهادی را با ۴ الگوریتم دیگر در نمودارهای مختلف مقایسه خواهیم نمود. هر یک از شکلهای ۴-۱۴ تا ۴-۱۷ ارزیابی معیار ANMI را به ترتیب برای مجموعههای دادهای iris، glass، vehicle و segment به ازاء ۵ الگوریتم نشان میدهند.
شکل ۴-۱۴ ارزیابی معیار ANMI برای مجموعه دادهای iris در دو حالت با تعداد خوشههای ۳ و ۴
شکل ۴-۱۵ ارزیابی معیار ANMI برای مجموعه دادهای glass در سه حالت با تعداد خوشههای ۴، ۶ و ۸
شکل ۴-۱۶ ارزیابی معیار ANMI برای مجموعه دادهای vehicle در دو حالت با تعداد خوشههای ۴ و ۸
شکل ۴-۱۷ ارزیابی معیار ANMI برای مجموعه دادهای segment در دو حالت با تعداد خوشههای ۴ و ۸
ارزیابی معیار ANMI نشان میدهد که الگوریتم COHD خوشهبندیهای نهایی را اغلب به گونهای تولید میکند که توافق بیشتری را با خوشهبندیهای اولیه، نسبت به ۴ الگوریتم دیگر، دارا میباشند.
۴-۶- خلاصه فصل
در این فصل نتایج ارزیابی معیارهایی نظیر دقت، DB، Rand و متوسط اطلاعات دوجانبه نرمال سازی شده (ANMI) برای ۴ مجموعه دادهای و به ازاء ۵ الگوریتم خوشهبندی توافقی ارائه گردید. مجموعههای دادهای به طور تصادفی به زیر مجموعههایی از صفات خاصه تقسیم شدند تا با خوشهبندی هر یک، اجتماع اولیهی خوشهبندیها تولید گردد. ارزیابیها بر روی خوشهبندیهایی با تعداد خوشههای برابر انجام شد و تأثیر تعداد خوشهها بر روی نتایج نیز با در نظر گرفتن تعداد خوشهی مختلف در اجتماع خوشهبندیها نشان داده شد.
هیچ یک از معیارهای ارزیابی خوشهبندی نمیتوانند با قطعیت برتری یک الگوریتم خوشهبندی را نشان دهند. از طرف دیگر انتخاب الگوریتم خوشهبندی مناسب برای یک کاربرد مشخص یکی از مسائل چالش برانگیز خوشهبندی میباشد. از اینرو، نمیتوان الگوریتمی را به عنوان الگوریتم برتر در تمامی کاربردها مطرح نمود. با این حال نتایجی که ما در آزمایشات بدست آوردیم بیانگر آن است که الگوریتم خوشهبندی(COHD) که در این پایان نامه پیشنهاد شده است اغلب از کارآیی بالاتری نسبت ۴ الگوریتم IVC، CSPA، HGPA و MCLA برخوردار است.
فصل پنجم
نتیجهگیری و کارهای آینده
۵-۱- مقدمه
در این فصل ابتدا به بحث و نتیجهگیری در رابطه با فرایند پیشنهادی در این پایان نامه جهت انجام خوشهبندی توافقی بر روی دادههای توزیع شده ناهمگن میپردازیم. سپس پیشنهادهایی را جهت انجام کارهای آینده در راستای کار تحقیقاتی انجام گرفته، ارائه خواهیم نمود.
۵-۲- نتیجهگیری
خوشهبندی توافقی به مسئله ترکیب چند خوشهبندی میپردازد، به گونهای که یک خوشهبندی واحد با کیفیت بالاتر بدست آید. در این پایان نامه، ابتدا کارهای اخیر انجام شده در زمینهی خوشهبندی توافقی مورد بررسی قرار گرفت و تا حد امکان ویژگیها، مزایا و معایب هر یک از روشهای ذکر شده ارائه گردید. یکی از روشهای خوشهبندی توافقی، خوشهبندی رأی محور است. در این نوع خوشهبندی، جهت قرار دادن یک شئ داده در یکی از خوشههای خوشهبندی نهایی، بین اجتماع خوشهبندیها رأی گیری انجام میشود. به این صورت که سعی میگردد شئ داده در خوشهای قرار گیرد که اکثریت خوشهبندیهای اولیه با آن مؤافقند.
اغلب روشهای خوشهبندی توافقی رأی محور، برای هر یک از خوشهبندیهای اولیه، رأی مساوی با دیگر خوشهبندیها در نظر میگیرند. به عبارت دیگر، خوشهبندیهای اولیه به یک اندازه بر روی تولید خوشهبندی نهایی تأثیرگذار خواهند بود. این مسئله هنگامی که خوشهبندیهای اولیه از تنوع کیفیت متفاوتی برخوردار باشند (خوشهبندیهایی با کیفیت پایین در اجتماع خوشهبندیها وجود داشته باشد)، میتواند سبب کاهش کیفیت خوشهبندی نهایی تولید شده گردد. زیرا در این حالت خوشهبندیهایی با کیفیت پایین نیز به اندازهی خوشهبندیهایی با کیفیت مناسب در نتیجهی نهایی تأثیرگذار میباشند.
وجود تنوع کیفیت در خوشهبندیهای اولیه، به ویژه زمانی که دادهها به صورت ناهمگن توزیع شده باشند، نمود بیشتری پیدا میکند. در حالتی که خوشهبندیها بر روی زیر مجموعههایی از صفات خاصهی مجموعه دادهای ایجاد شده باشند، به دلیل عدم وجود تمامی ویژگیهای یک شئ داده در زمان خوشهبندی، میتوان این انتظار را داشت که خوشهبندیهای ایجاد شده از خطای بالاتری برخوردار باشند. از اینرو، روشهایی که اجازه تأثیرگذاری برابر را به خوشهبندیهای اولیه میدهند، خوشهبندیهایی تولید میکنند که اغلب از کیفیت مناسبی برخوردار نمیباشند.
ما در این پایان نامه فرآیندی را جهت انجام خوشهبندی توافقی بر روی دادههای توزیع شده ناهمگن ارائه نمودیم. روش پیشنهادی یک روش رأی محور میباشد که خوشهبندی توافقی را به صورت وزنی انجام میدهد. فرایند پیشنهادی از سه مرحلهی ۱) تشخیص نظیر به نظیر بودن خوشهها در خوشهبندیهای مختلف، ۲) وزن دادن به خوشهبندیها و ۳) خوشهبندی توافقی بر روی داده های توزیع شده ناهمگن تشکیل میشود. این سه مرحله را در ادامه بررسی خواهیم نمود.
تشخیص نظیر به نظیر بودن خوشهها در خوشهبندیهای مختلف: تشخیص نظیر به نظیر خوشهها به این مسئله میپردازد که خوشهای مشخص در یک خوشهبندی که دارای یک برچسب و یا یک شماره است متناظر با کدام خوشه در یک خوشهبندی دیگر میباشد. بسیاری از روشهای خوشهبندی توافقی مانند روشهای شباهت دوبهدو و مدل ترکیبی نیازی به حل این مسئله ندارند. اما روشهای رأی محور از آنجا که رأی گیری را بر اساس برچسب خوشهها انجام میدهند، باید به حل این مسئله بپردازند. با این حال برخی از روشهای رأی محور نیز، مانند روش IVC، خوشهبندی توافقی را بدون در نظر گرفتن این مسئله انجام میدهند. روشهای موجود جهت تشخیص نظیر به نظیر بودن خوشه ها، در حالتی که تعداد خوشهها در خوشهبندیها متفاوت باشد، قادر به تشخیص خوشههای متناظر نمیباشند.
ما در این پایان نامه روشی را جهت تشخیص دوسویه بودن خوشهها را ارائه نمودیم که این مسئله را به صورت یک مرحلهی پیش پردازش، قبل از انجام خوشهبندی توافقی و با برچسب گذاری مجدد خوشهها، میتواند حل نماید. الگوریتم پیشنهادی جهت این مسئله، در شرایطی که تعداد دادهها و یا تعداد خوشهها در خوشهبندیهای اولیه متفاوت باشد نیز میتواند خوشههای نظیر به نظیر را در خوشهبندیهای اولیه بیابد.
وزن دادن به خوشهبندیها: همانطور که اشاره گردید وجود خوشهبندیهایی با کیفیت پایین در خوشهبندیهای اولیه میتواند سبب کاهش خوشهبندی نهایی تولید شده بوسیلهی الگوریتمهای خوشهبندی توافقی گردد. از طرف دیگر در این حالت روشهای رأی محوری که رأی گیری را به طور یکسان بین خوشهبندیهای اولیه انجام میدهند، میتوانند خوشهبندیهایی تولید کنند که از کیفیت پایینتری برخوردارند. از اینرو، ما در این پایان نامه روشی را جهت وزندار نمودن خوشهبندیها ارائه نمودیم.
در روش پیشنهادی ما با بهره گرفتن از یکی از معیارهای داخلی ارزیابی خوشهبندی، خوشهبندیهای اولیه را وزندار مینماییم. معیار استفاده شده جهت انجام این کار، شاخص Davies-Bouldin میباشد. این شاخص برای خوشهبندیهایی با خوشههای فشردهتر و تفکیک شدگی بیشتر بین خوشهها، مقدار کوچکتری را تولید میکند. در اغلب مواقع میتوان انتظار داشت که خوشهبندیهایی که از تفکیک شدگی مناسب بین خوشهها برخوردارند و همچنین دارای خوشههای فشردهتری هستند، از کیفیت مناسبی نیز برخوردار باشند.
خوشهبندی توافقی بر روی داده های توزیع شده ناهمگن: پس از تشخیص دو سویی بین خوشهها و وزندار نمودن خوشهبندیها، ما الگوریتمی جهت ترکیب خوشهبندی ارائه نمودیم که خوشهبندی توافقی را با توجه به وزن اختصاص داده شده به خوشهبندیها انجام میدهد. الگوریتم پیشنهادی خوشهبندی را به صورت رأی محور انجام میدهد، اما خوشهبندیای در نتیجهی نهایی تأثیرگذارتر است که از وزن بالاتری نسبت به سایر خوشهبندیها برخودار باشد.
ما در این پایان نامه فرایند پیشنهادی را بر روی دادههایی که به صورت ناهمگن توزیع شده بودند، آزمایش نمودیم. سپس نتایج بدست آمده در این آزمایشات را با ۴ الگوریتم دیگر شامل الگوریتمهای IVC، CSPA، HGPA و MCLA بر اساس ۴ معیار شامل معیار دقت، شاخص DB، شاخص Rand و معیار ANMI مورد مقایسه قرار دادیم. نتایج مقایسههای انجام شده نشاندهنده این است که خوشهبندیهای تولید شده توسط فرایند پیشنهادی اغلب از کیفیت بالاتری نسبت به ۴ روش دیگر برخوردار میباشند.
۵-۳- کارهای آینده
تحقیق فرآیندی مستمر و بیانتها است. تحقیقات انجام گرفته در این پایان نامه و الگوریتمهای پیشنهادی به طور قطع کامل و بی نقص نمیباشند. از اینرو، در ادامه به ارائه پیشنهاداتی در راستای تحقیقات و پژوهشهای انجام گرفته در این پایان نامه خواهیم پرداخت.
بررسی معیارهای دیگر جهت وزندادن به خوشهها: جهت وزندار نمودن خوشهها ما از شاخص DB استفاده نمودهایم. در اغلب مواقع خوشهبندیهایی با مقدار DB کمتر، از کیفیت مناسبتری نیز برخوردارند، اما این مسئله همیشه صادق نمیباشد. از اینرو، میتوان روشهای دیگری را جهت وزندار نمودن خوشهبندیها مورد بررسی قرار داد تا بتوان به وزنهای اختصاص داده شده به خوشهبندیها اعتماد بیشتری نمود. الگوریتم خوشهبندی توافقی وزنی که در این پایان نامه معرفی گردید، به گونهای است که جهت ترکیب خوشهبندیها روش وزندار نمودن خوشهبندیها برای آن تفاوتی نخواهد داشت. بنابراین تغییر روش وزندار نمودن خوشهها، تغییری در الگوریتم بوجود نمیآورد.آو
تعیین تعداد مناسب خوشهها در خوشهبندی توافقی به صورت متفاوت و متحرک: تعیین تعداد مناسب خوشهها یکی از مسائل مطرح در خوشهبندی میباشد. در الگوریتم پیشنهادی جهت ترکیب خوشهبندیها، باید از ابتدا تعداد خوشهها در خوشهبندی نهایی مشخص گردد که این مسئله به نوعی محدودیت تلقی میشود. یکی از کارهایی دیگری که در این راستا میتوان انجام داد، رفع این محدودیت از الگوریتم پیشنهادی است، به گونهای تعداد مناسب خوشهها به صورت متفاوت و متحرک در حین خوشهبندی توسط الگوریتمی تشخیص داده شود.
خوشهبندی توافقی در محیط توزیع شده: در محیط واقعی به طور معمول دادهها به صورت توزیع شده در منابع مختلف ذخیرهسازی و یا محاسباتی قرار دارند. در این پایان نامه آزمایشات بر روی دادههای توزیع شده ناهمگن صورت پذیرفته است. اما فرض شده است که جهت ترکیب خوشهبندیها، نتایج خوشهبندی بر روی یک منبع محاسباتی قرار دارد. در حقیقت الگوریتم پیشنهادی خوشهبندی را به صورت متمرکز انجام میدهد. جهت نزدیکتر نمودن روش پیشنهادی به محیط واقعی میتوان مدلی ارائه نمود که به جای متمرکز در نظر گرفتن نتایج خوشهبندی، آنها را توزیع شده در نظر گرفت. در این حالت علاوه بر کاهش بار ذخیرهسازی نسبت به حالت متمرکز میتوان برخی از محاسبات الگوریتم را مانند یافتن نمایندهی هر خوشه، که در مجموعههای دادهای بسیار بزرگ میتواند چالش برانگیز باشد، نیز به صورت توزیع شده انجام داد.
مراجع
[۱] | Agarwal, P. K., Har-Peled, S., & Yu, H. 2013. Embeddings of surfaces, curves, and moving points in Euclidean space. SIAM Journal on Computing, 42(2), 442-458. |
[۲] | Alam, S., Dobbie, G., Koh, Y. S., & Riddle, P. 2013, April, Clustering heterogeneous web usage data using hierarchical particle swarm optimization, In Swarm Intelligence (SIS), 2013 IEEE Symposium on (pp. 147-154). IEEE. |