در این بخش قصد داریم کارهای انجام شده در زمینهی داده کاوی توزیع شده، و استفاده از عامل برای داده کاوی را بررسی نماییم. قبل از بیان این موارد ابتدا لازم است تا با ارائه یک ساختار درختی جایگاه کارهای مورد بررسی در حوزه داده کاوی را به صورت کلی نشان دهیم (شکل ۲-۲). تقریباً اکثر کارهایی که در بخش داده کاوی توزیع شده و نیز کاربرد عامل برای داده کاوی انجام شده و در این گزارش مورد بررسی قرار گرفتهاند، شامل کارهایی هستند که در درخت شکل ۲-۲ در نود شماره ۱.۱.۲.۲ و نودهای فرزند آن قرار میگیرند.
( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
از آنجا که بیشتر کارهای انجام شده در زمینه استفاده از عامل برای داده کاوی در زمینه داده کاوی توزیع شده بوده است، لذا اجازه دهید تا ابتدا بحث داده کاوی توزیع شده را به همراه برخی از مهمترین کارهای انجام شده مورد بررسی قرار دهیم و سپس به بحث استفاده از عاملها در این زمینه بپردازیم.
۱
۱.۲
۱.۱
Data Mining
Static
Dynamic
(Active)
۱.۱.۲
۱.۱.۱
Central
Vertically partitioned
Horizontally partitioned
Data Integration
Distributed
۱.۱.۲.۱
۱.۱.۲.۲
۱.۱.۲.۲.۲
۱.۱.۲.۲.۱
Model Integration
شکل ۲- ۲: درخت تحقیق مبحث دادهکاوی
۲-۶-۱- داده کاوی توزیع شده
در [۳۱] آقای گروسمن، دادهکاوی را استخراج نیمه اتوماتیک مدلها، الگوها، تغییرات، ناهنجاریها، و دیگر ساختارهای مهم آماری از مجموعه دادههای بزرگ تعریف کرده است. کاوش پایگاه دادههای توزیع شده [۳۱-۳۳] موضوعی کاربردی است که حجم عظیم تحقیقات انجام شده در این حوزه، سبب پیشرفت چشمگیری در تکنیکهای طبقهبندی [۳۴-۳۶]، خوشهبندی [۳۷, ۳۸]، OLAP [39, ۴۰]، کاوش الگوریتمهای پرتکرار [۴۱-۴۴]، کاوش جریان داده [۴۵, ۴۶]، و ارزیابی شباهت پایگاه دادهها [۴۷, ۴۸] شده است. تقریباً، در هر حوزه اصلی پژوهشی داده کاوی، حداقل یک ماژول یا الگوریتم کاوش توزیع شده وجود دارد. موضوعات اصلی این فعالیتهای تحقیقاتی، به اشتراک گذاشتن شباهتهاست به این ترتیب که همهی آنها از روش یکپارچه کردن و/ یا مقایسه منابع داده توزیع شده برای رسیدن به هدف مشترک بهره میبرند.
به طور کلی، دو گروه عمده در تحقیقات مربوط به داده کاوی توزیع شده قابل تشخیص است. گروه اول عبارت است از کارهائی که به از بین بردن مشکل توزیع اطلاعات از راه تجمع اطلاعات در یک نقطه مرکزی با بهره گرفتن از الگوریتمها و پروتکلهای بهبود یافته شبکه میپردازند و با فرض این مسئله که در داده کاوی توزیع شده دقت و هزینه (ناشی از انتقال اطلاعات) مقابل یکدیگر قرار دارند، برای دستیابی به یک راهحل قابل قبول از طریق وضع یک استراتژی افزایش دقت در مقابل حداقل هزینه (در حالتی که هزینه انتقال اطلاعات قابل صرفنظر نیست) تلاش می کنند. سیستم Papyrus بر این مبنا استوار است.[۴۹] این دسته از کارها در درخت تحقیق شکل ۲-۲ در نود ۱.۱.۲.۲.۱ قرار میگیرند. گروه دوم از کارهای انجام شده در زمینه داده کاوی توزیع شده، با در نظر گرفتن حالتهای مختلف توزیع اطلاعات، به ارائه روشهایی برای داده کاوی بدون انتقال اطلاعات خام به یک نقطه مرکزی و معمولاً از طریق جابهجائی اطلاعات میانی مختلف بین سایتها میپردازند؛ معمولاً در تمام این روشها، تلاش بر حداقل ساختن ارتباطات است. این گروه از کارها در درخت تحقیق شکل ۲-۲ در جایگاه ۱.۱.۲.۲.۲ قرار دارند. در پژوهش [۵۰] روشی برای استخراج قواعد وابستگی از اطلاعات توزیع شده، با حداقل ارتباط بین فرآیندهای در حال استخراج قوانین ارائه می کند. همچنین به عنوان نمونه ای از تحقیقات انجام شده در زمینه حفظ حریم خصوصی در فرایند داده کاوی، میتوان به [۵۱] اشاره نمود. دو نمونه دیگر از کاربردهای داده کاوی توزیع شده را میتوانید در [۵۲] و [۵۳] مشاهده کنید. در این دو مرجع با بهره گرفتن از مدلهای ایجاد شده به صورت توزیع شده توسط نودهای مختلف در شبکه و سپس ایجاد مدل داده کلی، سعی می شود تا عملیات نفوذ به شبکه شناسایی و خنثی گردد. البته در [۵۳] در هر نود مذکور در شبکه یک عامل قرار دارد که فعالیتهای مربوط به ایجاد مدل داده و ارتباط با دیگر عاملها را بر عهده دارد.
از دیدگاه طبقهبندی و خوشهبندی، مشکل کشف الگو از پایگاه دادههای توزیع شده ناشی از چگونگی آموزش مدلهای کلی از اطلاعات بدست آمده از چندین پایگاه داده است. برای تحقق این هدف از دو روش میتوان استفاده کرد، جمع آوری دادهها در قالب یک نگاه واحد، و یا یکپارچهسازی مدلهای ساخته شده از پایگاه دادههای مجزا.[۵۴, ۵۵] Kargupta و همکاران یک چارچوب داده کاوی اشتراکی با یک کلید اصلی برای یکپارچه کردن دادهها در یک نگاه واحد پیشنهاد دادند.[۵۶] فرضیات مشابهی برای حفظ حریم خصوصی در داده کاوی [۵۷, ۵۸]، یکدسته کردن و جمع آوری خوشهها [۳۸]، و یکپارچه سازی مدل برپایهی کرنل [۵۴]، از دادههای ناهمگون ارائه شده است. یین[۲۷] و همکارانش یک کاوشگر عرضی برای طبقهبندی پایگاه دادههای رابطهای چندگانه پیشنهاد داده بودند. [۵۹] وانگ[۲۸] و همکارانش، مشکل تقویت خوشهبندی چند نوع شی بین رابطهای (به عنوان مثال اسناد وب) را مورد بررسی قرار دادند.[۶۰] مشکل کاوش الگوی پرتکرار برای پایگاه دادههای توزیع شده به خوبی مورد مطالعه قرار گرفته است [۴۲, ۴۳, ۵۰, ۵۶, ۶۱-۶۷] و سه سازوکار توزیع شمارشی[۲۹]، توزیع دادهها، و توزیع کاندید[۳۰] ارائه شده است. [۵۶] در تمام این فعالیتهای پژوهشی، در درجهی اول، تمرکز بر روی کاوش پایگاه دادههای بزرگ، یا جریانهای داده متوالی (به عبارتی کاوش الگوهای ال[۳۱])، یا یکپارچه کردن الگوهای کشف شده از پایگاه دادههای مجزا در قالب یک دانش جدید (به عبارتی کاوش الگوهای جی[۳۲]) بوده است. همچنین برخی از معماریهای سیستم به منظور کشف الگوهای پرتکرار از مجموعه دادههای در مقیاس ترابایت که بر روی سیستمهای خوشهای اجرا میشوند [۶۸]، طراحی شدهاند که از داده ساختارهای فشرده (مشابه درخت FP[33] [۶۹])، و متدهای رمزنگاری مختصر استفاده میکنند. هرچند، این چارچوبها و راه حلها دامنهی کاری خود را به حجم داده محدود میکنند، اما، هیچ سازوکاری برای مطالعهی مقایسهای بر روی پایگاه دادههای متعدد و کشف روابط بین الگوها ندارند.
هنگامی که دادهها در چندین منبع داده (متمرکز یا توزیع شده) وجود دارند، یکی از مهمترین کارها، بررسی شباهت بین پایگاه دادهها برای کشف اطلاعات ساختاری بین آنها به منظور خوشهبندی[۷۰] یا طبقهبندی[۷۱] است. آقایان parthasarathy [72] و لی [۴۷] مشکل ارزیابی شباهت پایگاه داده با مقایسه قوانین انجمنی از پایگاه دادههای مختلف، به عنوان مثال، قوانین یکسان کشف شده از پایگاه دادههای مختلف، و تعداد تکرار نمونههایی که از آن قانون تبعیت میکنند، را مورد بررسی و مطالعه قرار دادند. اهمیت یافتن اختلافات بین پایگاه دادهها، مسئلهای است که توسط محققان بسیاری مورد مطالعه قرار گرفته است [۴۸, ۷۳-۷۵]، و اکثر روشها بر روی مقایسهی یک جفت پایگاه داده در یک زمان تمرکز دارند. وب[۳۴] و همکارانش، یک روش بر پایهی قانون، به منظور کشف مجموعه تضادهای بین دو پایگاه داده پیشنهاد دادند.[۴۸] Xu و همکارانش، روشی برای کشف انتظارات نسبی بین محصولات از دیدگاه مشتریان پیشنهاد دادند.[۷۶] در مرجع [۷۵]، روشهایی برای ارزیابی همارزی مفهومی بین دو پایگاه داده ارائه شده است. جی و همکارانش، روشهایی برای کشف الگوهای متوالی با حداقل تمایز بین دو مجموعه داده، پیشنهاد دادند [۷۷] که در آن الگوها به صورت “پرتکرار در پایگاه دادهی A و به طور قابل توجهی کم تکرار در پایگاه دادهی B"، به عبارت دیگر، {(A≥α) & (B≤β)} وجود دارند. تمام این روشها بر یافتن اختلافات (در قالب اقلام داده و یا الگوها) بین دو مجموعه داده، تمرکز دارند، اما نمیتوانند از جستجوهای پیچیده پشتیبانی کنند.
تحقیقات بسیاری در حوزه جستجوی پایگاه داده، و پشتیبانی از عملیات داده کاوی [۷۸-۸۱] صورت گرفته است، و زبانهای جستجوی پایگاه داده برای پشتیبانی از عملیات کاوش، گسترش یافتهاند، اما اغلب فعالیتهای پژوهشی بر روی یک پایگاه دادهی مستقل با شرایط جستجوی نسبتاً ساده تمرکز کردهاند. در مرجع [۷۸] جین و Agrawal، یک سازوکار برپایهی SQL برای کاوش الگوهای پرتکرار بین چندین پایگاه داده، با هدف بهینه سازی جستجوهای کاربران به منظور یافتن الگوهای واجد شرایط ارائه دادند. ۳ نکتهای که در مورد این مقاله باید مورد توجه قرار گیرد: ۱) فعالیتهای انجام شده در تحقیقات آنها تنها بر روی شمارش برنامههای جستجو و انتخاب موردی که کمترین هزینه را دارد، تمرکز کردهاند. ۲) به دلیل محدودیتهای چارچوب کاوش الگوی آنها (که بر روی پایگاه دادههای مستقل کار میکردند)، راه حلی که آنها ارائه دادند، تنها میتواند پاسخگوی جستجوهای ساده باشد، به عبارت دیگر، هر کدام از مؤلفههای این جستجو باید به صراحت یک پایگاه دادهی واحد و مقدار آستانهی متناظر با آن را مشخص کنند، مانند {(Si≥α۱) & (Sj≥α۲) & (Sk≤β)}. بنابراین روشهای آنها نمیتواند جستجوهای پیچیده را جوابگو باشد، و بنابراین کاربرد آن محدود است؛ و ۳ ) روشهای آنها فقط برای پایگاه دادههای متمرکز قابل اجرا هستند، در صورتی که ما قصد داریم داده کاوی و کشف دانش را بر روی پایگاه دادههای توزیع شده انجام دهیم.
۲-۶-۲- کارهای مهم انجام شده در زمینه داده کاوی با بهره گرفتن از عامل
این دسته از روشها، رویکرد مبتنی بر عامل را در مواجهه با مسئله داده کاوی توزیع شده پیش میگیرند. اگرچه، همانگونه که در ادامه به تفصیل بیان خواهد گردید، این رویکرد غالباً به نوع نامگذاری راهحل ارائه شده بازمیگردد و نه به خصایص ذاتی عامل (به خصوص هوشمندی). این دسته از روشها در درخت تحقیق شکل ۲-۲ در نود ۱.۲.۲ و به طور دقیقتر در نود ۱.۱.۲.۲ قرار میگیرند.
سیستمهای شناخته شده که داده کاوی توزیع شده را با بهره گرفتن از عاملها پیادهسازی می کنند عبارتند از: سیستمهای [۳۵]JAM [82] و [۳۶]PADMA [83]. عاملهای جاوا برای ابریادگیری (JAM)، نام یک سیستم توزیع شده است که با بهره گرفتن از عاملها به داده کاوی می پردازد. این سیستم از تعدادی سایت تشکیل شده است که هر سایت دارای بانک اطلاعاتی خاص خود و نیز تعدادی یادگیرنده میباشد. دو گروه کلی از یادگیرندهها وجود دارد: یادگیرندههائی که در سطح اطلاعات خام عمل می کنند و یادگیرندههائی که توانائی ادغام یادگیرندههای دیگر را دارند (ابریادگیرندهها). سایتها با رابط تعریف شدهای با یکدیگر ارتباط برقرار کرده و درخواست مواردی نظیر ساختار بانک اطلاعاتی یک سایت دیگر (در اینجا صرفاً ساختار یک جدول اطلاعاتی مورد نظر است) و یا فهرست یادگیرندههای آن را مطرح مینمایند. در اینجا قصد نداریم به بررسی نقاط ضعف چنین رویکردی برای داده کاوی روی اطلاعات ناهمگون بپردازیم، بلکه موضوع را صرفاً از دید عاملها و سیستمهای چندعامله مورد بررسی قرار میدهیم.
سیستم JAM دارای تعدادی خصیصه مفید و مهم است. نسبتاً باز بودن سیستم، به این صورت که هر یادگیرندهای در صورت پیادهسازی یک واسط تعریف شده توسط سیستم، که بسیار ساده بوده و یک یادگیرنده صرف نظر از تمایل آن به حضور در سیستم JAM، باید دارای چنین واسطی باشد، می تواند در سیستم به کار گرفته شود. به اشتراک گذاشتن یادگیرندهها بین سایتهای مختلف، از دیگر مزایای این سیستم است که امکان جابهجائی یادگیرندهها (عملاً برنامه های یادگیرنده) را بین سایتهای مختلف امکانپذیر میسازد. لازم به ذکر است که چنین امکانی به مفهوم ساخت یک طبقهبندی کننده بر روی دادههای توزیع شده نیست، بلکه صرفاً به معنی امکان بهره گیری از یادگیرندههای متنوع در حل یک مسئله محلی است.
سیستم JAM، علیرغم مزایایی که برشمرده شد، دچار کاستیهائی است که حتی نحوه نامگذاری آن را نیز با پرسش روبرو میسازند. نخستین نقص به نحوه عملکرد سایتها برمیگردد. سایتها در سیستم JAM، بر اساس وقایع عمل می کنند که هر واقعه یا توسط سرپرست سایت ایجاد شده و یا توسط سایتهای دیگر، که در مورد اخیر نیز در نهایت یک کاربر درخواست کار را مطرح نموده است. چنین رویکردی با یکی از اصول بنیادین مطرح در تعریف عامل در تضاد است: خودآغاز بودن و دریافت پیوسته علائم از محیط و عمل بر اساس این دریافتها. بنابراین اطلاق لفظ عامل به یادگیرندههای مطرح در سیستم JAM با اشکال همراه است. دومین اشکالی که بر اساس تعریف عامل در سیستم مذکور وجود دارد، عدم توجه به مسئله تعادل بین رفتار واکنشی و رفتار پیش فعال است. در اینجا یادگیرندهها صرفاً بر اساس یک الگوریتم یادگیری ماشین، به استخراج دانش از مجموعه اطلاعات ارائه شده به عنوان ورودی پرداخته و هیچ رفتار دیگری برای آنها در نظر گرفته نمی شود.
اگرچه سیستم JAMهرگز اشارهای به مفهوم سیستمهای چندعامله ندارد، اما جهت فراهم آمدن امکان مقایسه بعدی، سیستم مذکور را از این جنبه نیز مورد توجه قرار میدهیم. در نگاه نخست، JAM دارای خواصی مشابه با سیستمهای چندعامله میباشد: وجود اشیاء و قوانین محیطی؛ اما از سوی دیگر، حتی با قبول وجود عاملها (در واقع یادگیرندهها) در سیستم مذکور، با چند مورد نقض تعریف سیستم چندعامله مواجه هستیم. نخست آنکه مفهوم ارتباط بین عاملها فراتر از تعریف یک یا چند واسط مشخص و ثابت، آن گونه که در سیستم JAM انجام شده است، میباشد؛ در واقع در یک سیستم چندعامله به حداقل یک پروتکل ارتباطی که قوانینی را برای مشخص کردن نحوه به کارگیری زبان ارتباطی مشخص مینماید، نیاز داریم. هر عامل بر حسب معماری و هدف خود، با سایر عوامل محیطی ارتباط برقرار خواهد کرد. همچنین مسئله تأثیر عاملها بر محیط نیز در اینجا در نظر گرفته نشده است.
دومین سیستمی که در اینجا مورد بررسی قرار میدهیم، سیستم PADMA (داده کاوی موازی توسط عاملها) میباشد. سیستم مذکور، شامل تعدادی عامل، واسط کاربری و یک هماهنگکننده میباشد. نقش اصلی هماهنگکننده در سیستم، دریافت درخواستهای کاربر و ارجاع آنها به عاملها و سپس جمع آوری و ترکیب نتایج دریافت شده از عاملها میباشد. هر عامل دارای دو توانائی اصلی میباشد: خوشهبندی و پاسخ به پرسوجو، که قابلیت اخیر امکان دسترسی موازی به اطلاعات ذخیره شده در یک بانک اطلاعاتی را فراهم می آورد. نتایج هر یک از این دو فرایند انجام شده توسط هر عامل، به هماهنگکننده منتقل میگردد تا نتیجه نهایی از ترکیب نتایج میانی حاصل شود. هر عامل به صورت مستقل بر روی اطلاعات در دسترس خود عمل می کند؛ به عبارت دیگر، یکی از خواص سیستمهای چندعامله که عدم دسترسی یک عامل تنها به تمامی منابع لازم برای دستیابی به هدف میباشد، در اینجا رعایت شده است.
سیستم PADMA نیز با کمبودهائی مشابه با سیستم JAM همراه است. همچنان که از تعریف سیستم مشخص است، در این مورد نیز مسئله خودکار بودن عامل و همچنین تعدد عملیات انجامپذیر در هر لحظه، نادیده گرفته شده است و عاملها صرفاً به پرسوجوی کاربر پاسخ می دهند. دخالت مستقیم کاربر در عملیات، با تعریف عامل در تضاد آشکار است. همچنین مسئله ارتباط بین عاملها در مورد سیستم PADMA نیز حل نشده باقی مانده و به جای پروتکل ارتباطی، یک زبان ارتباطی با امکان انتقال اطلاعات خام و گرافهای مفهوم، تعریف شده است. تصمیم گیری برای شرکت یا عدم شرکت در یک فرایند دادهکاوی توزیع شده، به هیچ وجه جزء اختیارات عامل منظور نشده و تنها میتوان نوعی همکاری ساده (در قالب انتقال نتایج به یک هماهنگکننده) را بین عاملها تشخیص داد؛ بدیهی است که این نوع از همکاری، با آنچه در مورد سیستمهای چندعامله مطرح است تفاوت زیادی دارد؛ در اینجا حتی هماهنگی بین عاملها (انجام بعضی عملیات در صورت وقوع شرایط خاص ناشی از اعمال سایر عاملها) نیز ضروری نبوده و صرف ادغام نتایج پس از حصول اطمینان از دریافت نتایج کار تمام عاملها، برای دستیابی به هدف کفایت خواهد کرد. بنا به دلایل فوق، ۱) سیستم PADMA بر مبنای سیستمهای چندعامله نیست، اگرچه نویسندگان نیز چنین ادعایی را مطرح نکرده اند و ۲) برخلاف نامگذاری انجام شده در مورد PADMA، این سیستم را نمی توان مبتنی بر عامل دانست. بدیهی است که با توجه به موارد مطرح شده، اطلاق عنوان داده کاوی توزیع شده از طریق سیستمهای چندعامله به سیستم PADMA صحیح نمی باشد. البته در زمینه بهرهگیری از عاملها برای داده کاوی کارهای دیگری نیز انجام گردیده است که برای مطالعه بیشتر میتوانید به [۸۴] مراجعه نمایید.
۲-۷- جمعبندی
در این فصل ما ابتدا به معرفی داده کاوی و تکنیکهای آن پرداختیم، تکنیک کاوش قواعد انجمنی را به تفصیل مورد بررسی قرار دادیم، سپس داده کاوی توزیع شده، عامل و سیستمهای چندعامله، و موارد کاربرد عامل را برای داده کاوی مورد بررسی قرار دادیم، و پس از آن، الگوریتم ژنتیک و مفاهیم بنیادی این حوزه را بیان داشتیم. و در نهایت کارها و تحقیقات انجام شده در این زمینهها را بررسی نمودیم. همانطور که مشاهده گردید در مبحث مربوط به استفاده از عامل برای داده کاوی توزیع شده بیشتر خصوصیاتی از عامل همچون خودمختاری، خودآغازی و بیشتر از همه بحث متحرک بودن و قابلیت استفاده از آن در محیطهای توزیع شده مورد بررسی قرار گرفته است، در حالیکه به بهره گیری از بسیاری از خصوصیات مهم عامل همچون هوشمندی، قابلیت یادگیری و استدلال، هدفگرایی و غیره چندان توجهی نشده است.
فصل سوم روش تحقیق
۳-۱- مقدمه
در این فصل، ابتدا شرح مختصری بر دادهکاوی در محیطهای توزیع شده و مشکلات و چالشهای مرتبط با این تکنولوژی ارائه خواهد شد. سپس عاملها و سیستمهای چند عامله، به عنوان اهرمی برای رفع مشکلات و اصلاح این تکنولوژی مطرح گردیده و مزایای آن برشمرده میشود. و در نهایت الگوریتمهای مطرح در حوزه کشف قوانین انجمنی مورد بررسی قرار خواهند گرفت.
۳-۲- داده کاوی توزیع شده
همانطور که در فصل قبل اشاره شد، داده کاوی توزیع شده به معنای کاوش مجموعه دادههای توزیع شده میباشد. مجموعه دادهها در پایگاه دادههای محلی که توسط کامپیوترهای محلی و از طریق یک شبکه کامپیوتری بهم متصل هستند، ذخیره میگردند.[۸۵] در شرایط کنونی، اغلب پایگاه دادههای بزرگ به صورت توزیع شده وجود دارند، و با توسعه تکنولوژی اینترنت و تعمیم یافتن شبکههای کامپیوتری، کشف دانش منابع شبکه، مورد توجه افراد قرار گرفته است، و محیط شبکهای، یک پایگاه داده توزیع شدهی بزرگ محسوب میشود. زمانی که داده کاوی در محیطی صورت میگیرد که کاربران، دادهها، سختافزار و نرمافزار داده کاوی در مکانهای جغرافیایی مختلفی هستند، به این عمل داده کاوی توزیع شده میگویند. اینگونه محیطها به طور خاص دارای ویژگیهایی مانند غیریکنواختی دادهها، کاربران متعدد و حجم زیاد دادهها هستند. دادهکاوی در یک سطح محلی و همچنین در یک سطح عمومی جایی که نتایج دادهکاوی محلی برای رسیدن به یافتههای عمومی ترکیب میشوند، صورت میپذیرد. از داده کاوی توزیع شده اغلب در منابع موجود با عنوان داده کاوی موازی نام برده میشود.[۸۶]
با اینکه هر دو روش سعی در بهبود کارایی سیستمهای داده کاوی سنتی دارند اما آنها ساختارهای متفاوتی را برای سیستمها در نظر میگیرند و از شیوههای مختلفی بهره میگیرند. در داده کاوی توزیع شده کامپیوترها در مکانهای مختلفی قرار دارند و از طریق تبادل پیامها ارتباط برقرار میکنند. در داده کاوی موازی یک کامپیوتر موازی دارای پردازندههایی است که حافظه و یا دیسک را به اشتراک میگذارند.
به کامپیوترهایی که در یک سیستم داده کاوی توزیع شده فعالیت میکنند میتوان به دید پردازندههایی که هیچ چیزی را به اشتراک نمیگذارند نگریست. این تفاوت در ساختار، تأثیر زیادی بر روی طراحی الگوریتم، مدل هزینهای و اندازهگیری کارایی در داده کاوی توزیع شده و موازی دارد.[۸۶]
دو مسئله نیاز به داده کاوی توزیع شده را به ما تحمیل میکنند: دادهها ممکن است به طور ذاتی توزیع شده باشند و این مسئله میتواند به دلایل عملیاتی مختلفی مانند توزیع امن و مقاوم به خطای دادهها و خدمات و یا پلت فرمهای متحرک باشد. همچنین، هزینه انتقال دادهها به یک سایت واحد، معمولاً بالا و گاهی اوقات غیرقابل قبول است.[۸۷]
مسئله دوم اینست که تعداد زیادی از الگوریتمهای کاوش نیاز به این دارند که تمام دادهها در حافظه موجود باشند. این امر شاید برای مجموعه دادههای بزرگ غیرممکن باشد زیرا این الگوریتمهای یادگیری توانایی پردازش این حجم عظیم دادهها را ندارند. قسمتبندی دادهها یکی از راه حل های معمول برای این مشکل میباشد.
در نتیجه، داده کاوی توزیع شده تکنیکهایی برای کشف الگوهای مهم در پایگاه دادههای مجزا، بررسی الگوها از یک منظر واحد، و کشف روابط خاص بین مجموعه دادههای متفاوت است.[۸۸] الگوریتمهای داده کاوی توزیع شده معمول، تحلیل دادههای محلی را صورت میدهند که پس از آن با بهره گرفتن از روشهای یکپارچهسازی دانش، دانش عمومی از آنها استخراج میشود. یک نمونه از داده کاوی توزیع شده در شکل ۳-۱ نشان داده شده است.
شکل ۳- ۱:یک چارچوب دادهکاوی توزیع شده
۳-۲-۱- گروهبندی مدلهای دادهکاوی توزیع شده