همچنین برای اندازه گیری تفاوت و عدم تشابه دو مجموعه داده، فاصله Jaccard به صورت مکمل ضریب جاکارد تعریف و به صورت زیر بیان میگردد.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
(۲۵) |
با توجه به توضیحات بالا، ضریب تشابه جاکارد را میتوان جهت محاسبه تشابه آیتمها در یک سیستم توصیهگر و به جای فرمول پیرسون مورد استفاده قرارداد و نتایج حاصل از آنرا مورد ارزیابی و تجزیه و تحلیل قرار داد. فرمول جاکارد به صورت زیر جهت تشابه دو آیتم i و j تعریف میگردد.
(۲۶) |
در فرمول فوق مجموعه کاربرانی هستند که به صورت مشترک هم به آیتم i و هم به آیتم j امتیاز دادهاند و مجموعه کاربرانی هستند که تنها به آیتم i امتیاز دادهاند و مجموعه کاربرانی هستند که تنها به آیتم j امتیازی تخصیص دادهاند.
۴-۳-۲- حذف میانگین از فرمول پیرسون
یکی دیگر از مواردی که مورد بررسی و ارزیابی قرار میگیرد حذف میانگین از فرمول پیرسون است زیرا با توجه به این مطلب که امتیازات آیتمهای مختلف و به تبع آن میانگین آنها نیز در یک محدوده مشخص ]۵,۱[ قرار دارد، حذف میانگین، می تواند باعث بهبود سرعت و در برخی موارد باعث افزایش دقت و کاهش خطا نیز گردد[۸۰]. فرمول تغییر یافته پیرسون جهت محاسبه ارتباط میان دو آیتم i و j در زیر بیان می گردد .
(۲۷) |
۴-۳-۳- استفاده از تکنیک مبتنی بر آیتم خالص[۹۶]
یکی دیگر از رویکردهایی که در محاسبه تشابه میان دو آیتم مطرح میباشد استفاده از تکنیک مبتنی بر آیتم خالص میباشد[۲۲]. در این حالت تغییری در فرمول پیرسون بکار رفته در مدل TrustWalkerرخ میدهد و به جای میانگین امتیازات کاربر که در فرمول شماره ۱۶ مطرح گردیده است میانگین کل امتیازات آیتمهای i و j در سطح کلیه کاربران، مورد استفاده قرار می گیرد.
(۲۸) |
در فرمول فوق و میانگین کل امتیازات تخصیص داده شده به آیتمهای i و j توسط کاربران نظر دهنده به آنها می باشد.
۴-۳-۴- تعدیل و تفسیر نظرات کاربران[۹۷]
در اکثر سیستمهای توصیهگر موجود، فرض بر این است که افراد و کاربران نظر دهنده دارای یک تفسیر مشترک و یکسان از محدوده امتیازات میباشند و در واقع تفسیر دو کاربر مختلف از یک امتیاز واحد، به عنوان مثال امتیاز ۳ یکسان است و در ذهن هر دو کاربر مفهوم “متوسط” را تداعی می کند. بنابراین دو کاربر که برای یک آیتم، امتیازات متفاوتی را در نظر گرفتهاند دارای تفاوت عقیده میباشند در حالیکه در دنیای واقعی چنین نیست و لزوما تعریف میزان رضایتمندی یا عدم رضایت از یک موضوع یا یک محصول خاص در ذهن کاربران مختلف یکسان نیست و هر شخص با توجه به ذهنیات و درک خود، واژه ها و درجه بندیهای سنجش محصولات را برای خود تعریف مینماید، بنابراین در دیدگاه یک کاربر امتیاز ۴ به یک آیتم، بیانگر مفهوم “بسیار خوب” است در حالیکه در دیدگاه کاربر دیگر همین امتیاز ممکن است مفهوم “متوسط” را نشان دهد.
با توجه به مفاهیم و مطالب فوق به نظر میرسد باید یک مکانیزم دیگر نیز به یک سیستم توصیهگر اضافه گردد تا به کمک آن بتواند امتیازات دریافت شده از افراد و کاربران نظر دهنده را تعدیل و در یک تعریف واحد از امتیازات تفسیر نماید[۸۱].
این ایده قبلا تنها در سیستمهای مدیریت اعتماد بکار برده شده است و به صورت فاصله معنایی میان یک امتیاز پیش بینی شده و نظر شخصی یک فرد بکار گرفته شده است[۶۴]. بکار بردن مفهوم تفسیر و تعدیل نظرات کاربران در سیستمهای توصیهگر باعث بهبود و افزایش دقت نتایج پیش بینی و مطابقت بیشتر با میل کاربر مبدا خواهد بود. برای نشان دادن این مطلب مثالی بر روی مجموعه داده movielens[98]بیان میگردد. در این مجموعه داده دو کاربر فرضی و در نظر گرفته می شود و با کنترل پروفایل هریک از آنها مشخص می شود که کاربر به ۱۳۵ آیتم و کاربر به ۹۴ آیتم امتیاز داده است که از این تعداد، ۲۲ آیتم به صورت مشترک توسط هر دو کاربر دارای امتیاز میباشند. به جهت سادگی فرض می شود که بهترین همسایه کاربر برای ارائه پیشنهاد به وی کاربر میباشد و برای تعیین امتیاز آیتمهای موجود در مجموعه مورد ارزیابی کاربر ، از نظرات موجود در پروفایل کاربر استفاده میگردد.
با فرض این مطلب که اندازه مجموعه تست کاربر دارای ۵۰ آیتم است اولین نکته قابل ملاحظه این است که تنها تعداد ۱۸ عدد از آیتمهای مجموعه تست، درون پروفایل کاربر دارای مقدار میباشند بنابراین میتوان تنها امتیاز ۱۸ آیتم از مجموعه تست را پیش بینی کرد. علاوه بر آن امتیاز ۵ کاربر ممکن است برابر امتیاز ۴ کاربر باشد و یا امتیاز ۲ کاربر معادل امتیاز ۱ کاربر باشد بنابراین بدون در نظرگرفتن تفسیر نظرات یکدیگر، میزان خطای موجود در نتایج حاصل بسیار زیاد خواهد بود.
برای نشان دادن تفاوت نظرات این دو کاربر میتوان از یک ماتریس دو بعدی که در جدول شماره ۴-۱ نشان داده شده است استفاده نمود. هر سلول در این ماتریس، نشان دهنده تعداد یک امتیاز خاص میباشد که توسط دو کاربر تخصیص داده شده است به عنوان مثال عنصر سطر سوم و ستون چهارم که دارای مقدار ۳ است نشان دهنده این مطلب است که در خصوص ۳ آیتم، کاربر امتیاز ۳ را در نظر گرفته است اما در خصوص همان ۳ آیتم کاربر امتیاز ۴ را در نظر گرفته است .
جدول ۴-۱ : ماتریس پراکندگی نحوه امتیازدهی دو کاربر و