۲-pos
FW VBP,VBP NN
۳-pos
FW VBP NN
خصیصههای ۳-POSWORD
۳-POSWORD
I/FW go/VBP home/NN
آگراوال و میتال سال ۲۰۱۳ تحقیقی را انجام دادهاند [۵] که در این تحقیق از روشهای انتخاب خصیصه سودمندی اطلاعات و حداقل افزونگی - حداکثر وابستگی استفاده شده است، همچنین از خصیصههای Unigram و Bigram و گزیدهای از کلمه-POS در جهت مدلسازی متن بهرهگرفتند. طبقهبندی در این تحقیق بر روی مجموعه داده بازبینی فیلمها دقت بالاتری نسبت به روش ارائه شده توسط عباسی و همکارانش داشت. آنها نشان دادند که روش انتخاب خصیصه حداقل افزونگی - حداکثر وابستگی عملکرد بهتری نسبت به سودمندی اطلاعات دارد. از جمله مشکلات روش ارائه شده توسط آگراوال و میتال مجموعه خصیصههای مورد استفاده آنها میباشد که در این رساله مجموعه خصیصههای مناسبتری برای تحلیل احساس موجود در متن ارائه میشود.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
جدول ۲-۲ مجموعه کاملی از خصیصه ها N-gram
همانطور که در جدول ۲-۲ میبینید مجموعه خصیصههایی N-gram که برای مدلسازی اسناد میتوان از آنها بهره گرفت بسیار زیاد هستند؛ هر کدام از این مجموعه خصیصهها خود با یک بردار با هزاران خصیصه اسناد را مدلسازی میکنند، بسیاری از این خصیصهها افزونه و یا با تحلیل احساس غیر مرتبط هستند. برای دستیابی به دقت و سرعت بالاتر در عملیات طبقهبندی بهتر است از یک الگوریتم انتخاب خصیصه بهره بگیریم تا بتوانیم سودمندترین خصیصهها را از میان هزاران خصیصه استخراج کنیم و عملیات طبقهبندی و تحلیل احساس را با سرعت و دقت بیشتری انجام دهیم.
سی و گوپتا در سال ۲۰۱۳ مقالهای را ارائه کردهاند، آنها بجای استفاده از روشهای انتخاب خصیصه پیچیده تلاش کردهاند ترکیب مناسبی از خصیصهها را جهت دستیابی به دقت بالاتر در عملیات طبقهبندی، بیابند. همچنین برای کاهش دادن اندازه بردار خصیصه و حذف خصیصههای غیر مرتبط از sentiwordnet استفاده کردهاند. مجموعه داده این تحقیق اندازه کوچکتری نسبت به مجموعه داده مورد بررسی در سایر تحقیقات ذکر شده داشته است[۷]. در تحقیق مذکور با فیلتر کردن خصیصههایی که وزن مثبت یا منفی آنها (وزن هر کلمه همان مقداری بین ۰ و ۱ است که از Sentiwordnetاستخراج شده است) کمتر از ۰٫۵ بود، تعداد خصیصهها را کاهش دادهاند. ویژگی این روش استفاده از ترکیب های ساده و متفاوت، همچنین کاهش تعداد خصیصهها با بهره گرفتن از Sentiwordnet است. مشکل اصلی این روش مجموعه داده مورد استفاده در آن است؛ این مجموعه داده قابلیت نشان دادن پایداری روش را ندارد.
فاز اول تحلیل احساس ارائه مدل مناسبی برای اسناد است. در رساله جاری از سه کار [۱]، [۷] و [۵] برای مدلسازی اسناد الهام گرفته شده است. تحقیق [۱] مدلی جامع از خصیصههای N-gram ارائه داده است، ولی تعداد مجموعه خصیصههای آن زیاد است، افزایش خصیصهها در بردار خصیصهها، باعث افزایش خصیصههای افزونه و غیر مفید خواهد شد. وجود خصیصهی غیر مفید یا افزونه در بردار خصیصههای حاصل از مدلسازی اسناد باعث میشود، اثرگذاری سایر خصیصههای سودمند و مرتبط با تحلیل احساس کاهش یابد لذا به همان نسبت دقت طبقهبندی نیز کاهش مییابد، همچنین باعث افزایش حجم بردار خصیصه خواهد شد در نتیجه ما را با مشکل حافظه مواجه خواهد کرد و سرعت طبقهبندی را به شدت کاهش میدهد. تعداد زیاد خصیصهها، ما را در استفاده از الگوریتم انتخاب خصیصه محدود میکند. در این رساله تلاش بر آن بوده مجموعه کاهش یافتهای از خصیصهها را برای مدلسازی اسناد برگزینیم، به گونهای که مدل مناسبی از اسناد را برای تحلیل احساس ارائه دهند. تحقیق [۵] مدلی ترکیبی از خصیصهها n-gram را را ارائه داده است و این مدل را روی ۴ مجموعه داده تست کرده تا پایداری روش پیشنهادی خود را بررسی کنند. مجموعه خصیصههای مورد استفاده در تحقیق مذکور عبارت بودند از: ۱- خصیصههای unigram 2- خصیصههای bigram 3- ترکیب این دو مجموعه خصیصهها.
الف- خصیصههای unigram: در ابتدا بردار خصیصههای unigram را از متن استخراج کردهاند سپس مدل حاصل را با بهره گرفتن از الگوریتمهای یادگیری ماشین طبقهبندی کردهاند؛ در این روش آنها به دقت طبقهبندی ۸۲٫۷% در مجموعه داده بازبینی فیلم ها دست یافتند. حالت دوم با الگوریتم انتخاب خصیصه حداقل افزونگی – حداکثر وابستگی خصیصههای غیرسودمند را از مدل حاصل در مرحله قبل فیلتر کردهاند؛ در این حالت به حداکثر دقت ۸۹٫۲% دست یافتند.
ب- خصیصههای bigram: این مجموعه خصیصه بدون اعمال الگوریتم انتخاب خصیصهای از متن استخراج شدهاند و دقت بدست آمده از طبقهبندی ۷۹٫۲% برای مجموعه داده بازبینی فیلمها بوده است. در حالت دوم با اعمال الگوریتم انتخاب حداقل افزونگی – حداکثر وابستگی به حداکثر دقت ۸۱٫۱% دست یافتند.
ج- ترکیب خصیصههای unigram و bigram: این مجموعه خصیصه بدون هیچ گونه انتخاب خصیصهای از متن استخراج شدهاند در این روش آنها توانستند مجموعه داده بازبینی فیلمها را با دقت ۸۷٫۰% طبقهبندی کنند. در روش دوم با الگوریتم انتخاب خصیصه حداقل افزونگی – حداکثر وابستگی به حداکثر دقت ۹۱٫۱% دست یافتند و با اعمال الگوریتم انتخاب خصیصه سودمندی اطلاعات به دقت طبقهبندی ۹۰٫۱% دست یافتند.
نتایج بالا نشان از عملکرد مطلوب خصیصههای unigram و سودمند نبودن خصیصههای bigram دارد، و تصدیق کننده نتایجی است که سال ۲۰۰۲ pang و همکارانش به آن دست یافتند، به این دلیل که آگراوال و میتال به پراکندگی و نرمالسازی خصیصههای bigram هیچ توجهی نکردهاند. آنها تلاش کردهاند تعداد خصیصهها را کاهش دهند در صورتی که میتوان تعداد خصیصهها را با حفظ تعادل تعداد بین خصیصههای unigram، bigram و trigram تا حدی افزایش داد، تا بتوانیم به نتایج بهتر دست یابیم.
در رساله جاری برای تست پایداری روش پیشنهادی، ۴ مجموعه داده را برای تست و ارزیابی در نظر گرفتهایم، مدلی که در این رساله ارائه شده است دقت طبقهبندی را نسبت به [۱] و [۵] افزایش داده است. محققین در [۷] با بررسی انواع خصیصههای متفاوت ترکیب مناسبی از خصیصهها را ارئه دادهاند. ما نیز برای یافتن خصیصههای مطلوب در جهت مدلسازی اسناد ترکیب خصیصههای متفاوت را مورد بررسی قرار دادهایم.
الگوریتمهای انتخاب خصیصه
در عصر فناوری اطلاعات با حجم زیادی از دادهها روبرو هستیم. میتوان دانش مفیدی از این حجم زیاد داده استخراج کرد. بهتر است بگوییم به دلیل مشکلاتی که برای نگهداری، ذخیره سازی و پردازش این حجم دادهها مطرح میشود، اگر اطلاعاتی از داده استخراج نکنیم یک فقدان است. حجم زیاد دادهها به رسانههای ذخیره سازی و همچنین حافظه اصلی زیادی برای پردازش نیاز دارند. باید توجه داشته باشیم حجم قابل توجهی از این دادهها، غیر مفید، افزونه و یا غیر مرتبط هستند. لذا ضرورتی در نگهداری و یا پردازش همه این داده ها وجود ندارد. بهتر است فکری اندیشیده شود تا این دادههای غیر ضروری حذف شوند و در فرایندهای مهم و پرهزینه وارد نشوند. الگوریتمهای انتخاب خصیصه نیز همین هدف را دنبال میکنند. چنانچه مدلی ارائه شود این مدل متشکل از دهها هزار خصیصه باشد، بسیاری از این خصیصهها برای فرایند تحلیل احساس مفید نخواهند بود پس بهتر است این خصیصهها به اشغال کردن حافظه و گرفتن سرعت عملیات منجر نشوند. ضمن اینکه از طرفی دقت عملیات را نیز کاهش خواهند داد.
الگوریتمهای انتخاب خصیصه متعددی وجود دارد و در تحقیقات از اغلب آنها استفاده شده است.
بطور کلی دو نوع روش انتخاب خصیصه وجود دارد:
- تک متغیره.
- چند متغیره.
روش تک متغیره هر خصیصه را به تنهایی در نظر میگیرد، خصیصه را ارزیابی کرده و یک رتبه به آن میدهد. مانند الگوریتمهای مربع کای[۱۶] ، درست نمایی لگاریتمی[۱۷] و سودمندی اطلاعات[۱۸] . هر چند این روشها سریع هستند ولی چون هر خصیصه را به تنهایی ارزیابی میکنند و به ارتباط بین آن خصیصه با سایر خصیصهها توجهی ندارند، دقت کمتری دارند. این نوع الگوریتمها به دلیل پیچیدگی زمانی کمتری که دارند، برای مجموعه دادههایی که بردار خصیصههای بزرگتری دارند مناسباند [۱].
انتخاب سودمندترین خصیصهها از میان تعداد بسیار زیاد خصیصهها میتواند باعث افزایش دقت عملکرد الگوریتم طبقهبندی شود [۲۶]. شکل ۲-۱ مهمترین الگوریتمهای انتخاب خصیصه تک متغیره را نشان میدهد.
شکل ۲-۱ مهمترین الگوریتم های انتخاب خصیصه تک متغیره
روشهای انتخاب خصیصهی تک متغیره نسبت به روشهای چند متغیره پیچیدگی زمانی کمتری دارند به همین دلیل در بسیاری از تحقیقها از روشهای تک متغیره استفاده شده است.
[۸] و [۱۵] برای طبقهبندی متن از سودمندی اطلاعات استفاده کردهاند. تحقیق [۳] با اتکا به نتایج [۸] و [۱۵] روش سودمندی اطلاعات را برای انتخاب سودمندترین خصیصهها برگزید. عباسی و همکارانش با بهره گرفتن از سودمندی اطلاعات و انتخاب سودمندترین خصیصهها به دقت ۹۲٫۵% در تحلیل احساسات و عقاید موجود در متن مجموعه داده بازبینی فیلم دست یافتند. آنها در این تحقیق برای طبقهبندی از روش SVM بهره بردهاند.
در [۱۶] برای انتخاب خصیصه از روش مربع کای استفاده شده است. آنها بهترین نتیجه خود را با بکارگیری طبقه بند SVM و حداکثر آنتروپی به صورت ترکیبی بدست آوردند. باید توجه کنیم برای بهبود طبقهبندی بهتر است، بتوانیم مدل درستی از اسناد را ارائه دهیم، تا به دقت بالاتری دست یابیم. استفاده همزمان و ترکیبی از چند الگوریتم طبقهبندی باعث افزایش پیچیدگی زمانی خواهد شد و نهایتا برای مجموعه دادهای متفاوت لزوما باعث افزایش دقت طبقهبندی نخواهد شد. استفاده ترکیبی از چند الگوریتم طبقهبند برای یک مجموعه داده نمیتواند راه حلی برای بهبود سرعت و دقت طبقهبندی متون باشد. در عوض استفاده از چند طبقهبند میتواند از چند فیلتر انتخاب خصیصه استفاده کرد، یا به دنبال مدل مناسبتری برای مدلسازی اسناد باشیم.
[۲۰], [۲۵],[۱۴] از روش درست نمایی لگاریتمی استفاده کردند. در بین سه مقاله ذکر شده مقاله [۲۰] به حداکثر دقت ۹۰% دست یافت.
روشهای چند متغیره پر استفادهای نیز وجود دارد که استفاده از آنها باعث کاهش معقول تعداد خصیصهها و افزایش نامعقول پیچیدگی زمانی خواهد شد
شکل ۲-۲ تعدادی از روشهای چند متغیره انتخاب خصیصه که در سالهای اخیر ارائه شدهاند را نشان میدهد. در این قسمت بحث زیادی نخواهیم کرد، فقط کارهایی که از این روشها استفاده کردهاند را بیان میکنیم. مهمترین مشکل این روشها پیچیدگی زمانی آنها است. اگر اسناد بزرگ باشند و تعداد خصیصهها زیاد باشد این روشها عملا ناکارآمد خواهند بود. چنانچه اسناد کوچک باشند و تعداد خصیصهها نیز کم باشد میتوان از روشهای چند متغیره استفاده کرد، ولی امروزه در عصر اطلاعات با حجم فراوانی از دادهها مواجه هستیم بهتر است راه حلهایی برای مدیریت داده ها ارائه شود.
عباسی و همکارانش در سال ۲۰۰۷ با ترکیب کردن الگوریتم ژنتیک با الگوریتم سودمندی اطلاعات روش انتخاب خصیصه EWGA[19] را ارائه دادند با بهره گرفتن از این روش توانستند به دقت طبقهبندی ۹۵% دست یابند[۳] . این الگوریتم انتخاب خصیصه به خوبی کار میکند، ولی پیچیدگی زمانی این روش قابل توجه است. عباسی و همکارانش مقایسهای که در مقاله سال ۲۰۱۳ خود انجام دادهاند زمان لازم برای انتخاب سودمندترین خصیصهها برای الگوریتم ژنتیک/سودمندی اطلاعات را بالغ بر ۶۰۰۰ دقیقه بیان کردهاند. لذا برای تحلیل داده ها با حجم زیاد نمیتوان به این روش ها متکی بود.
ما برای حذف خصیصههای غیر مفید همانطور که پیش از این نیز به آن اشاره کردهایم از روشهای تک متغیره استفاده خواهیم کرد.
فصل بعد به ارائه روش پیشنهادی خواهیم پرداخت. در این رساله سه روش با کاربردهای متفاوت ارائه شده است. سپس روش های مورد نظر برای زبان فارسی نیز تعمیم داده شدهاند و بر مجموعه داده زبان فارسی نیز اعمال شده اند.
شکل ۲-۲ مهمترین روش های انتخاب خصیصه چند متغیره