با وجود داشتن چنین اطلاعات ساختارمندی میتوانیم عبارتهای اسمی هممرجع یا به عبارت بهتر اشارههایی که به یک موجودیت واحد در دنیای واقعی اشاره دارند را بهتر مورد بررسی قرار دهیم. در شکل ۴-۴ نیز اطلاعات تمام واژگان موجود در پیکره نمایش داده میشود.
شکل ۴-۴ : شمایی از نمایش خروجی سیستم نمایش تمام واژگان |
۴-۳.تشخیص اشارههای هممرجع
جهت استفاده از تکنیکهای یادگیری بانظارت، به یک مجموعه آموزشی که حاوی اشارههای برچسب زده شده باشد، نیاز است. این نمونهها شامل جفتهای (ویژگی، مقدار) میباشد که اطلاعات مورد نیاز موتور یادگیری را فراهم میکنند. مجموعه ویژگیهای انتخاب شده، در موفقیت سیستم تشخیص مرجع مشترک، تاثیر چشمگیری دارند، یک مجموعه ویژگی ایدهآل، مجموعهای از ویژگیهاست که تا حدامکان حاوی اطلاعات مفید باشد و به بهینه سازی ماشین یادگیر کمک کند.
۴-۳-۱. ویژگیها
به طور کلی پیش از به کارگیری تکنیکهای یادگیری ماشین در فرایند تشخیص مرجع مشترک، طیف گستردهای از ویژگیهای زبانی در این فرایند در نظر گرفته میشد. استخراج برخی از ویژگیها مانند ویژگیهای معنایی و ویژگیهای دانش دامنه[۲۱۴]، فرایند زمانبر و پرخطا هستند و به قدرت محاسباتی زیادی احتیاج دارند. پس از گسترش کاربرد تکنیکهای یادگیری ماشین در تشخیص مرجع مشترک، ویژگیهایی که به دانش زبانشناسی زیادی نیاز داشتند، جای خود را به وبژگیهای زبانی ساده و ویژگیهای آماری دادند. در مورد زبانهای غنی مانند انگلیسی، نتایج گزارش شده از روشهای آماری به خوبی و در برخی موارد بهتر از نتایج بدست آمده از روشهای زبانشناسی هستند.
ازآنجائیکه ابزارهای آماری زبانشناسی موجود در زبان پارسی بسیار محدود هستند، در این پایان نامه تنها ویژگیهایی به کار رفتهاند که با ابزارهای موجود و به سادگی قابل محاسبه میباشند. به عنوان نمونه نقش گرامری هر اشاره در تشخیص مراجع ضمایر و اسامی اشاره بسیار موثر است. اما محاسبهی این ویژگی به یک تجزیهگر آماری نیاز دارد؛ زیرا یک تجزیهگر غیرآماری با وجود گرامر پرباری مانند گرامر زبان پارسی، تعداد زیادی درخت تجزیه به ازای هر جمله بدست میآورد، درنتیجه ممکن است به ازای هر عبارت اسمی، چندین نقش گرامری بدست آید که در این صورت ویژگی نقش گرامری کارایی چندانی نخواهد داشت. ویژگیهای به کار رفته در این پایان نامه، مطابق ویژگیهای بکاررفته در [۱۰۵]، انتخاب شدهاند، جدول۴-۳ فهرست ویژگیهای به کار رفته را به همراه توصیف آنها برای هرجفت اشاره نشان میدهد.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
۴-۳-۲. الگوریتمهای یادگیری
مطالعات نظری انجام شده در زمینه یادگیری ماشین، بیانگر آن است که هیچ یک از الگوریتمهای استقرائی عموماً بهتر از دیگری عمل نمیکند. بدین معنا که از کارائی هر یک از الگوریتمهای استقرائی، بر روی توزیع یکنواخت، میانگین بگیریم، صفر خواهد شد. به منظور اینکه برای یک مسئله یادگیری زبان، یک یادگیر مناسب انتخاب کنیم( برای مثال میتوان به [۶۹] مراجعه کرد). هرچقدر که عامل یادگیر، با خصوصیات آن حوزه خاص متناسبتر باشد، آنگاه مدل استنتاج شده توسط آن یادگیر، بهتر به دادههای جدید آن حوزه تعمیم پیدا میکند. در زبانهایی مثل انگلیسی، عربی و چینی زمینهی چنین مقایسههایی با بوجود آمدن پیکرههای تحقیقاتی فراگیری مانند MUC ، ACE و OntoNote که روشهای متفاوتی بر روی آنها ارزیابی شده است، فراهم شده است.
پس از تعیین ویژگیها، نوبت به تعیین نمونههای مثبت و منفی مورد نیاز برای الگوریتم یادگیری ماشین میرسد. نمونههای مثبت با جفت کردن اشارههای هممرجع ایجاد میشود و نمونههای منفی به جفتهایی که باهم هم مرجع نیستند، اطلاق میگردد. تعداد نمونههای منفی در برابر نمونههای مثبت بسیار بیشتر خواهد بود و همین امر موجب میشود که دادههای آموزشی نامتوازن[۲۱۵] شوند. بطوریکه به عنوان مثال دادههای آموزشی حاصل از پیکره لوتوس، شامل ۱۸۰۴۸۳ نمونه منفی و ۲۴۵۲۴ نمونه مثبت میباشد، البته با ایجاد، برخی محدودیتها تعداد نمونههای منفی تا ۱۱۱۴۹۲ کاهش پیدا کرد؛ به عنوان نمونه زمانیکه که هر دو اشاره، ضمیر یا شبه ضمیر باشند، آنها را به عنوان جفت در نظر نمیگیریم. و یا در متون طولانی، محدودیت جفتگیری اشارهها را تا دامنه ۱۰۰ واژه در نظر میگیریم. نهایتا حدودً ۱۸% نمونههای ایجاد شده، نمونهمثبت و حدود ۸۱% آنها، نمونههای منفی میباشد. نتایج حاصل از جفتهای مثبت ومنفی که توسط سیستم لوتوس ایجاد شدهاست را در شکل ۴-۵ مشاهده میشود.
جدول ۴-۳: فهرست ویژگیهای به کار رفته در تشخیص مرجع مشترک | |||
ویژگی | مقدار | شرح | |
۱ | Num-I-RepeadD | ۱,۲,۳,… | تعداد تکرار اشاره در متن درچقدر است؟ |
۲ | Num-I-RepeadS | ۱,۲,۳,… | تعداد تکرار اشاره در جمله آخر چقدر است؟ |
۳ | Num-J-RepeadD | ۱,۲,۳,… | تعداد تکرار اشاره در متن درچقدر است؟ |
۴ | Num-J-RepeadS | ۱,۲,۳,… | تعداد تکرار اشاره در جمله آخر چقدر است؟ |
۵ | I-Length |