دستهبندی خطی داده های دارای نویز[۳۴]
در اکثر مسائل دنیای واقعی دو کلاس با یکدیگر هم پوشانی ندارند و نمی توان داده ها را به خوبی با ابرصفحه طبقه بندی کرد. بنابراین، مسأله (۴-۹) نشدنی می شود. در سال ۱۹۹۵ کورتس و واپنیک این شکل را با یک ترفند که در مورد مسائل بهینهسازی نشدنی استفاده می شود، حل کردند و نسخه نهایی و استاندارد SVM را ارائه کردند. آنها به هر قید ، یک متغیر اضافی نامنفی به هر قید اضافه کرده و مجموع این متغیرها در تابع هدف جهت کمینهسازی آورده می شود. بنابراین، اگر تعداد داده های جداناپذیر کم باشد مسأله بهینهسازی به صورت ذیل در می آید:
( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
(۴‑۱۸)
C مقداری فرضی است که می تواند میزان را برای داده های غیر قابل دستهبندی افزایش یا کاهش دهد. اگر مقدار بزرگتری برای C در نظر بگیریم، بزرگتری را به داده های غیر قابل دستهبندی نسبت میدهد. از سوی دیگر کوچک بودن C، حاشیه را ماکزیمم می کند. به طوری که ابرصفحه جداگر بهینه نسبت به داده های دارای خطا در مجموعه آموزشی، حساسیت کمتری از خود نشان میدهد. شکل پایین نمونه ای از خطای دستهبندی داده ها را نشان میدهد.
شکل ۴‑۴: نمونه ای از خطای طبقه بندی
برای جداسازی دادههایی که به صورت خطی جدا نمیشوند، ما باید کاری کنیم که حاشیه ماکزیمم شود (Minimize ) تا عملکرد پیش بینی را برای ما تضمین کند. از سوی دیگر ابرصفحه بهینه باید تعداد خطاهای طبقه بندی را مینیمم کند. هم چنین میزان خطای داده های جداناپذیر را نیز مینیمم کند. به عبارتی، باید مقدار و تعداد متغیرهای کمبود مثبت را مینیمم کند. شرط دومی باعث کاهش حاشیه ابرصفحه میگردد. یعنی شرط اولی در تناقض با شرط دوم است. برای همین، راهی ساده برای غلبه بر این مشکل ترکیب این دو شرط است.
(۴‑۱۹)
برای حلِ این مسأله از تکنیک بهینهسازی دوگان استفاده می شود که تقریباً با تکنیک استفاده شده در حالت جداپذیر مشابه بوده و رابطه (۴-۱۳) به صورت زیر تغییر مییابد.
(۴‑۲۰)
حال ما باید پارامترهای را بیابیم طوری که فرمِ دوگان را ماکزیمم کند. دقیقاً شبیه آنچه که در حالت جداپذیر انجام شد:
(۴‑۲۱)
همان ضریب لاگرانژ و همان تابع لاگرانژ است که به فرم دوگان آن تبدیل شده است. در اینجا نیز مانند حالت جداپذیر، فقط تعدادی از ضرایب مخالف صفر هستند که معرّف همان بردارهای پشتیبان میباشند.
حالتی که داده ها به صورت خطی جدا نشوند
اگر تعداد داده های جاناپذیر زیاد باشد (برای حالتی که ابرصفحه خطی استفاده شود) باید از ابرصفحات غیر خطی استفاده کنیم. در مرحله قبلی، الگوریتم طبقه بندی خطی داده ها توضیح داده شد که از الگوهای آموزشی استفاده می کند تا ابرصفحه بهینهای را تعمیم دهد. چنین طبقه بندی کننده ای برای حالتی که نسبت پیچیدهای بین پارامترهای ورودی و کلاس هر الگو وجود داشته باشد، مناسب نیستند. برای دادههایی که به صورت خطی جداپذیر نیستند، مدل SVM می تواند به توابع غیر خطی برازش شود تا دستهکنندههایی را که برای طبقه بندی الگوهای سخت جداپذیر[۳۵] مناسب هستند، فراهم کند.
نگاشت الگوها به فضای ویژگی
سطح جداکننده در بسیاری از مسائل طبقه بندی غیرخطی میباشد، برای همین ماشینهای بردار پشتیبان این امکان را برای ما فراهم می کند که با بهره گرفتن از تابع ویژگی سطح جداکننده غیرخطی را به کار ببریم.
تعمیم SVM به داده های غیرخطی، براساس نگاشت متغیرهای ورودی به فضای ویژگی با ابعاد بالاتر (فضای هیلبرت[۳۶] با ابعاد محدود و یا نامحدود) و در نتیجه به کار بردن یک دستهبندی خطی در فضای با ابعاد بالا صورت میگیرد این حالت را در شکل ذیل میتوان دید.
شکل ۴‑۵: نگاشت الگوها به فضای ویژگی، در شرایطی که داده ها به طور خطی از هم جدا نشوند
واضح است که دستهکننده خطی، حتی با متغیرهای کمبود برای این نوع از این داده ها مناسب نیست. توابع ویژگی غیرخطی مختصاتهای اصلی الگوها را با هم ترکیب و منتقل می کند و در فضای ویژگی با ابعاد بالاتر آنها را به صورت خطی جدا می کند. این خصوصیت حائز اهمیت میباشد چون طبقه بندی خطی از نظر محاسباتی سادهتر است و میتوانیم از نتایج بدست آمده برای طبقه بندی خطی SVM در مراحل قبلی، استفاده کنیم. مشکل این کار تنها در تشخیص توابع ویژگی میباشد که این نگاشت را انجام میدهد.
فرض که یک مجموعه N الگویی T همراه با دستهی مربوط به خود را داشته باشیم به طوری که X یک الگوی n بعدی است؛
(۴‑۲۲)
مجموعه ای از توابع ویژگی را به صورت تعریف میکنیم. هر الگوی X به بردار حقیقی نگاشت پیدا می کند.
(۴‑۲۳)
پس از نگاشت همه الگوها از فضای آموزشی به فضای ویژگی، مجموعه ای از نقاط در فضای ویژگی IRh را بدست میآوریم.
شکل ۴‑۶: خلاصهای تصویری، از نحوه نگاشت الگوها و ساخت تابع دستهبندی
(۴‑۲۴)
پس حتی اگر داده های ورودی به صورت خطی جدا نشوند، با انتـقال آن به فضـای ویژگی و با بهره گرفتن از توابـع ویژگی، میتوانیم در فضای ویژگی آنها را به صورت خطی از هم جدا کنیم.
(۴‑۲۵)
دستهبندی غیرخطی با معادله بالا تعریف می شود. همانطور که از رابطه بالا معلوم است، برای پیش بینی الگوی X لازم است که ضرب داخلی برای همه بردارهای پشتیبان Xi انجام شود. این ویژگی کلاسهبندی بسیار مهم است چون نشان میدهد که نیازی به دانستن عبارت اصلی تابع ویژگی ندارد. به علاوه گروه ویژهای از توابع که کرنل نامیده می شود، محاسبات ضرب داخلی را در فضای اصلی که توسط الگوهای آموزشی تعریف شده، مجاز می کند.
برای فهم بهتر این موضوع، یک سری داده را که در جدول زیر نشان داده شده است را میخواهیم دستهبندی کنیم. این داده ها دو بعدی هستند و در این فضا به طور خطی از هم جدا نمیشوند. و میتوان آنها را در فضای ویژگی به صورت خطی از هم جدا کرد. این مجموعه دادهی دو بعدی با ابعاد x1 و x2، دارای سه الگو در کلاس ۱+ و شش الگو در کلاس ۱- است. از شکل زیر میتوان استنباط کرد که خطی وجود ندارد که دو کلاس را از هم جدا کند.
جدول ۴‑۱: نمونه ای از نگاشت الگوها به فضای ویژگی
شکل ۴‑۷: نحوه قرارگیری داده های جدول (۴-۱) بر روی محور مختصات
پس میتوان یک فضای ویژگی با ابعاد بالاتر را در نظر گرفت به طوری که این داده ها به صورت خطی از هم جدا شوند که ویژگیها ترکیبی از داده های ورودی هستند. برای این مثال، x12 را به عنوان بعد جدید در نظر میگیریم. با این انتقال، داده ها در یک فضای ویژگی سه بعدی نمایش داده میشوند.
سطح f(x1,x2)=x12 در شکل زیر نشان داده شده است. با اضافه کردن این ویژگی ساده، الگوها را روی سطح غیر خطی نگاشت کردهایم. ویژگی x12 خاصیت جالبی دارد. به طوری که با توجه به جدول بالا، داده های مربوط به کلاس ۱+ دارای x12=0 و داده های کلاس ۱- دارای ویژگی x12=1 هستند. با نگاشت این داده ها به فضای ویژگی میتوانیم آنها را به صورت خطی از هم جدا کرد.
شکل ۴‑۸: صفحهای که داده های نگاشت یافته بر روی آن قرار میگیرند
شکل ۴‑۹: چگونگی قرارگیری داده ها پس از نگاشت آنها