در یادگیری ماشین واژه های گوناگونی هستند که هر یک مفهومی را می رسانند که نیاز است تا پیش از ورود به الگوریتم ها، با این واژگان آشنایی داشته باشید. در نوشته مفاهیم و واژگان در یادگیری ماشین با برخی از این واژگان آشنا شدید و در ادامه در این نوشته می خواهیم دو واژه برجسته دیگر، بیش برازش (Overfitting) و کم برازش (Underfitting) را آموزش دهیم.

مفهوم Generalization

در یادگیری ماشین به دنبال ساخت یک مدل یا یک تابع هدف (Target Function) هستیم که با آن پیش بینی هایی را برای داده های دیده نشده انجام دهیم. بنابراین مدلی که با مجموعه داده های یادگیری ساخته می شود باید به خوبی و درستی بر روی مجموعه داده های دیگر که تا کنون ندیده است نیز پیش بینی را انجام دهد.

بنابراین مفهوم تعمیم پذیری (Generalization) اشاره به توانایی مدل برای ساخت خروجی ها (پیش بینی ها) از روی داده های تازه ای دارد که هنوز ندیده است. در واقع ما با مجموعه داده یادگیری – آموزشی (Training Data) مدل را می سازیم و می خواهیم مدل با مجموعه داده های دیگر مانند مجموعه داده آزمایشی (Test Data) نیز پیش بینی های درستی را انجام دهد. از دید بزرگتر، داده های تازه می توانند در محیط عملیاتی باشند که به مدل فرستاده می شوند.

بنابراین مدلی خوب و کارآمد است که تنها محدود به داده های یادگیری نباشد، بلکه به توان آن را از مجموعه داده های یادگیری به مجموعه داده تازه و تاکنون دیده نشده نیز تعمیم داد. در برابر این خواسته ما، دو پدیده هست که آنها را بیش برازش و کم برازش می گویند. این دو پدیده باعث می شوند تا مدلی ضعیف و ناکارآمد داشته باشیم.

بنابراین زمانی مدل قابل تعمیم است که هیچگاه هر دو پدیده Overfitting (بیش برازش) و Underfitting (کم برازش) در آن نباشد، زیرا که گفتیم این دو پدیده، باعث کاهش و خرابی کارایی مدل شده که این خود پیش بینی های نادرست برای داده های تاکنون دیده نشده را پدید می آورد. در شکل زیر نموداری از داده ها هست که ما می خواهیم برای آنها یک مدل را بسازیم.

تا بدین جا هنوز الگوریتم های یادگیری ماشین مانند رگرسیون خطی، آموزش داده نشده اند ولی برای درک این دوم مفهوم نیازی نیست تا بر یک الگوریتم ویژه اسرار کنیم و از این برای ساخت مدلی برای داده های نمودار بالا می خواهیم از الگوریتم رگرسیون خطی بهره ببریم. در رگرسیون خطی نخست به دنبال کشیدن یک خط راست بر روی داده ها هستیم و همچنین می خواهیم رابطه میان متغیرهای مستقل (ویژگی ها) و متغیر وابسته (پاسخ – مقدار پیش بینی شده) را بدست آوریم.

نخستین گام در یادگیری ماشین، گام آموزش مدل است که به کمک مجموعه داده های یادگیری انجام می شود. در رگرسیون خطی به دنبال کمینه کردن فاصله میان خط و داده های پیش بینی شده هسیتم، به گفته دیگر می خواهیم خطاها کمینه شوند. دو پدیده ای که از برآورده شدن این خواسته ما پیش گیری می کنند، پدیده های Overfitting و Underfitting هستند.

پدیده Overfitting

پدیده بیش برازش (Overfitting) به زبان ساده یعنی اینکه مدل به گونه ای باشد که برای داده های یادگیری خوب کار کند ولی برای داده های تازه به نادرستی کار کند. چرایی پدید آمدن Overfitting برای این است که مدل جزییات و نویزهای درون داده یادگیری را یاد می گیرد و این باعث تاثیر منفی بر روی کارایی مدل برای داده های تازه و تاکنون دیده نشده می شود.

به گفته دیگر، زمانی پدیده Overfittingg رخ می دهد که مدل در زمان یادگیری بسیار وابسته به مجموعه داده های یادگیری باشد که از این رو، کارایی خود را برای مجموعه داده های دیگر از دست می دهد. بنابراین می توانیم بگوییم که در پدیده Overftting مدل تنها بر روی داده های همانند با مجموعه یادگیری به خوبی و درستی کار می کند و برای داده های تازه متفاوت کارآمد نخواهد بود.

بنابراین Overfitting باعث می شود تا برای داده ها تازه نسبت به داده هایی مشابه باد داده های یادگیری، دقت (Accuracy) کاهش پیدا کند و بنابراین اگر خود داده های یادگیری یا داده هایی همانند آن را به مدل بدهیم، دقت افزایش پیدا می کند که این، هیچگونه خوب نیست. به گفته دیگر مدل با اینکه به درستی و با خطای پایین آموزش دیده شده است ولی قابل تعمیم برای داده های تازه نیست و چرایی آن این است که مدل بسیار متکی به داده های یادگیری بوده است.

پدیده Underfitting

پدیده کم برازش (Underfitting) به زبان ساده یعنی اینکه مدل به گونه ای باشد نه برای داده های یادگیری به درستی و خوبی کار کند و نه بتوان آن را برای داده تازه تعمیم داد. Underfitting هنگامی رخ می دهد که یک مدل به اندازه کافی پیچیده نیست تا بتواند روابط میان ویژگی های (متغیرهای مستقل) و یک متغیر هدف (متغیر وابسته یا Target) را به طور دقیق ضبط کند. پدیده Underfitting زمانی رخ می دهد که مدل به اندازه کافی از مجموعه داده های یادگیری، یاد نگرفته باشد که برآیند این نیز عدم توانایی تعمیم پذیری مدل و بدست آوردن پیش بینی های نادرست است.

چکیده

  • در پدیده Overfitting دقت مدل برای داده های همسان با داده های یادگیری و همچنین خود داده های یادگیری بالا است.
  • در پدیده Overfitting دقت مدل برای داده های تازه و تاکنون دیده نشده و ناهمسان پایین است.
  • پدیده Overfitting زمانی است که مدل بسیار وابسته و متکی به داده های یادگیری باشد و از این رو قابل تعمیم برای داده های تازه نیست.
  • در یک توضیح دیگر درباره Overfitting اینگونه می گویند که زمانی پدیده Overfitting رخ می دهد که مدل تلاش می کند تا به جای یادگیری دامنه مسئله و پیدا کردن رابطه میان متغیر(های) مستقل و متغیر وابسته، داده های یادگیری را به یاد بسپارد (Memorize Training Data) که این همان است که گفتیم بسیار متکی به داده های یادگیری است.
  • پدیده Underfitting زمانی رخ می دهد که در زمان یادگیری، مدل به اندازه کافی از داده های یادگیری آموزش ندیده باشد.
  • هر دو این پدیده باعث عدم تعمیم پذیری مدل برای داده های تازه و تاکنون دیده نشده می شود.