در مطلب های پیشین در مورد دو تکیک یادگیری نظارت شده و یادگیری نظارت نشده صحبت کرده ایم. در این مطلب و به عنوان جمع بندی می خواهیم این دو تکنیک را با یکدیگر مقایسه کنیم. مهمترین تفاوت میان این د ودر این است که در یادگیری نظارت شده از مجموعه داده های برچسب دار (Labled Data) استفاده می کنیم به طوری که هر برچسب معرف خروجی های متناسب با ورودی ها است.

در این مطلب می خواهیم در مورد الگوریتم های یادگیری نظارت شده و یادگیری نظارت نشده صحبت کنیم. شکل زیر (منبع) یک دسته بندی کلی از الگوریتم ها را نشان می دهد که از دو جنبه می توان آنها را دسته بندی کرد. آیا الگوریتم نظارت شده یا نظارت نشده است؟ آیا الگوریتم به داده های پیوسته (عددی) یا به داده های گسسته (رسته ای – Categorical) نیاز دارد.

الگوریتم های یادگیری نظارت شده

همانطور که در شکل بالا مشخص است، الگوریتم های یادگیری نظارت شده شامل دو دسته رگرسیون (Regression) و کلاس بندی (Classification) هستند. توجه کنید الگوریتم های رگرسیون نیاز به داده های پیوسته (Continuous) یا داده های عددی دارند ولی الگوریتم های کلاس بندی به داده های گسسته (Discrete) یا رسته ای (Categorical) نیاز دارند.

همانطور که در شکل بالا می بینید الگوریتم های رگرسیون به دو زیر دسته رگرسیون خطی (Linear regression) و رگرسیون پولی نومیال (Polynomial Regression) تقسیم شده است.همچنین در کلاس بندی، الگوریتم رگرسیون لوجستیک (Logestic Regtression) وجود دارد که با دو الگوریتم پیشین متفاوت است. همچنین اگر دقت کنید می بینید که در هر دو دسته الگوریتم درخت (Tree) و به عبارت بهتر، الگوریتم درخت تصمیم (Decision Tree) وجود دارد. طبق آنچه که در ادامه دوره توضیح داده ایم، از الگوریتم درخت تصمیم هم می توانیم برای رگرسیون و هم برای کلاس بندی استفاده کنیم.

شکل زیر تفاوت الگوریتم های رگرسیون و کلاس بندی را نشان می دهد. با دقت به آن متوجه می شوید که در کلاس بندی به دنبال این هستیم که بفهمیم کدام داده متعلق به کدام یک از کلاس های موجود است ولی هدف از هر دو دسته از الگوریتم ها پیش بینی (Prediction) هستند ولی رگرسیون مقدارهای پیوسته (عددی) و کلاس بندی داده های رسته ای را پیش بینی می کنند. در شکل زیر مشخص است که در کلاس بندی کلاسی در خروجی الگوریتم می آید که مشخص می کند آیا تصویر ورودی متعلق به کلاس گربه ها است یا سگ ها ولی در رگرسیون خروجی مقدار عددی هزینه خرید خانه خواهد بود.

الگوریتم های یادگیری نظارت نشده

همانطور که در شکل بالا مشخص است، الگوریتم های یادگیری نظارت نشده شامل دو دسته خوشه بندی (Clustrering) – کاهش بعدها (Dimensionality Reduction) و قوانین وابستگی (Assosiation Rules) هستند.  در یادگیری نظارت نشده داده ها به صورت بی برچسب هستند، بنابراین خروجی متناسب در این داده ها از قبل وجود ندارد. بنابراین هدف از یادگیری نظارت نشده پیدا کردن ساختار (Structure) و الگو (Pattern) میان داده ها است.

خوشه بندی به گروه بندی (Grouping) داده های مرتبط به هم (Related Data) اشاره دارد. توجه کنید مجموعه داده ها به صورت بی برچسب هستند. داده هایی که در یک گروه دسته بندی می شوند باید دارای خصوصیت ها و ویژگی های همانند یکدیگر باشند. بنابراین داده های هر گروه، خصوصیت و ویژگی متفاوتی از دیگر گروه ها دارند.

در مجموعه نوشته های یادگیری ماشین با پایتون، ابتدا الگوریتم های نظارت شده و سپس الگوریتم های نظارت نشده بررسی می شوند.