در یادگیری نظارت نشده یا بی نظارت (Unsupervised Learning) یادگیری ماشین از طریق داده های بی برچسب (Unlabled Data) انجام می شود و به این معنی است که مجموعه داده ها تنها شامل متغیرهای ورودی است و هیچ خروجی متناسبی با ورودی ها جود ندارد. بنابراین در یادگیری بی نظارت الگوریتم یادگیری خودش به دنبال الگو و ساختار میان داده می گردددر واقع یادگیری نظارت نشده روشی است که برای پیدا کردن الگوهای (Pattern) میان داده ها استفاده می شود. به عبارت دیگر از طریق یادگیری نظارت نشده می توانیم ساختارها و الگوهای پنهان میان داده ها را پیدا کنیم.

در یادگیری نظارت شده با داده های برچسب گذاری شده کار می کنیم. هر برچسب خروجی متناسب با ورودی را نشان می دهد. به طور مثال در مسئله دسته بندی (طبقه بندی) ایمیل ها، ایمیل ها بر اساس متن درون آنها به عنوان ورودی ها خواهند بود و خروجی به صورت اسپم یا غیر اسپم برچسب گذاری می شود.

در واقع توجه کنید که منظور ما از برچسب یعنی همان پاسخی است که در قابل ویژگی ها انتظار داریم. به عبارت دیگر در داده های برچسب دار، پاسخ های مناسب وجود دارد، به طور مثال با توجه به داده های ورودی آب و هوا، دو کلاس یا دو پاسخ وجود دارد، که آیا می توان بازی فوتبال فینال جام ملت های آسیا را برگذار کرد یا نمی توان برگذار کرد.

البته یادگیری نظارت شده و یادگیری نظارت نشده تنها در برچسب گذاری داده ها تفاوت ندارد، بلکه مطابق مطلب های پیش رو متوجه خواهید شد که آنها در الگوریتم ها نیز با یکدیگر متفاوت هستند به طوری که الگوریتم های یادگیری نظارت شده شامل دو دسته رگرسیون (Regression) و کلاس بندی یا طبقه بندی (Classification) هستند در حالی که الگوریتم های یادگیری نظارت نشده شامل سه دسته خوشه بندی (Clustering)، قوانین وابستگی (Association Rules) و کاهش بعدها (Association Rules) هستند.

در مطلب های پیش رو ابتدا سعی می کنیم مفاهیم الگوریتم های یادگیری ماشین را توضیح دهیم و سپس از کلاس های کتابخانه Scikit-Learn برای پیاده سازی آنها استفاده خواهیم کرد.