در این مطلب و پیش از ورود به مفاهیم یادگیری ماشین لازم است تا کمی در مورد مفاهیم و واژگانی (Terminology) که در زمینه یادگیری ماشین وجود دارند، به صورت گذرا صحبت شود. بنابراین در ادامه و برای تنها آشنا شدن شما با واژگان، هر یک از آنها را تنها توضیح داده ایم ولی در ادامه و در مطلب های مجزا هر یک را توضیح داده ایم.

ویژگی ها و برچسب ها

هر مجموعه داده ای که استفاده می کنیم دارای یک سری ویژگی (Features) هستند. به طور مثال سن کاربر یا وضعیت هوا نمونه ای ویژگی های درون مجموعه داده هستنددر واقع ویژگی ها همان خصوصیت های (Attribute) هر یک از داده های درون یک مجموعه داده است. در ادامه همین مطلب توضیح داده ایم که نام های متفاوتی برای  ویژگی ها وجود دارد که یکی از آنها متغیرهای مستقل است.

ویژگی ها از انواع گوناگون است، به طور نمونه برخی عددی، برخی به صورت رشته و متن و برخی دیگر به صورت دودویی (Binary) مانند تصویر و ویدیو هستند. بنابراین در زمینه یادگیری ماشین و داده کاوی با گونه های متفاوتی از ویژگی ها سر و کار داریم.

برچسب (Label) همان چیزی است که انتظار داریم ماشین پیش بینی (Predicting) کند. در منابع متفاوت از برچسب ها به پاسخ (Response)، هدف (Target) و یا متغیرهای وابسته اشاره شده است. به طور نمونه برچسب می تواند این باشد که آیا ایمیل اسپم است یا نه؟ می تواند قیمت خانه در آینده باشد؟ می تواند این باشد که عکس ورودی مربوط به یک گربه است یا سگ؟

در مطلب های بعدی که در مورد تکنیک های یادگیری صحبت کرده ایم، توضیح می دهیم که در واقع برچسب همان خروجی (Output) یا پاسخ ها یا پیش بینی (Predication) است که انتظار داریم ماشین برای ما به صورت خودکار انجام دهد.

متغیرهای وابسته و مستقل

در یادگیری ماشین منظور از متغیرهای مستقل (Independent Variable) همان ورودی ها هستند. توجه کنید که در برخی از منابع به جای متغیرهای مستقل از واژه ویژگی نیز به کار گرفته می شود. منظور از متغیرهای وابسته (Dependent Variables) همان خروجی یا نتیجه و به عبارت بهتر پیش بینی است که انتظار داریم ماشین انجام دهد. در واقع متغیر وابسته همان برچسب است که در بالا توضیح دادیم.

به طور نمونه مجموعه داده هایی داریم که خرید کاربران یک سایت فروشگاه اینترنتی را نشان می دهند. ورودی ها که می توانند شامل سن، سطح تحصیل، درآمد و اینکه آیا ازدواج کرده یا نه باشد. بنابراین سن، سطح تحصیل، درآمد و وضیعت ازدواج کاربر همان متغیرهای مستقل یا ویژگی ها هستند و اینکه کاربر خرید کرده یا نه، متغیرهای وابسته یا همان برچسب ها هستند.

بنابراین به عنوان جمع بندی و در ساده ترین حالت اگر فرض کنیم مجموعه داده به صورت فایل های CSV یا اکسل و یا جدول های پایگاه داده رابطه ای و یا حتی به صورت DataFrame های ماژول Pandas باشند، می توانیم واژگان زیر را بیان کنیم که هر دسته از این واژگان معادل یکدیگر هستند که در منبع های گوناگون به کار رفته اند.

ایجاد DataFrame توسط ماژول Pandas در پایتون

۱ – به هر خط از مجموعه داده ها یک مشاهده (Observation)، نمونه (Sample or Example or Instance) و رکورد (Record) گفته می شود. مقدار این مشاهده ها می تواند به صورت عددی، رشته و متن باشد. از این دسته Sample و Observation کاربرد بیشتری دارد.

۲ – به هر ستون از مجموعه داده ها یک ویژگی (Feature)، متغیر مستقل (Independent Variable)، خصوصیت، ورودی (Input) یا حتی در برخی منابع پیش بینی کننده (Predictor) یا Regressioner نیز گفته می شود. از این دسته Feature و Independent Variable کاربرد بیشتری دارند.

۳ – به ستونی از مجموعه داده های برچسب دار که پاسخ مناسب را برای هر خط از مجموعه داده نگه می دارد، ستون برچسب (Label)، یا پاسخ (Response) یا خروجی (Output – Outcome) یا متغیر وابسته (Dependent Variable) می گویند. بدیهی است که این ستون تنها در مجموعه داده های برچسب دار وجود دارد و مجموعه داده های برچسب دار تنها در الگوریتم های یادگیری نظارت شده () وجود دارند.

در مطلب بارگذاری داده ها در کتابخانه Scikit-Learn در مورد بارگذاری مجموعه داده های آماده در کتابخانه Scikit-Learn و مرور سه مفهوم نمونه، ویژگی و برچسب صحبت شده است.

داده های یادگیری، آزمایش

داده های یادگیری (Training Data) دسته ای از داده ها هستند که به منظور ایجاد مدل استفاده می شود. در مقابل داده های آزمایش (Test Data) یا مجموعه داده های آزمایش (Test Dataset) برای ارزیابی مدل ایجاد شده توسط داده های یادگیری را فراهم می کنند.

همانطور که در مطلب های پیش رو توضیح داده ایم، مجموعه داده های (Dataset) در دسترس را به دو زیر مجموعه داده های یادگیری (Learning) و آزمایش (Test) تقسیم می کنیم تا بتوانیم مدل یادگیری را ایجاد کنیم. در واقع هدف در یادگیری ماشین ایجاد یک مدل (Model) است که با ورود داده های تازه و از پیش وجود نداشته، می توانیم با به کار گیری این مدل، پیش بینی هایی را انجام دهیم.

ایجاد داده های یادگیری و آزمایش در Scikit-Learn

مدل یادگیری ماشین

به بیان ساده مدل (Model) رابطه میان ویژگی ها و برچسب ها را تعیین و تعریف می کنند. این مدل از روی داده های یادگیری (Learnind Data) ایجاد می شود. ایجاد مدل از روی داده های یادگیری یکی از گام ها، در یادگیری ماشین است، زیرا می خواهیم برای بدست آوردن پاسخ ها (Response) مدل ایجاد شده را به کار بگیریم. در واقع مدل بدست آمده همان چیزی است که ماشین برای پیش بینی خروجی (Output) آنرا به کار می برد.

روش های یادگیری ماشین – نظارت شده

روش های یادگیری ماشین – نظارت نشده

الگوریتم های نظارت شده و نظارت نشده