رگرسیون (Regression) یکی از دسته بندی های یادگیری نظارت شده است که در آن به دنبال پیش بینی مقدارهای های پیوسته (مقدارهای عددی) هستیم. به طور کلی آنرا تحلیل رگرسیون (Regression Analysis) نیز می گویند. در تحلیل رگرسیون مجموعه ای از متغیرهای مستقل را به عنوان ورودی داریم و در خروجی می خواهیم مقدارهای عددی را پیش بینی کنیم که اصطلاحا آنها را متغیرهای وابسته می نامیم.

توجه کنید هدف از یادگیری نظارت شده پیدا کردن رابطه (Relationship) میان ورودی (یا همان متغیرهای مستقل) با خروجی (یا همان متغیرهی وابسته) است. به طور مثال در کابرد بازاریابی هر چه میزان قیمت کالا بالا رود، تقاضای آن کاهش پیدا می کند. یا اگر کاربر هر چه بیشتر درس بخواند، پس نمره بهتری را نیز دریافت می کند.

فرض کنید می خواهیم قیمت خانه را به دلار پیش بینی کنیم. بنابراین با توجه به اینکه مسئله یادگیری نظارت شده است، پس نیاز به مجموعه داده های یادگیری برچسب دار داریم. فرض می کنیم تنها یک ویژگی و آنهم اندازه خانه در مجموعه داده وجود دارد و بر همین اساس قیمت نیز به عنوان برچسب در مجموعه داده وجود دارد، پس می توانیم با رگرسیون خطی رابطه میان میان اندازه خانه و قیمت آنرا به صورت یک معادله خطی تک متغیره نمایش دهیم.

شکل زیر مفهوم رگرسیون خطی (Linear Regression) را نشان می دهد. نمودار زیر مربوط به میزان مطالعه دانشجو به ساعت و نمره ای است که مطابق با ساعت درس خواندش، کسب کرده استدر واقع در نمودار افقی (x-axis) میزان ساعت مطالعه و در نمودار عمودی (y-axis) نمره کسب شده نشان داده شده است. به عبارت دیگر در نمودار افقی همان ورودی ها یا متغیرهای مستقل نشان داده می شوند و در نمودار عمودی همان خروجی ها یا مقدارهای پیش بینی شده یا همان متغیرهای وابسته نشان داده شده اند.

در واقع در نمودار افقی (x-axis) میزان ساعت مطالعه و در نمودار عمودی (y-axis) نمره کسب شده نشان داده شده است. به عبارت دیگر در نمودار افقی همان ورودی ها یا متغیرهای مستقل نشان داده می شوند و در نمودار عمودی همان خروجی ها یا مقدارهای پیش بینی شده یا همان متغیرهای وابسته نشان داده شده اند.

در واقع در رگرسیون خطی، خروجی y وابسته یا تابعی از ورودی X است که به صورت معادله بسیار ساده شکل زیر نشان داده می شود. هدف از رگرسیون خطی، رسم خط راستی (خط آبی رنگ در نمودار شکل بالا) است که تا حد ممکن تمامی نقاط روی نمودار را پوشش دهد (همپوشانی کند) به این خط، خط رگرسیون (Regression Line) گفته می شود.

همانطور که در مطلب مجموعه داده یادگیری و آزمایش توضیح داده ایم، در تمامی نوشته های این دوره از X بزرگ برای نشان دادن ویژگی ها و از y کوچک برای نمایش Target یا همان برچسب استفاده می شود.

برای درک بهتر موضوع یک مثال را بیان می کنیم. فرض کنید می خواهیم رابطه میان قد افراد و وزن آنها را درک کنیم. بنابراین نیاز به یک جامعه آماری از مشاهده ها داریم، به طور مثال یک جامعه آماری بسیار کوچک از ۱۰ نمونه داده در مورد اندازه گیری وزن بر اساس قد افراد را جمع آوری کرده ایم.

در نمودار زیر چندین نمونه از قد و وزن ها نشان داده شده است. اگر به دقت نگاه کنید با افزایش قد، باید وزن نیز افزایش پیدا کنید ولی در برخی ازحالت ها با اینکه قد بلند است، ولی وزن پایین است. در رگرسیون خطی هدف رسم خط راستی بر روی این داده ها است به طوری که تا حد ممکن بیشترین نقطه های رو نمودار را شامل شود. در اصطلاح این خط را، خط رگرسیون (Regression Line) می گویند.

توجه کنید در نمودار زیر، نودار افقی (x-axis) برابر با قد و نمودار عمودی (y-axis) برابر با وزن است.

توجه کنید که ورودی الگوریتم رگرسیون خطی، داده های عددی هستند و خروجی آن مقدار عددی است که آنرا به عنوان پیش بینی در نظر می گیریم. در تمامی مثال های بالا دیدید که مجموعه داده های یادگیری (Training Data) به صورت برچسب دار (Labled) بودند. همچنین مجموعه داده های یادگیری مثال های بالا تنها دارای یک ویژگی بودند، به طور مثال اندازه قد افراد ویژگی بود که از آن برای پیش بینی وزن استفاده شده است.

در واقع در رگرسیون خطی به دنبال پیدا کردن بهترین معادله ای هستیم که بتوان با آن بهترین خط رگرسیون را مطابق با شکل های بالا رسم کنیم، به گونه ای که خط بیشترین داده ها را پوشش دهد. به عبارت دیگر می توانیم بگوییم مقدار متغیر وابسته وزن (Weight) از روی متغیر مستقل قد (Height) بدست می آید. به یاد دارید که بارها تکرار می کنیم که واژه های متغیر مستقل، ویژگی، خصوصیت یا ورودی همگی معادل هم هستند و واژه های متغیر وابسته، پاسخ، برچسب، خروجی، کلاس یا Target نیز همگی معادل یکدیگر هستند.

در مطلب های بعدی در مورد رگرسیون خطی ساده (Simple Linear Regression) و رگرسیون خطی چند متغیر (Multivariable Linear Regression) صحبت کرده ایم. به عبارت دیگر در رگرسیون خطی ساده تنها یک ویژگی (متغیر مستقل) ولی در رگرسیون چند متغیره، چندین ویژگی (متغیر مستقل) وجود دارد. به طور مثال می خواهیم میزان حقوق کارمند را بر اساس میزان سواد و مدرک تحصیلی، سن، محل زندگی پیش بینی کنیم، پس می بینیم که دیگر معادله خطی تک متغیره ای که در این مطلب معرفی کردیم، پاسخ گوی این مسئله نخواهد بود.