در مطلب الگوریتم رگرسیون خطی تا اندازه ای در مورد رگرسیون خطی صحبت کردیم و گفتیم که هدف آن پیدا کردن رابطه میان متغیر وابسته با یک یا چندین متغیرهای مستقل است که این رابطه به صورت یک معادله خطی نشان داده می شود. در واقع الگوریتم رگرسیون خطی سعی در پیدا کردن معادله ای دارد که بتوان با آن بهترین خط رگرسیون (Regression Line) را رسم کنیم به طوری که این خط بیشترین داده ها را پوشش دهد.

همچنین توضیح دادیم که رگرسیون خطی به دو صورت خطی ساده و چند متغیره وجود دارد. اما الگوریتم رگرسیون چگونه بهترین خط رگرسیون را پیدا می کند؟ پاسخ به این پرسش این است که ضریب (Coefficient) معادله خطی بر روی این خط اثر گذار هستند. ما در این مطلب می خواهیم در مورد معادله خطی و ضریب های آن صحبت کنیم.

رگرسیون خطی ساده

معادله زیر معادله رگرسیون ساده (Simpler Linear Regression) تک متغیری را نشان می دهد. در واقع در معادله زیر، متغیر وابسته y، تنها از یک متغیر مستقل  X تاثیر می گیرد. توجه کنید که منظور از متغیر مستقل همان ویژگی ها که با نماد X نشان داده می شوند و منظور از متغیر وابسته همان مقدار خروجی (پاسخ) است که با نماد y نشان داده می شوند.

متغیرهای مستقل (Independent Variable)، متغیرهایی هستند که برای پیش بینی متغیر وابسته (Dependent Variable) استفاده می شوند.

مفاهیم و واژگان یادگیری ماشین

در معادله شکل بالا (معادله رگرسیون خطی ساده) ?₁ و ?₀ به ترتیب شیب خط (Slop) و عرض از مبدا (y-intercept) هستندعرض از مبدا نقطه ای را در نمودار عمودی نشان می دهد که خط از آن نقطه عبور می کند. این دو مقدار یعنی شیب خط و عرض از مبدا را پارامترهای  رگرسیون خطی می گویند و تغییر دادن آنها بر روی خروجی تاثیر گذار خواهند بود.

در شکل زیر فرض شده که شیب خط (مقدار ?₁) صفر باشد، پس y = ?₀ خواهد بود و اگر فرض کنیم ?₀ عددی مثبت باشد، پس نمودار معادله خطی به صورت زیر خواهد بود. به عبارت دیگر با صفر بودن شیب خط، نمودار موازی محور x است. اما شیب خط یا Slop چیست؟ شیب خط به زاویه ای که خط با محور طولها می سازد مرتبط است. هر چه شیب خط عدد بزرگتری باشد تغییرات عرض نقاط روی خط بیشتر خواهد بود. (منبع)

بنابراین در الگوریتم رگرسیون خطی، متغیر وابسته y که همان پاسخ نیز است، تنها از یک متغیر مستقل X تاثیر می گیرد. به طور مثال با افزایش قد، وزن نیز باید افزایش پیدا کند و با پایین بودن سن کارمند (تجربه کمتر)، حقوق آن نیز کمتر می شود. در شکل زیر (منبع) مجموعه داده یادگیری برچسب دار را می بنید که ویژگی آن تجربه و سابقه کار کارمند و برچسب (پاسخ) آن میزان دستمزد کارمند است. حال می خواهیم با این تک ویژگی مفهوم معادله رگرسیون تک خطی ساده و کاربرد پارامترهای ضریب شیب خط و عرض از مبدا را توضیح دهیم.

فرض کنید سالیانه ۱۸۰۰ (دلار) به دستمزد کارمندان افزوده شود، پس می توانیم معادله رگرسیون خطی را به صورت زیر بنوسیم که در آن Years (سال تجربه) متغیر مستقل و عدد ۱۸۰۰ برابر با شیب خط  (Slop) و دستمزد شروع کار (Starting Salary) نیز برابر با عرض از مبدا (Intercept) خواهد بود. در شکل زیر و بوسیله مدل (Model) ایجاد شده می خواهیم دستمزد کارمند با ۶ سال تجربه را پیش بینی کنیم، پس با عدد گذاری مناسب، می توانیم متوجه شویم که دستمزد کارمند چه میزان خواهد بود.

Predicted Salary = Starting Salary + 1800 * Years

عرض از مبدا نقطه ای است که محور y را قطع می کند که در مثال بالا محور y ها برابر با مقدار دستمزدها است. شیب خط فاصله هر تغییر میان نقطه است که از افزایش X ها بدست می آید. به عبارت دیگر، شیب خط به زاویه ای که خط با محور طولها می سازد مرتبط است. هر چه شیب خط عدد بزرگتری باشد تغییرات عرض نقاط روی خط بیشتر خواهد بود. (منبع) شکل زیر نمودار سابقه کاری و میزان حقوق را نشان می دهد.

اما الگوریتم رگرسیون خطی چگونه می تواند بهترین خط رگرسیون را پیدا کند؟ گفتیم که پارامترهای رگرسیون خطی، تاثیر مستقیم روی خط رگرسیون دارند، بنابراین به عبارت دیگر چگونه مقدارهای این پارامترها پیدا می شوند؟ Residual را که خطا (Error) نیز می نامند، فاصله (تفاضل) میان مقدار نمونه (مشاهده) با مقدار پیش بینی شده را نشان می دهد. برای رسم بهترین خط رگرسیون، الگوریتم رگرسیون خطی، مجموع مربعات خطاها را کمینه (Minimum) می کند.