• toc {:toc}

선형 회귀란?

선형 회귀(영어: linear regression)는 종속 변수 y와 한 개 이상의 독립 변수 (또는 설명 변수) X와의 선형 상관 관계를 모델링하는 회귀분석 기법이다. (출처; 위키피디아)


독립 변수, 종속 변수가 무엇을 의미하는 것인지 차근차근 이해해보자.

  • 독립 변수 : 말 그대로 다른 변수에 의해서 변하지 않는 변수를 말한다. 독립 변수는 다른 변수에 영향을 미칠 수 있고 영향을 받는 변수를 종속 변수라고 한다.

즉, 독립 변수에 의해 종속 변수가 영향을 받고 이 변수간의 관계를 모델링해 원하는 예측값을 도출한다.


대표적인 선형 회귀 문제로 집값을 예측한다고 생각해보면 집값은 다른 변수에 의해 영향을 받는 종속 변수이고, 평 수, 방 수, 역세권 등의 변수들은 영향을 미치는 독립 변수라고 생각할 수 있다. 선형 회귀의 경우 이러한 변수간의 관계를 통해 최적의 값을 도출하는 기법이다.


변수간의 관계는 아래의 식처럼 표현되는데 이런 표현을 선형 결합이라 한다.

위 식에서 각 x들은 독립 변수 각각이 되고 y는 종속 변수라고 이해할 수 있다. 이 때, 독립 변수가 하나인 경우 단순 선형 회귀, 두 개 이상인 경우 다항 선형 회귀라고 한다. 독립 변수 앞에 붙어있는

y=ax+b

y_i=ax_i+b

\left[\begin{array}{c} x_1, 1 \ x_2, 1 \ … \end{array}\right] \left[\begin{array}{c} a \ b \ \end{array}\right] \approxeq \left[\begin{array}{c} y_1 \ y_2 \ … \end{array}\right]

Loss = (실제값) - (예측값)

ax \approxeq y \ Loss = y-ax

Loss = \frac 1 m \sum_{i=1}^m(y_i-ax_i)

Loss = \frac 1 m \sum_{i=1}^m(y-ax)^T(y-ax)

minimize(y-ax)^T(y-ax)

You can't use 'macro parameter character #' in math mode 위 식이 목적이 되고 이 loss는 gradient descent와 같은 optimize 방식을 사용함으로써 최소값을 최대한 찾아가도록 조정할 수 있다. <br> #### 정리 1. 선형 회귀 모델은 변수간의 관계를 일반화하는 최적의 직선을 도출하는 것을 목표로 한다. 2. 한 번에 최적의 직선을 도출할 수 없기 때문에 실제값과 예측값의 오차값을 보완하는 방향으로 학습한다. 3. 오차값이 최소인 직선을 도출해 결과값을 도출한다. <br> ## 추가 선형이라는 말 속에서 직선만이 Linear하다라는 생각을 할 수 있다.

f(x) = ax^2+bx+c

x

X=(x_1, x_2)=(x^2, x)