• toc {:toc}

μ„ ν˜• νšŒκ·€λž€?

μ„ ν˜• νšŒκ·€ (μ˜μ–΄: linear regression) λŠ” 쒅속 λ³€μˆ˜ y 와 ν•œ 개 μ΄μƒμ˜ 독립 λ³€μˆ˜ (λ˜λŠ” μ„€λͺ… λ³€μˆ˜) X μ™€μ˜ μ„ ν˜• 상관 관계λ₯Ό λͺ¨λΈλ§ν•˜λŠ” νšŒκ·€λΆ„μ„ 기법이닀. (좜처; μœ„ν‚€ν”Όλ””μ•„)


독립 λ³€μˆ˜, 쒅속 λ³€μˆ˜κ°€ 무엇을 μ˜λ―Έν•˜λŠ” 것인지 μ°¨κ·Όμ°¨κ·Ό μ΄ν•΄ν•΄λ³΄μž.

  • 독립 λ³€μˆ˜ : 말 κ·ΈλŒ€λ‘œ λ‹€λ₯Έ λ³€μˆ˜μ— μ˜ν•΄μ„œ λ³€ν•˜μ§€ μ•ŠλŠ” λ³€μˆ˜λ₯Ό λ§ν•œλ‹€. 독립 λ³€μˆ˜λŠ” λ‹€λ₯Έ λ³€μˆ˜μ— 영ν–₯을 λ―ΈμΉ  수 있고 영ν–₯을 λ°›λŠ” λ³€μˆ˜λ₯Ό 쒅속 λ³€μˆ˜λΌκ³  ν•œλ‹€.

즉, 독립 λ³€μˆ˜μ— μ˜ν•΄ 쒅속 λ³€μˆ˜κ°€ 영ν–₯을 λ°›κ³  이 λ³€μˆ˜κ°„μ˜ 관계λ₯Ό λͺ¨λΈλ§ν•΄ μ›ν•˜λŠ” μ˜ˆμΈ‘κ°’μ„ λ„μΆœν•œλ‹€.


λŒ€ν‘œμ μΈ μ„ ν˜• νšŒκ·€ 문제둜 집값을 μ˜ˆμΈ‘ν•œλ‹€κ³  생각해보면 집값은 λ‹€λ₯Έ λ³€μˆ˜μ— μ˜ν•΄ 영ν–₯을 λ°›λŠ” 쒅속 λ³€μˆ˜μ΄κ³ , 평 수, λ°© 수, μ—­μ„ΈκΆŒ λ“±μ˜ λ³€μˆ˜λ“€μ€ 영ν–₯을 λ―ΈμΉ˜λŠ” 독립 λ³€μˆ˜λΌκ³  생각할 수 μžˆλ‹€.

μ„ ν˜• νšŒκ·€μ˜ 경우 μ΄λŸ¬ν•œ λ³€μˆ˜κ°„μ˜ 관계λ₯Ό 톡해 졜적의 값을 λ„μΆœν•˜λŠ” 기법이닀.


λ³€μˆ˜κ°„μ˜ κ΄€κ³„λŠ” μ•„λž˜μ˜ μ‹μ²˜λŸΌ ν‘œν˜„λ˜λŠ”λ° 이런 ν‘œν˜„μ„ μ„ ν˜• 결합이라 ν•œλ‹€.

μœ„ μ‹μ—μ„œ 각 x 듀은 독립 λ³€μˆ˜ 각각이 되고 y λŠ” 쒅속 λ³€μˆ˜λΌκ³  이해할 수 μžˆλ‹€. 이 λ•Œ, 독립 λ³€μˆ˜κ°€ ν•˜λ‚˜μΈ 경우 λ‹¨μˆœ μ„ ν˜• νšŒκ·€, 두 개 이상인 경우 λ‹€ν•­ μ„ ν˜• νšŒκ·€λΌκ³  ν•œλ‹€. 독립 λ³€μˆ˜ μ•žμ— λΆ™μ–΄μžˆλŠ”

은 κ°€μ€‘μΉ˜λ‘œ 각 독립 λ³€μˆ˜λ“€μ΄ μ–Όλ§ˆλ‚˜ 영ν–₯을 λ―ΈμΉ˜λŠ”μ§€λ₯Ό λ‚˜νƒ€λ‚Έλ‹€.


μ„ ν˜• λͺ¨λΈμ€ λ³€μˆ˜κ°„μ˜ μ„ ν˜• 결합을 톡해 각각의 값듀을 μΌλ°˜ν™”ν•˜λŠ” 졜적의 직선을 λ„μΆœν•΄λ‚΄λŠ” λͺ¨λΈμ„ λ§ν•œλ‹€. λ‹¨μˆœ μ„ ν˜• νšŒκ·€μ˜ 경우λ₯Ό 그림으둜 λ‚˜νƒ€λ‚΄λ³΄λ©΄ μ•„λž˜μ™€ κ°™λ‹€.

μ„ ν˜• κ²°ν•©

μ΄λ ‡κ²Œ λ‚˜νƒ€λ‚Έ 선이

라고 ν•΄λ³΄μž. 그러면

ν˜•νƒœλ‘œ λ‚˜νƒ€λ‚Ό 수 μžˆλ‹€. 그리고 이 ν•¨μˆ˜λ₯Ό ν–‰λ ¬λ‘œ λ‚˜νƒ€λ‚΄λ³΄λ©΄ μ•„λž˜μ™€ κ°™λ‹€.

아무것도 λͺ¨λ₯΄λŠ” λͺ¨λΈμ΄ ν•œ λ²ˆμ— 졜적의 직선을 λ„μΆœν•΄λ‚΄κΈ°λŠ” μ–΄λ ΅λ‹€. λ•Œλ¬Έμ— μ‹€μ œκ°’κ³Ό μ˜ˆμΈ‘κ°’μ˜ 차이, 였차λ₯Ό κ΅¬ν•˜κ³  였차λ₯Ό μ€„μ—¬λ‚˜κ°€λŠ” ν•™μŠ΅μ˜ 과정을 거치며 졜적의 직선을 λ„μΆœν•œλ‹€.

μ‹€μ œκ°’μ˜ˆμΈ‘κ°’

의 ν˜•μ‹μœΌλ‘œ ꡬ할 수 μžˆλŠ”λ° b, 절편의 경우 선을 μœ„ μ•„λž˜λ‘œ μœ„μΉ˜μ‹œν‚€λŠ” 역할을 ν•œλ‹€. λ•Œλ¬Έμ—

μž„μ„ μ•Œ 수 있으며 μš°λ¦¬κ°€ μ°Ύμ•„μ•Ό ν•  졜적의 값은 a μž„μ„ μ•Œ 수 μžˆλ‹€.
μ•„λž˜ κ·Έλž˜ν”„λ₯Ό 보면 선을 κΈ°μ€€μœΌλ‘œ μœ„μ— μžˆλŠ” κ°’, μ•„λž˜μ— μžˆλŠ” κ°’μ˜ 였차의 λΆ€ν˜Έκ°€ 달라진닀.

λ•Œλ¬Έμ— μ ˆλŒ“κ°’μ„ μ‚¬μš©ν•œλ‹€.

ν•˜μ§€λ§Œ 였차의 λ³€ν™”μœ¨μ„ κ΅¬ν•˜κΈ° μœ„ν•΄μ„œλŠ” κ²°κ΅­ 미뢄을 ν•΄μ•Όν•˜λŠ”λ° μ ˆλŒ“κ°’μ„ μ‚¬μš©ν•  경우 쒌우 ꡬ간을 μ‚΄νŽ΄μ•Ό ν•˜λ―€λ‘œ 과정이 ν•˜λ‚˜κ°€ 더 생기기 λ•Œλ¬Έμ— μ œκ³±μ„ μ·¨ν•΄ ν•΄κ²°ν•œλ‹€.

μ΄λ ‡κ²Œ μ œκ³±μ„ μ‚¬μš©ν•  경우 1) μŒμˆ˜κ°’μ„ 없앨 수 있고 2) μ†μ‹€μ˜ 격차λ₯Ό 더 ν‚€μ›Œ 손싀을 더 쀄이도둝 쑰절 ν•  수 μžˆλ‹€.

이λ₯Ό λ²‘ν„°μ˜ κ΄€μ μœΌλ‘œ 변경해보면 μ•„λž˜μ™€ 같이 ν‘œν˜„ν•  수 μžˆλ‹€.

loss

검정색 선이 μ‹€μ œκ°’κ³Ό μ˜ˆμΈ‘κ°’μ˜ 차이이고 loss λ₯Ό μ˜λ―Έν•œλ‹€. 각 κ°’λ“€μ˜ loss 전체합을 톡해 전체 loss λ₯Ό κ΅¬ν•˜κ³  전체 loss λ₯Ό μ€„μ΄λŠ” λ°©ν–₯으둜 ν•™μŠ΅ν•œλ‹€.

μœ„ 식이 λͺ©μ μ΄ 되고 이 loss λŠ” gradient descent 와 같은 optimize 방식을 μ‚¬μš©ν•¨μœΌλ‘œμ¨ μ΅œμ†Œκ°’μ„ μ΅œλŒ€ν•œ 찾아가도둝 μ‘°μ •ν•  수 μžˆλ‹€.


정리

  1. μ„ ν˜• νšŒκ·€ λͺ¨λΈμ€ λ³€μˆ˜κ°„μ˜ 관계λ₯Ό μΌλ°˜ν™”ν•˜λŠ” 졜적의 직선을 λ„μΆœν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•œλ‹€.
  2. ν•œ λ²ˆμ— 졜적의 직선을 λ„μΆœν•  수 μ—†κΈ° λ•Œλ¬Έμ— μ‹€μ œκ°’κ³Ό μ˜ˆμΈ‘κ°’μ˜ μ˜€μ°¨κ°’μ„ λ³΄μ™„ν•˜λŠ” λ°©ν–₯으둜 ν•™μŠ΅ν•œλ‹€.
  3. μ˜€μ°¨κ°’μ΄ μ΅œμ†ŒμΈ 직선을 λ„μΆœν•΄ 결과값을 λ„μΆœν•œλ‹€.

μΆ”κ°€

μ„ ν˜•μ΄λΌλŠ” 말 μ†μ—μ„œ μ§μ„ λ§Œμ΄ Linear ν•˜λ‹€λΌλŠ” 생각을 ν•  수 μžˆλ‹€.

예λ₯Ό λ“€μ–΄ μœ„μ˜ κ²½μš°μ—μ„œ λ‹¨μˆœνžˆ 2 μ°¨ λ°©μ •μ‹μ˜ ν˜•νƒœλ₯Ό λˆλ‹€λŠ” 점만으둜 μ„ ν˜•μ΄ μ•„λ‹ˆλΌκ³  생각할 수 μžˆλ‹€λŠ” 점이닀. ν•˜μ§€λ§Œ 이런 λ‹¨μˆœν•œ μƒκ°μœΌλ‘œλŠ” μ„ ν˜•μ˜ νŒλ‹¨μ„ ν•  수 μ—†λ‹€.

μ΄λŠ” 문제λ₯Ό μ–΄λ–»κ²Œ μ •μ˜ν•  것인가에 λŒ€ν•΄ λ‹¬λ €μžˆλ‹€. λ‹€μ‹œ μ„ ν˜• νšŒκ·€μ˜ μ •μ˜λ₯Ό μƒκ°ν•΄λ³΄μž.

μ„ ν˜• νšŒκ·€ (μ˜μ–΄: linear regression) λŠ” 쒅속 λ³€μˆ˜ y 와 ν•œ 개 μ΄μƒμ˜ 독립 λ³€μˆ˜ (λ˜λŠ” μ„€λͺ… λ³€μˆ˜) X μ™€μ˜ μ„ ν˜• 상관 관계λ₯Ό λͺ¨λΈλ§ν•˜λŠ” νšŒκ·€λΆ„μ„ 기법이닀. (좜처; μœ„ν‚€ν”Όλ””μ•„)

이 λ•Œ, μš°λ¦¬κ°€ 쒅속 λ³€μˆ˜μ™€ 독립 λ³€μˆ˜λ₯Ό μ–΄λ–»κ²Œ μ •μ˜ν•˜λŠλƒμ— λ”°λΌμ„œ 문제의 μ •μ˜κ°€ λ‹¬λΌμ§€κ²Œ λœλ‹€.

  • λ§Œμ•½ μœ„μ˜ 문제 κ²½μš°μ—μ„œ μš°λ¦¬κ°€ 독립 λ³€μˆ˜λ₯Ό

둜 μ •μ˜ν•˜κ²Œ λœλ‹€λ©΄ μ΄λŠ” Linear Regression 이 μ•„λ‹Œ Polynomial Regression 이 λœλ‹€.

  • ν•˜μ§€λ§Œ 독립 λ³€μˆ˜λ₯Ό
λ‘œμ •μ˜ν•œλ‹€λ©΄μ΄λŠ”μœΌλ‘œνŒλ‹¨ν• μˆ˜μžˆλ‹€κ²°κ΅­μ–΄λ–»κ²Œλ¬Έμ œλ₯Όμ •μ˜ν•˜λŠ”κ°€μ—λ”°λΌμ„œμ„ ν˜•νšŒκ·€λ₯Όμ •μ˜ν• μˆ˜μžˆλŠ”κ²ƒμ΄μ§€λ‹¨μˆœνžˆν˜•νƒœκ°€μ„ ν˜•νšŒκ·€λ₯Όμ •μ˜ν•˜λŠ”κ²ƒμ€μ•„λ‹ˆλ‹€