• toc {:toc}

Optimizer ๋ฅผ ๊ณต๋ถ€ํ•˜๋ฉด์„œ Local Minima ์— ๋น ์ง€๊ฑฐ๋‚˜ Saddle Point ์— ๋น ์ ธ๋ฒ„๋ฆฌ๋Š” ๋ฌธ์ œ๋ฅผ ๋งˆ์ฃผํ–ˆ๋‹ค. ์ด ๋ฌธ์ œ์— ๋Œ€ํ•ด ํŒŒ์•…ํ•ด๋ณด์ž.

Global, Local Minima ๋ž€?

  • Global Minima : ์ตœ์†Ÿ๊ฐ’

  • Local Minima : ๊ทน์†Ÿ๊ฐ’

  • ์ตœ์†Ÿ๊ฐ’: ์ •์˜์—ญ ๋‚ด์—์„œ ๊ฐ€์žฅ ์ž‘์€ ๊ฐ’

  • ๊ทน์†Ÿ๊ฐ’: ์ฃผ์œ„์˜ ๋ชจ๋“  ์ ์˜ ํ•จ์ˆซ๊ฐ’ ์ดํ•˜์˜ ํ•จ์ˆซ๊ฐ’

  • ์ผ๋ฐ˜์ ์œผ๋กœ ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ค๋ฉด์„œ Loss Function ์„ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋…ธ๋ ฅํ•˜๊ณ  ๊ฐ€์žฅ ํƒ€๊ฒŸ๊ฐ’๊ณผ ์œ ์‚ฌํ•˜๋„๋ก Loss ๊ฐ’์˜ ์ตœ์†Ÿ๊ฐ’์„ ์ฐพ๋Š” ๊ฒƒ์ด ๋ชฉ์ ์ด๋‹ค.

    ๋•Œ๋ฌธ์— ์ตœ์†Ÿ๊ฐ’์„ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด Gradient Descent ๋ฅผ ํ†ตํ•ด์„œ ๊ฐ€์ค‘์น˜๋ฅผ ํ•™์Šตํ•˜๋‹ค๋ณด๋ฉด ๊ทน์†Ÿ๊ฐ’์— ๋„๋‹ฌํ•˜๊ฒŒ ๋œ๋‹ค. ์ด ๋•Œ, Gradient Descent ์™€ ๊ฐ™์€ ๊ฒฝ์šฐ ์ฒซ ๋ฒˆ์งธ ๊ทน์†Ÿ๊ฐ’์—์„œ ๋ฉˆ์ถ”๊ฒŒ ๋˜๋ฏ€๋กœ Local Minima ์— ๋น ์ ธ๋ฒ„๋ฆฌ๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.

  • ๋•Œ๋ฌธ์— ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด์„œ Momentum ๊ณผ ๊ฐ™์ด ๊ด€์„ฑ์„ ์ฃผ๋ฉฐ Local Minima ๋ฅผ ๋น ์ ธ๋‚˜๊ฐˆ ์ˆ˜ ์žˆ๋Š” ์—ฌ์ง€๋ฅผ ์ฃผ๋Š” ๊ฒƒ์ด๋‹ค.

Minima{: width=โ€œ600โ€}{: .center}

Saddle Point ๋ž€?

  • Saddle Point(์•ˆ์žฅ์ ) : ๋‹ค๋ณ€์ˆ˜ ์‹คํ•จ์ˆ˜์˜ ๋ฒˆ์—ญ์—์„œ, ์–ด๋А ๋ฐฉํ–ฅ์—์„œ ๋ณด๋ฉด ๊ทน๋Œ“๊ฐ’์ด์ง€๋งŒ ๋‹ค๋ฅธ ๋ฐฉํ–ฅ์—์„œ ๋ณด๋ฉด ๊ทน์†Ÿ๊ฐ’์ด ๋˜๋Š” ์ ์ด๋‹ค.
  • ์•„๋ž˜ ๊ทธ๋ฆผ์˜ ๋นจ๊ฐ„์ ์œผ๋กœ ํ‘œ์‹œ๋œ ๋ถ€๋ถ„์„ ๋งํ•œ๋‹ค.
  • ์•ˆ์žฅ์  ๊ฐ™์€ ๊ฒฝ์šฐ๋„ gradient ๊ฐ€ 0 ์ด ๋˜๊ธฐ ๋•Œ๋ฌธ์— ํ•™์Šต๊ฒฐ๊ณผ๊ฐ€ ์•ˆ์žฅ์ ์—์„œ ์ˆ˜๋ ดํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ด ๋ฌธ์ œ๊ฐ€ ๋œ๋‹ค.

Saddle Point{: width=โ€œ600โ€}{: .center}