๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• (Gradient Desent)

  • ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ ๋‚˜ํƒ€๋‚ด๋„๋ก ๋ณ€ํ™”์œจ์„ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ์„ ์กฐ๊ธˆ์”ฉ ์กฐ์ •ํ•˜๋Š” ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜

    = ๋ฐ˜๋ณต์ ์ธ ๊ณ„์‚ฐ์„ ํ†ตํ•ด Weight ๊ฐ’์„ ์—…๋ฐ์ดํŠธํ•˜๋ฉด์„œ ์˜ค์ฐจ๊ฐ€ ์ตœ์†Œ๊ฐ€ ๋˜๋Š” W ๋ฅผ ๊ตฌํ•˜๋Š” ๋ฐฉ์‹

    = ์‚ฐ์˜ ์ •์ƒ์—์„œ ์ถœ๋ฐœ์ง€์ ๊นŒ์ง€ ๋‚ด๋ ค๊ฐ€๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์กฐ๊ธˆ์”ฉ ์ด๋™ํ•˜๋ฉด ์–ธ์  ๊ฐ€ ๋„๋‹ฌํ•œ๋‹ค๋Š” ์‚ฌ๊ณ ๋ฐฉ์‹


๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ• ์ž‘๋™ ๋ฐฉ์‹ ๋ฐ ๊ธฐ๋ณธ ๊ฐœ๋…

  • ์ผ์ • ๋ฐฐ์น˜๋ฅผ ๋žœ๋ค์œผ๋กœ ์„ ํƒํ•ด ํ›ˆ๋ จํ•˜๋ฉด์„œ W ๊ฐ’์„ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐฉ์‹
  • ์—ํฌํฌ (epoch) : ๋น„๋ณต์› ์ถ”์ถœ์„ ํ†ตํ•ด ํ›ˆ๋ จ์„ธํŠธ๋ฅผ ๋ชจ๋‘ ์‚ฌ์šฉํ•œ ๊ฒฝ์šฐ 1 ์—ํฌํฌ๋ฅผ ์ง„ํ–‰ํ–ˆ๋‹ค๊ณ  ๋งํ•œ๋‹ค.
  • ์Šคํ… (step) : ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ 1 ๋ฒˆ ์—…๋ฐ์ดํŠธ ํ•˜๋Š” ๊ฒƒ

ex) ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ = 200, ๋ฏธ๋‹ˆ๋ฐฐ์น˜์˜ ํฌ๊ธฐ = 10 ์ธ ๊ฒฝ์šฐ 20 ์Šคํ…์„ ์ง„ํ–‰ํ•ด์•ผ 1 ์—ํฌํฌ๊ฐ€ ์ง„ํ–‰๋œ ๊ฒƒ


๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์˜ ์ข…๋ฅ˜ (Sort of Gradient Descent)

  • ํ™•๋ฅ ์  ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ• (Stochastic GD) - ์ „์ฒด ํ›ˆ๋ จ๋ฐ์ดํ„ฐ ์ค‘ 1 ๊ฐœ ์ž„์˜๋กœ ์„ ํƒํ•ด ๊ฒฝ์‚ฌํ•˜๊ฐ•
  • ๋ฏธ๋‹ˆ๋ฐฐ์น˜ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ• (Mini-Batch GD) - ์ „์ฒด ํ›ˆ๋ จ๋ฐ์ดํ„ฐ ์ค‘ ํŠน์ • ํฌ๊ธฐ๋งŒํผ ์ž„์˜๋กœ ์„ ํƒ
  • ๋ฐฐ์น˜ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ• (Batch GD) - ์ „์ฒด ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด ๊ฒฝ์‚ฌํ•˜๊ฐ•

์ฒ˜์Œ์—๋Š” ๋ฐฐ์น˜ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์„ ์‚ฌ์šฉํ–ˆ์ง€๋งŒ ์ž…๋ ฅ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ๊ฐ€ ํฌ๊ณ  ๋ ˆ์ด์–ด๊ฐ€ ๋งŽ์„ ์ˆ˜๋ก ๋งŽ์€ Computing ์ž์› (๋ฉ”๋ชจ๋ฆฌ ๋ถ€์กฑ, ๋งŽ์€ ์‹œ๊ฐ„) ์ด ํ•„์š”ํ•˜๋‹ค.

โ‡’ ์ด๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ํ™•๋ฅ ์ , ๋ฏธ๋‹ˆ๋ฐฐ์น˜ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์ด ๋„์ž…๋๋‹ค.

๋Œ€๋ถ€๋ถ„์˜ ๋”ฅ๋Ÿฌ๋‹ Framework ์—์„œ๋Š” ๋ฏธ๋‹ˆ๋ฐฐ์น˜ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ• (Mini-Batch GD) ์ด ์‚ฌ์šฉ๋œ๋‹ค.



์†์‹คํ•จ์ˆ˜์˜ ๋ฏธ๋ถ„

  • ์†์‹คํ•จ์ˆ˜ (Loss function) - ์˜ˆ์ธก๊ฐ’๊ณผ ์‹ค์ œ๊ฐ’์˜ ์ฐจ์ด๋ฅผ ํ•จ์ˆ˜๋กœ ์ •์˜ํ•œ ๊ฒƒ

,

  • Loss ์‚ฐ์ถœ ๊ณผ์ •
  1. Layer ๋ฅผ ํ†ต๊ณผํ•˜๋ฉฐ f(x, W) ๋ฅผ ๊ณ„์‚ฐํ•ด Output ์„ ์‚ฐ์ถœํ•œ๋‹ค.
  2. ์˜ˆ์ธก๊ฐ’๊ณผ ์‹ค์ œ๊ฐ’์„ ํ†ตํ•ด Loss ๋ฅผ ๊ตฌํ•˜๊ณ  ํ‰๊ท ์„ ์‚ฐ์ถœํ•œ๋‹ค. (์ด๋ฏธ์ง€๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ๋Š” ํ”ฝ์…€ ๋‹จ์œ„๋กœ ์†์‹ค๊ฐ’์„ ์‚ฐ์ถœํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํ”ฝ์…€๋‹จ์œ„๋กœ ๊ณ„์‚ฐํ•˜์—ฌ ์ „์ฒด ํ”ฝ์…€์— ๋Œ€ํ•œ ์†์‹ค ํ‰๊ท ์„ ์‚ฐ์ถœํ•œ๋‹ค.)
  3. ์†์‹คํ•จ์ˆ˜ ์ผ๋ฐ˜ํ™”๋ฅผ ์œ„ํ•œ ๊ทœ์ œ๋ฅผ ์ถ”๊ฐ€ํ•œ๋‹ค.
  • ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ๋ชฉํ‘œ๋Š” ์˜ˆ์ธก๊ฐ’์ด ์‹ค์ œ๊ฐ’์„ ๊ฐ€์žฅ ์ž˜ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๊ฒƒ์ด๊ณ  ๋‘ ๊ฐ’์˜ ์ฐจ์ด๋ฅผ ์†์‹คํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ์ •์˜ํ•œ๋‹ค. ์ด๋Š” ์†์‹คํ•จ์ˆ˜๊ฐ€ ๊ฐ€์žฅ ์ž‘์€ ๊ฒƒ์ด ์˜ˆ์ธก๊ฐ’์ด ์‹ค์ œ๊ฐ’์„ ๊ฐ€์žฅ ์ž˜ ๋‚˜ํƒ€๋‚ธ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.

    โ‡’ ์†์‹คํ•จ์ˆ˜์˜ ๊ฐ’์ด ๊ฐ€์žฅ ์ž‘์€ ๋ถ€๋ถ„ (Global Minima) ์— ์œ„์น˜ํ•  ์ˆ˜ ์žˆ๋„๋ก W ๋ฅผ ์—…๋ฐ์ดํŠธ ํ•ด์•ผํ•œ๋‹ค.

  • ์ œ๊ณฑ์˜ค์ฐจ ํ•จ์ˆ˜ (Square Error, SE) ๋ฅผ ์˜ˆ๋กœ ๋“ค์–ด ๋ณด์ž.

,

(

), (์„ธ๋กœ์ถ• - SE, ๊ฐ€๋กœ์ถ• - w)

  • ๊ฐœํ˜•์„ ๋ดค์„ ๋•Œ ์ด์ฐจํ•จ์ˆ˜๋กœ ํ‘œํ˜„๋˜๊ณ  ํ•จ์ˆ˜๊ฐ€ ๊ฐ–๋Š” ๊ฐ€์žฅ ์ž‘์€ ๊ฐ’์„ ๊ฐ€์ ธ์•ผ ํ•œ๋‹ค.

์ธ ๊ฐ’ ์ค‘ ์ตœ์†Ÿ๊ฐ’์„ ์ฐพ์•„์•ผ ํ•œ๋‹ค.

๋ฏธ๋ถ„ โ†’ ์ˆœ๊ฐ„๋ณ€ํ™”์œจ

์†์‹คํ•จ์ˆ˜์˜ ๋ฏธ๋ถ„ โ†’ ํŽธ๋ฏธ๋ถ„์„ ํ†ตํ•ด ์ˆ˜ํ–‰ํ•œ๋‹ค.

์†์‹คํ•จ์ˆ˜์˜ ๋ฏธ๋ถ„๊ฐ’์ด (-) ์Œ์ˆ˜์ธ ๊ฒฝ์šฐ ๊ทธ๋งŒํผ ๋” ์ฆ๊ฐ€์‹œ์ผœ์•ผ ํ•˜๊ณ  (+) ์–‘์ˆ˜์ธ ๊ฒฝ์šฐ ๋” ๊ฐ์†Œ์‹œ์ผœ์•ผ ํ•œ๋‹ค.

(์†์‹คํ•จ์ˆ˜ ๋ฏธ๋ถ„๊ฐ’)

  • (
You can't use 'macro parameter character #' in math mode \mu $$ = ํ•™์Šต๋ฅ , Learning Rate) - ํ•™์Šต๋ฅ ์„ ํ†ตํ•ด์„œ ์–ด๋А ์ •๋„ ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ •ํ•  ๊ฒƒ์ธ์ง€๋ฅผ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•™์Šต๋ฅ ์„ ํ†ตํ•ด ๊ฐ€์ค‘์น˜์˜ ๋ณ€๋™ ์ •๋„๋ฅผ ์กฐ์ ˆํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํ•™์Šต๋ฅ ์„ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค. ํ•™์Šต๋ฅ ์ด ๋„ˆ๋ฌด ํฌ๋‹ค๋ฉด ์š”๋™์น˜๋ฉฐ ์ตœ์†Ÿ๊ฐ’์„ ์ž˜ ์ฐพ์ง€ ๋ชปํ•œ๋‹ค. ํ•™์Šต๋ฅ ์ด ๋„ˆ๋ฌด ์ž‘๋‹ค๋ฉด ์ตœ์†Ÿ๊ฐ’๊นŒ์ง€ ์ž˜ ์ด๋™ํ•˜์ง€๋ฅผ ๋ชปํ•œ๋‹ค. <p align="center"><img src="https://user-images.githubusercontent.com/64977390/208241851-5168da1c-82e0-4be4-b13f-1c816e0cf128.png" width="700"></p> --- <br> # ์š”์•ฝ ๋ฐ ์ •๋ฆฌ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•๊ณผ ์†์‹คํ•จ์ˆ˜์˜ ํŽธ๋ฏธ๋ถ„์„ ์ ์šฉํ•ด ์ตœ์ ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ํ•™์Šตํ•œ๋‹ค. 1. ๋ฐฐ์น˜ํฌ๊ธฐ ๋งŒํผ ํ›ˆ๋ จ๋ฐ์ดํ„ฐ์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฝ‘์•„๋‚ธ๋‹ค. 2. ์˜ˆ์ธก๊ฐ’์„ ๊ณ„์‚ฐํ•˜๊ณ  ์†์‹ค๊ฐ’์„ ๊ณ„์‚ฐํ•œ๋‹ค. โ‡’ ์†์‹คํ•จ์ˆ˜๋ฅผ ์ •์˜ 3. ์†์‹คํ•จ์ˆ˜์˜ ํŽธ๋ฏธ๋ถ„์„ ํ†ตํ•ด์„œ W ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•œ๋‹ค. 4. 1~3์„ ํ•ด๋‹น ์—ํฌํฌ๋งŒํผ ๋ฐ˜๋ณตํ•˜์—ฌ ์ตœ์ ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์–ป์–ด๋‚ธ๋‹ค.