• toc {: toc}

Activation Function ์˜ ์‚ฌ์šฉ ์ด์œ 

Activation Function ์€ ์™œ ์‚ฌ์šฉ๋ ๊นŒ?

๋ณธ๋ž˜ ๋‰ด๋Ÿฐ์€ ์—ฌ๋Ÿฌ ๊ฒฝ๋กœ๋ฅผ ํ†ตํ•ด ๋“ค์–ด์˜จ ์ „๊ธฐ์‹ ํ˜ธ์˜ ํ•ฉ์ด ์ผ์ •์น˜ ์ด์ƒ์ด ๋˜๋ฉด ๋‹ค์Œ ๋‰ด๋Ÿฐ์œผ๋กœ ์‹ ํ˜ธ๋ฅผ ์ „๋‹ฌํ•œ๋‹ค.

  • Activation Function ์€ ์ž…๋ ฅ๋œ ๋ฐ์ดํ„ฐ์˜ ๊ฐ€์ค‘ ํ•ฉ์„ ์ถœ๋ ฅ ์‹ ํ˜ธ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ํ•จ์ˆ˜์ด๋‹ค.

ํ™œ์„ฑํ™”๋ผ๋Š” ์ด๋ฆ„์ฒ˜๋Ÿผ ์ž…๋ ฅ๋œ ๋ฐ์ดํ„ฐ ๊ฐ€์ค‘ ํ•ฉ์ด ํ™œ์„ฑํ™”๋ฅผ ์ผ์œผํ‚ฌ์ง€ ์ผ์œผํ‚ค์ง€ ์•Š์„์ง€๋ฅผ ๊ฒฐ์ •ํ•œ๋‹ค.

  • Activation Function ์€ ๋ชจ๋ธ์ด ๋น„์„ ํ˜• ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š”๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•œ๋‹ค.

Perceptron, Multi-Layer Perceptron ์žฅ์—์„œ ์šฐ๋ฆฌ๋Š” Layer ๋ฅผ ์Œ“์œผ๋ฉฐ ๋น„์„ ํ˜• ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค๊ณ  ํ–ˆ์ง€๋งŒ ์—„๋ฐ€ํžˆ ๋งํ•˜๋ฉด ์€๋‹‰์ธต์„ ์Œ“๊ธฐ๋งŒ ํ•ด์„œ๋Š” ๋น„์„ ํ˜• ๋ฌธ์ œ๋ฅผ ํ’€ ์ˆ˜ ์—†๋‹ค.

์œผ๋กœ Input ๊ณผ Net ์˜ ๊ณ„์‚ฐ์ด ์ด๋ฃจ์–ด์ง€๊ธฐ ๋•Œ๋ฌธ์— ์ธต์ด ์Œ“์—ฌ๋„ ๊ฐ’์€ ์„ ํ˜•์ ์ด๋‹ค.

โ‡’ ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Activation Function ์„ ์‚ฌ์šฉํ•ด ์ถœ๋ ฅ๊ฐ’์„ ๋น„์„ ํ˜•์ ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋ฉด์„œ ์„ ํ˜• ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ๋น„์„ ํ˜• ๋ถ„๋ฅ˜๊ธฐ๋กœ ๋งŒ๋“ ๋‹ค.

  • ๋น„์„ ํ˜•์ ์œผ๋กœ ๋ณ€ํ™˜ํ•ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์‹ ๊ฒฝ๋ง์—์„œ๋Š” Activation Function ์„ ๋น„์„ ํ˜•์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค.
  • ์˜ˆ์‹œ

Activation Function

๋ผ ํ•˜์ž. 3 ์ธต์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋„คํŠธ์›Œํฌ๋ผ ํ•˜๋ฉด

์ด๋‹ค. Activation Function ์ด ์„ ํ˜•์ด๋ฉด ๊ณ„์‚ฐํ•œ ๊ฒฐ๊ณผ๋„ ์„ ํ˜•์ด๋ฏ€๋กœ ๋น„์„ ํ˜• ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ๋น„์„ ํ˜• ๋ฌธ์ œ๋ฅผ ํ’€ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

Activation Function ์˜ ์ข…๋ฅ˜

Sigmoid(์‹œ๊ทธ๋ชจ์ด๋“œ)

  • ์‹œ๊ทธ๋ชจ์ด๋“œ ๊ณก์„ ์„ ๊ฐ–๋Š” ์ˆ˜ํ•™ ํ•จ์ˆ˜์ด๋‹ค.

Sigmoid implementation{: .center}

Sigmoid Saturated{: .center}

์ถœ์ฒ˜: https://heeya-stupidbutstudying.tistory.com/entry/ML-ํ™œ์„ฑํ™”-ํ•จ์ˆ˜Activation-Function

ํŠน์ง•

  • Sigmoid ๋Š” 0 ์—์„œ 1 ์‚ฌ์ด์˜ ํ•จ์ˆ˜์ด๋‹ค. ๊ฐ’์ด ๋“ค์–ด์˜ฌ ๊ฒฝ์šฐ 0~1 ์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ๋ฐ˜ํ™˜ํ•œ๋‹ค.
  • ์ถœ๋ ฅ ๊ฐ’์˜ ๋ฒ”์œ„๊ฐ€ 0~1 ์‚ฌ์ด๋กœ ์ถœ๋ ฅ๊ฐ’์˜ ์ฐจ์ด๋ฅผ ๊ฐ–๊ธฐ ๋•Œ๋ฌธ์— ๋Œ€๋ถ€๋ถ„ Output ์—์„œ ์ด์ง„๋ถ„๋ฅ˜ (binary classification) ํ•  ๊ฒฝ์šฐ์— ์‚ฌ์šฉ๋œ๋‹ค.
  • Sigmoid ์˜ ๋ฏธ๋ถ„ํ•จ์ˆ˜์˜ ์ตœ๋Œ“๊ฐ’์€ 1/4=0.25 ์ด๋‹ค.

๋‹จ์ 

  • Vanishing Gradient : Sigmoid ๋Š” ๊ฐ’์ด ์ปค์ง€๊ฑฐ๋‚˜ ์ž‘์•„์งˆ ์ˆ˜๋ก ๊ฐ’๋“ค์ด 0 ๋˜๋Š” 1 ๋กœ ์ˆ˜๋ ดํ•œ๋‹ค. ๋•Œ๋ฌธ์— ์ด๋ฅผ ๋ฏธ๋ถ„ํ•œ ๊ฐ’๋„ 0 ์— ๊ฐ€๊นŒ์›Œ์ง„๋‹ค. ๊ฒฐ๊ตญ, ์‹ ๊ฒฝ๋ง์˜ ๊นŠ์ด๊ฐ€ ๊นŠ์–ด์งˆ ์ˆ˜๋ก gradient ๊ฐ€ 0 ์— ๊ฐ€๊นŒ์›Œ์ง€๊ฒŒ ๋œ๋‹ค. (Backpropagation ์„ ํ•  ๋•Œ ์ด์ „ ๊ฐ’์„ ์ฐธ๊ณ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ ์  ๋” 0 ์œผ๋กœ ๊ฐ์†Œํ•œ๋‹ค.)

    โ‡’ gradient ๋กœ ์ธํ•œ ๊ฐ€์ค‘์น˜ ๋ณ€ํ™”๊ฐ€ ์—†์œผ๋ฏ€๋กœ ํ•™์Šต์ด ์ž˜ ๋˜์ง€ ์•Š๋Š”๋‹ค.

  • Not Zero-Centered : Zero-Centered ๋Š” ๊ทธ๋ž˜ํ”„์˜ ์ค‘์‹ฌ์ด 0 ์ธ ํ˜•ํƒœ๋กœ ํ•จ์ˆซ๊ฐ’์ด ์–‘์ˆ˜ ํ˜น์€ ์Œ์ˆ˜์— ์น˜์šฐ์น˜์ง€ ์•Š๊ณ  ์‹ค์ˆ˜ ์ „์ฒด์—์„œ ๋‚˜ํƒ€๋‚˜๋Š” ํ˜•ํƒœ๋ฅผ ์˜๋ฏธํ•œ๋‹ค. Sigmoid ๋Š” ํ•ญ์ƒ ์–‘์ˆ˜๊ฐ’์ด๊ธฐ ๋•Œ๋ฌธ์— ์ด์ „ gradient ์™€ ๊ณฑํ•ด์ง€๋Š” gradient ๊ฐ’์€ ๋ชจ๋‘ ์–‘์ˆ˜์ด๊ฑฐ๋‚˜ ๋ชจ๋‘ ์Œ์ˆ˜๊ฐ€ ๋œ๋‹ค. ์ขŒํ‘œ์ถ•์œผ๋กœ ๋ดค์„ ๋•Œ 1, 3 ์‚ฌ๋ถ„๋ฉด์ด ๋ถ€ํ˜ธ๊ฐ€ ๋ชจ๋‘ ๊ฐ™๊ธฐ ๋•Œ๋ฌธ์— 1, 3 ์‚ฌ๋ถ„๋ฉด ๋ฐฉํ–ฅ์œผ๋กœ๋งŒ ์ด๋™ํ•˜๊ฒŒ ๋œ๋‹ค.

    โ‡’ zigzag ๋ฌธ์ œ๋กœ ํ•™์Šต์ด ์ž˜ ๋˜์ง€ ์•Š๊ฒŒ ๋œ๋‹ค.

    (์ดํ•ด๋˜์ง€ ์•Š์œผ๋ฉด https://nittaku.tistory.com/267 ์ฐธ๊ณ )

zigzag{: .center}

์ถœ์ฒ˜: CS231n Lecture6

Tanh(Hyperbolic Tangent Function)

  • Sigmoid ๋ฅผ ๋ณ€ํ˜•ํ•œ ์Œ๊ณก์„  ํ•จ์ˆ˜์ด๋‹ค.

tanh implementation{: .center}

Differentiation function of tanh and sigmoid{: .center}

์ถœ์ฒ˜ : https://heeya-stupidbutstudying.tistory.com/entry/ML-ํ™œ์„ฑํ™”-ํ•จ์ˆ˜Activation-Function

์™ผ์ชฝ์€ tanh(x) ์˜ ๊ทธ๋ž˜ํ”„, ์˜ค๋ฅธ์ชฝ์€ tanh ์™€ sigmoid ์˜ ๋„ํ•จ์ˆ˜ ๊ทธ๋ž˜ํ”„์ด๋‹ค.

ํŠน์ง•

  • Sigmoid ์˜ Not Zero-Centered ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ๋‹ค.
  • Sigmoid ๋ฏธ๋ถ„ํ•จ์ˆ˜์˜ ์ตœ๋Œ“๊ฐ’๋ณด๋‹ค tanh ์˜ ์ตœ๋Œ“๊ฐ’์ด 4 ๋ฐฐ ๋” ํฌ๋‹ค.
  • ์—ฌ์ „ํžˆ Vanishing Gradient ๋ฌธ์ œ๋Š” ๋‚จ์•„์žˆ๋‹ค.

Transclude of Softmax

Transclude of ReLU