- toc {: toc}
Activation Function ์ ์ฌ์ฉ ์ด์
Activation Function ์ ์ ์ฌ์ฉ๋ ๊น?
๋ณธ๋ ๋ด๋ฐ์ ์ฌ๋ฌ ๊ฒฝ๋ก๋ฅผ ํตํด ๋ค์ด์จ ์ ๊ธฐ์ ํธ์ ํฉ์ด ์ผ์ ์น ์ด์์ด ๋๋ฉด ๋ค์ ๋ด๋ฐ์ผ๋ก ์ ํธ๋ฅผ ์ ๋ฌํ๋ค.
- Activation Function ์ ์ ๋ ฅ๋ ๋ฐ์ดํฐ์ ๊ฐ์ค ํฉ์ ์ถ๋ ฅ ์ ํธ๋ก ๋ณํํ๋ ํจ์์ด๋ค.
ํ์ฑํ๋ผ๋ ์ด๋ฆ์ฒ๋ผ ์ ๋ ฅ๋ ๋ฐ์ดํฐ ๊ฐ์ค ํฉ์ด ํ์ฑํ๋ฅผ ์ผ์ผํฌ์ง ์ผ์ผํค์ง ์์์ง๋ฅผ ๊ฒฐ์ ํ๋ค.
- Activation Function ์ ๋ชจ๋ธ์ด ๋น์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋๋ฐ ์ค์ํ ์ญํ ์ ํ๋ค.
Perceptron, Multi-Layer Perceptron ์ฅ์์ ์ฐ๋ฆฌ๋ Layer ๋ฅผ ์์ผ๋ฉฐ ๋น์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค๊ณ ํ์ง๋ง ์๋ฐํ ๋งํ๋ฉด ์๋์ธต์ ์๊ธฐ๋ง ํด์๋ ๋น์ ํ ๋ฌธ์ ๋ฅผ ํ ์ ์๋ค.
์ผ๋ก Input ๊ณผ Net ์ ๊ณ์ฐ์ด ์ด๋ฃจ์ด์ง๊ธฐ ๋๋ฌธ์ ์ธต์ด ์์ฌ๋ ๊ฐ์ ์ ํ์ ์ด๋ค.
โ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Activation Function ์ ์ฌ์ฉํด ์ถ๋ ฅ๊ฐ์ ๋น์ ํ์ ์ผ๋ก ๋ณํํ๋ฉด์ ์ ํ ๋ถ๋ฅ๊ธฐ๋ฅผ ๋น์ ํ ๋ถ๋ฅ๊ธฐ๋ก ๋ง๋ ๋ค.
- ๋น์ ํ์ ์ผ๋ก ๋ณํํด์ผ ํ๊ธฐ ๋๋ฌธ์ ์ ๊ฒฝ๋ง์์๋ Activation Function ์ ๋น์ ํ์ผ๋ก ์ฌ์ฉํ๋ค.
- ์์
Activation Function
๋ผ ํ์. 3 ์ธต์ผ๋ก ๊ตฌ์ฑ๋ ๋คํธ์ํฌ๋ผ ํ๋ฉด
์ด๋ค. Activation Function ์ด ์ ํ์ด๋ฉด ๊ณ์ฐํ ๊ฒฐ๊ณผ๋ ์ ํ์ด๋ฏ๋ก ๋น์ ํ ํจ์๋ฅผ ์ฌ์ฉํด์ผ ๋น์ ํ ๋ฌธ์ ๋ฅผ ํ ์ ์๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
Activation Function ์ ์ข ๋ฅ
Sigmoid(์๊ทธ๋ชจ์ด๋)
- ์๊ทธ๋ชจ์ด๋ ๊ณก์ ์ ๊ฐ๋ ์ํ ํจ์์ด๋ค.
{: .center}
{: .center}
์ถ์ฒ: https://heeya-stupidbutstudying.tistory.com/entry/ML-ํ์ฑํ-ํจ์Activation-Function
ํน์ง
- Sigmoid ๋ 0 ์์ 1 ์ฌ์ด์ ํจ์์ด๋ค. ๊ฐ์ด ๋ค์ด์ฌ ๊ฒฝ์ฐ 0~1 ์ฌ์ด์ ๊ฐ์ผ๋ก ๋ฐํํ๋ค.
- ์ถ๋ ฅ ๊ฐ์ ๋ฒ์๊ฐ 0~1 ์ฌ์ด๋ก ์ถ๋ ฅ๊ฐ์ ์ฐจ์ด๋ฅผ ๊ฐ๊ธฐ ๋๋ฌธ์ ๋๋ถ๋ถ Output ์์ ์ด์ง๋ถ๋ฅ (binary classification) ํ ๊ฒฝ์ฐ์ ์ฌ์ฉ๋๋ค.
- Sigmoid ์ ๋ฏธ๋ถํจ์์ ์ต๋๊ฐ์ 1/4=0.25 ์ด๋ค.
๋จ์
-
Vanishing Gradient : Sigmoid ๋ ๊ฐ์ด ์ปค์ง๊ฑฐ๋ ์์์ง ์๋ก ๊ฐ๋ค์ด 0 ๋๋ 1 ๋ก ์๋ ดํ๋ค. ๋๋ฌธ์ ์ด๋ฅผ ๋ฏธ๋ถํ ๊ฐ๋ 0 ์ ๊ฐ๊น์์ง๋ค. ๊ฒฐ๊ตญ, ์ ๊ฒฝ๋ง์ ๊น์ด๊ฐ ๊น์ด์ง ์๋ก gradient ๊ฐ 0 ์ ๊ฐ๊น์์ง๊ฒ ๋๋ค. (Backpropagation ์ ํ ๋ ์ด์ ๊ฐ์ ์ฐธ๊ณ ํ๊ธฐ ๋๋ฌธ์ ์ ์ ๋ 0 ์ผ๋ก ๊ฐ์ํ๋ค.)
โ gradient ๋ก ์ธํ ๊ฐ์ค์น ๋ณํ๊ฐ ์์ผ๋ฏ๋ก ํ์ต์ด ์ ๋์ง ์๋๋ค.
-
Not Zero-Centered : Zero-Centered ๋ ๊ทธ๋ํ์ ์ค์ฌ์ด 0 ์ธ ํํ๋ก ํจ์ซ๊ฐ์ด ์์ ํน์ ์์์ ์น์ฐ์น์ง ์๊ณ ์ค์ ์ ์ฒด์์ ๋ํ๋๋ ํํ๋ฅผ ์๋ฏธํ๋ค. Sigmoid ๋ ํญ์ ์์๊ฐ์ด๊ธฐ ๋๋ฌธ์ ์ด์ gradient ์ ๊ณฑํด์ง๋ gradient ๊ฐ์ ๋ชจ๋ ์์์ด๊ฑฐ๋ ๋ชจ๋ ์์๊ฐ ๋๋ค. ์ขํ์ถ์ผ๋ก ๋ดค์ ๋ 1, 3 ์ฌ๋ถ๋ฉด์ด ๋ถํธ๊ฐ ๋ชจ๋ ๊ฐ๊ธฐ ๋๋ฌธ์ 1, 3 ์ฌ๋ถ๋ฉด ๋ฐฉํฅ์ผ๋ก๋ง ์ด๋ํ๊ฒ ๋๋ค.
โ zigzag ๋ฌธ์ ๋ก ํ์ต์ด ์ ๋์ง ์๊ฒ ๋๋ค.
(์ดํด๋์ง ์์ผ๋ฉด https://nittaku.tistory.com/267 ์ฐธ๊ณ )
{: .center}
์ถ์ฒ: CS231n Lecture6
Tanh(Hyperbolic Tangent Function)
- Sigmoid ๋ฅผ ๋ณํํ ์๊ณก์ ํจ์์ด๋ค.
{: .center}
{: .center}
์ถ์ฒ : https://heeya-stupidbutstudying.tistory.com/entry/ML-ํ์ฑํ-ํจ์Activation-Function
์ผ์ชฝ์ tanh(x) ์ ๊ทธ๋ํ, ์ค๋ฅธ์ชฝ์ tanh ์ sigmoid ์ ๋ํจ์ ๊ทธ๋ํ์ด๋ค.
ํน์ง
- Sigmoid ์ Not Zero-Centered ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
- Sigmoid ๋ฏธ๋ถํจ์์ ์ต๋๊ฐ๋ณด๋ค tanh ์ ์ต๋๊ฐ์ด 4 ๋ฐฐ ๋ ํฌ๋ค.
- ์ฌ์ ํ Vanishing Gradient ๋ฌธ์ ๋ ๋จ์์๋ค.
Transclude of Softmax
Transclude of ReLU