- toc {:toc}
Introduction
object recognition ์ฐ๊ตฌ๊ฐ ์งํ๋๋ฉด์ ๋ ํฐ ๋ฐ์ดํฐ์ , ๋ ๊ฐ๋ ฅํ ๋ชจ๋ธ, Overfitting์ ๋ฐฉ์งํ ์ ์๋ ๊ธฐ์ ์ด ์ฐ๊ตฌ๋๊ณ ์๋ค. LabelMe, ImageNet๊ณผ ๊ฐ์ ๋ ํฐ ๋ฐ์ดํฐ์ ์ ๋ค๋ฃจ๊ธฐ ์ํด ํฐ learning capacity๋ฅผ ๊ฐ์ง๊ณ ์๋ ๋ชจ๋ธ์ ํ์๋ก ํ๊ณ ILSVRC(ImageNet Large Scale Visual recognition Challenge)-2012 ๋ํ์ ์ฌ์ฉ๋๋ ImageNet ๋ฐ์ดํฐ์ ์ ๋ํด ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ๋ ๋ชจ๋ธ์ ์ ์ํ๋ค.
# AlexNet
๋ ผ๋ฌธ์ ์ฒซ ๋ฒ์งธ ์ ์๊ฐ Alex Khrizevsky์ด๊ธฐ ๋๋ฌธ์ ์ ์์ ์ด๋ฆ์ ๋ฐ์ AlexNet์ด๋ผ ๋ถ๋ฅธ๋ค.
The Architecture
1. ReLUs
๋ด๋ฐ์ Activation ํจ์์ ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ๋ฒ์ tanh(x)์ด๋ค. ํ์ง๋ง AlexNet์ tanh ๋์ ์๋๊ฐ 5~6๋ฐฐ ์ ๋ ๋ ๋น ๋ฅธ ReLUs(Rectified Linear Units)๋ฅผ ์ฌ์ฉํ๋ค. ReLU๋ฅผ ์ฌ์ฉํ์ ๋ ํ์ต, ์์ธก์ ์๋๊ฐ ์ฆ๊ฐํ๊ณ ์ ํ๋๋ ์ ์งํ ์ ์์๋ค.
2. Local Response Normalization
LRN(Local Response Normalization)์๋ ์ ๊ฒฝ์๋ฆฌํ์ ์ฌ์ฉ๋๋ ์ธก๋ฉด ์ต์ (lateral inhibition)์ด๋ผ๋ ๊ฐ๋ ์ ํ์ฉํด ์ฌ์ฉ๋๋ค.
โ์ธก๋ฉด ์ต์ ๋ ํ ์์ญ์ ์๋ ์ ๊ฒฝ ์ธํฌ๊ฐ ์ํธ ๊ฐ ์ฐ๊ฒฐ๋์ด ์์ ๋ ํ ๊ทธ ์์ ์ ์ถ์์ด๋ ์์ ๊ณผ ์ด์ ์ ๊ฒฝ์ธํฌ๋ฅผ ๋งค๊ฐํ๋ ์ค๊ฐ์ ๊ฒฝ์ธํฌ(interneuron)๋ฅผ ํตํด ์ด์์ ์๋ ์ ๊ฒฝ ์ธํฌ๋ฅผ ์ต์ ํ๋ ค๋ ๊ฒฝํฅ์ด๋ค.โ
์ ์๋ง์ผ๋ก๋ ์ดํดํ๊ธฐ ์ด๋ ต๋ค.

LRN์ ์ด์ ๊ฐ์ ์ธก๋ฉด ์ต์ ์ ์๋ฆฌ๋ฅผ ๊ตฌํํ ๊ฒ์ด๋ค. ๊ฐํ๊ฒ ํ์ฑํ๋ ๋ด๋ฐ ์ฃผ๋ณ ์ด์๋ค์ ๋ํด์ normalization์ ์คํํ๋ค. ์ฃผ๋ณ์ ๋นํด ์ด๋ค ๋ด๋ฐ์ด ๊ฐํ๊ฒ ํ์ฑํ ๋์ด ์๋ค๋ฉด, ์ฃผ๋ณ์ normalizationํจ์ผ๋ก์จ ๋์ฑ ํ์ฑํ๋์ด ๋ณด์ผ ๊ฒ์ด๋ค. ํ์ง๋ง ๊ฐํ๊ฒ ํ์ฑํ๋ ๋ด๋ฐ๋ค์ด ์ฃผ๋ณ์ ๋ง๋ค๋ฉด normalization์ ์งํํ ํ ๊ฐ์ด ์์์ง๋ค.
๋ ผ๋ฌธ์์๋ LRN์ ํ์ดํผํ๋ผ๋ฏธํฐ ๊ฐ์ผ๋ก $k=2, n=5, \alpha=0.0001, \beta=0.75$์ผ๋ก ์ค์ ํ๋ค.
3. Overlapping Pooling
CNN์์ pooling layer๋ convolution์ ํตํด ์ป์ ํน์ฑ๋งต์ ์์ถ, ์์ฝํ๋ ์ญํ ์ ํ๋ค.
์ ํต์ ์ผ๋ก ์ฌ์ฉ๋์๋ pooling์ ๊ฒน์ณ์ ์งํ๋์ง ์์๋ค. ์ฆ, size์ stride๊ฐ ๊ฐ๋ค.
ํ์ง๋ง, AlexNet์์๋ size๋ณด๋ค stride๋ฅผ ๋ ํฌ๊ฒ ์ ์ฉํด overlapping polling์ ์ฌ์ฉํ๋ค.
LeNet-5๋ pooling layer๋ก average pooling์ ์ฌ์ฉํ์ง๋ง AlexNet์์๋ maxpooling์ ์ฌ์ฉํ๋ค.
๋
ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด non-overlapping
Overall Architecture
{: .center}
AlexNet์ 5๊ฐ์ convolution layer, 3๊ฐ์ fully-connected layer ์ด 8๊ฐ์ layer๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ๋ง์ง๋ง fully-connected layer์ output์ ImageNet์ class๊ฐ 1000๊ฐ์ด๋ฏ๋ก 1000๊ฐ์ softmax๋ก ๋ํ๋ธ๋ค.
AlexNet์ 2๊ฐ์ GPU๋ฅผ ์ฌ์ฉํด ๋ณ๋ ฌ์ฒ๋ฆฌํ๊ธฐ ๋๋ฌธ์ ๋ ๊ฐ๋๋ก ์ฐ๊ฒฐ์ด ๋๋ค. ๋ ๋ฒ์งธ, ๋ค ๋ฒ์งธ, ๋ค์ฏ ๋ฒ์งธ convolution layer๋ค์ ๊ฐ์ GPU์ ์๋ ์ด์ layer๋ง ์ฐ๊ฒฐ๋์ด ์๊ณ ์ธ ๋ฒ์งธ convolution layer๋ 2๊ฐ์ GPU์ ์๋ ์ด์ layer ๋ชจ๋ ์ฐ๊ฒฐ๋์ด ์๋ค. ์ถ๊ฐ๋ก, ์ฌ์ง์๋ input size๊ฐ 224๋ก ๋ํ๋ ์์ง๋ง ์ค์ ๊ณ์ฐ์ด ์ฑ๋ฆฝ๋๋ ค๋ฉด 227x227์ ํํ๊ฐ ๋๋ค.
| Layer | Sort | Kernel | Output | Kernel Size | Stride | Padding | Activation Function |
|---|---|---|---|---|---|---|---|
| Input | Input | 3(RGB) | 227x227 | - | - | - | - |
| C1 | Conv | 96 | 55x55 | 11X11 | 4 | - | ReLU + LRU |
| P1 | MaxPooling | 96 | 27x27 | 3x3 | 2 | - | - |
| C2 | Conv | 256 | 13x13 | 5x5 | 2 | 2 | ReLU + LRU |
| P2 | MaxPooling | 256 | 13x13 | 3x3 | 2 | - | - |
| C3 | Conv | 384 | 13x13 | 3x3 | 1 | 1 | ReLU |
| C4 | Conv | 384 | 13x13 | 3x3 | 1 | 1 | ReLU |
| C5 | Conv | 256 | 13x13 | 3x3 | 1 | 1 | ReLU |
| P3 | MaxPooling | 256 | 6x6 | 3x3 | 2 | - | - |
| FC1 | Fully Connected | - | 4096 | - | - | - | ReLU |
| FC2 | Fully Connected | - | 4096 | - | - | - | ReLU |
| FC3 | Fully Connected | - | 4096 | - | - | - | Softmax |
์ฐธ๊ณ