- toc {:toc}
Introduction
object recognition μ°κ΅¬κ° μ§νλλ©΄μ λ ν° λ°μ΄ν°μ , λ κ°λ ₯ν λͺ¨λΈ, Overfitting μ λ°©μ§ν μ μλ κΈ°μ μ΄ μ°κ΅¬λκ³ μλ€. LabelMe, ImageNet κ³Ό κ°μ λ ν° λ°μ΄ν°μ μ λ€λ£¨κΈ° μν΄ ν° learning capacity λ₯Ό κ°μ§κ³ μλ λͺ¨λΈμ νμλ‘ νκ³ ILSVRC(ImageNet Large Scale Visual recognition Challenge)-2012 λνμ μ¬μ©λλ ImageNet λ°μ΄ν°μ μ λν΄ κ°μ₯ μ’μ κ²°κ³Όλ₯Ό κ°λ λͺ¨λΈμ μ μνλ€.
AlexNet
λ Όλ¬Έμ 첫 λ²μ§Έ μ μκ° Alex Khrizevsky μ΄κΈ° λλ¬Έμ μ μμ μ΄λ¦μ λ°μ AlexNet μ΄λΌ λΆλ₯Έλ€.
The Architecture
1. ReLUs
λ΄λ°μ Activation ν¨μμ κΈ°λ³Έμ μΈ λ°©λ²μ tanh(x) μ΄λ€. νμ§λ§ AlexNet μ tanh λμ μλκ° 5~6 λ°° μ λ λ λΉ λ₯Έ ReLUs(Rectified Linear Units) λ₯Ό μ¬μ©νλ€. ReLU λ₯Ό μ¬μ©νμ λ νμ΅, μμΈ‘μ μλκ° μ¦κ°νκ³ μ νλλ μ μ§ν μ μμλ€.
2. Local Response Normalization
LRN(Local Response Normalization) μλ μ κ²½μ리νμ μ¬μ©λλ μΈ‘λ©΄ μ΅μ (lateral inhibition) μ΄λΌλ κ°λ μ νμ©ν΄ μ¬μ©λλ€.
βμΈ‘λ©΄ μ΅μ λ ν μμμ μλ μ κ²½ μΈν¬κ° μνΈ κ° μ°κ²°λμ΄ μμ λ ν κ·Έ μμ μ μΆμμ΄λ μμ κ³Ό μ΄μ μ κ²½μΈν¬λ₯Ό λ§€κ°νλ μ€κ°μ κ²½μΈν¬ (interneuron) λ₯Ό ν΅ν΄ μ΄μμ μλ μ κ²½ μΈν¬λ₯Ό μ΅μ νλ €λ κ²½ν₯μ΄λ€.β
μ μλ§μΌλ‘λ μ΄ν΄νκΈ° μ΄λ ΅λ€.

LRNμ μ΄μ κ°μ μΈ‘λ©΄ μ΅μ μ μ리λ₯Ό ꡬνν κ²μ΄λ€. κ°νκ² νμ±νλ λ΄λ° μ£Όλ³ μ΄μλ€μ λν΄μ normalizationμ μ€ννλ€. μ£Όλ³μ λΉν΄ μ΄λ€ λ΄λ°μ΄ κ°νκ² νμ±ν λμ΄ μλ€λ©΄, μ£Όλ³μ normalizationν¨μΌλ‘μ¨ λμ± νμ±νλμ΄ λ³΄μΌ κ²μ΄λ€. νμ§λ§ κ°νκ² νμ±νλ λ΄λ°λ€μ΄ μ£Όλ³μ λ§λ€λ©΄ normalizationμ μ§νν ν κ°μ΄ μμμ§λ€.
λ Όλ¬Έμμλ LRNμ νμ΄νΌνλΌλ―Έν° κ°μΌλ‘ $k=2, n=5, \alpha=0.0001, \beta=0.75$μΌλ‘ μ€μ νλ€.
3. Overlapping Pooling
CNN μμ pooling layer λ convolution μ ν΅ν΄ μ»μ νΉμ±λ§΅μ μμΆ, μμ½νλ μν μ νλ€.
μ ν΅μ μΌλ‘ μ¬μ©λμλ pooling μ κ²Ήμ³μ μ§νλμ§ μμλ€. μ¦, size μ stride κ° κ°λ€.
νμ§λ§, AlexNet μμλ size λ³΄λ€ stride λ₯Ό λ ν¬κ² μ μ©ν΄ overlapping polling μ μ¬μ©νλ€.
LeNet-5 λ pooling layer λ‘ average pooling μ μ¬μ©νμ§λ§ AlexNet μμλ maxpooling μ μ¬μ©νλ€.
λ
Όλ¬Έμ λ°λ₯΄λ©΄ non-overlapping
Overall Architecture
{: .center}
AlexNet μ 5 κ°μ convolution layer, 3 κ°μ fully-connected layer μ΄ 8 κ°μ layer λ‘ κ΅¬μ±λμ΄ μλ€.
λ§μ§λ§ fully-connected layer μ output μ ImageNet μ class κ° 1000 κ°μ΄λ―λ‘ 1000 κ°μ softmax λ‘ λνλΈλ€.
AlexNet μ 2 κ°μ GPU λ₯Ό μ¬μ©ν΄ λ³λ ¬μ²λ¦¬νκΈ° λλ¬Έμ λ κ°λλ‘ μ°κ²°μ΄ λλ€.
λ λ²μ§Έ, λ€ λ²μ§Έ, λ€μ― λ²μ§Έ convolution layer λ€μ κ°μ GPU μ μλ μ΄μ layer λ§ μ°κ²°λμ΄ μκ³ μΈ λ²μ§Έ convolution layer λ 2 κ°μ GPU μ μλ μ΄μ layer λͺ¨λ μ°κ²°λμ΄ μλ€.
μΆκ°λ‘, μ¬μ§μλ input size κ° 224 λ‘ λνλ μμ§λ§ μ€μ κ³μ°μ΄ μ±λ¦½λλ €λ©΄ 227x227 μ ννκ° λλ€.
| Layer | Sort | Kernel | Output | Kernel Size | Stride | Padding | Activation Function |
|---|---|---|---|---|---|---|---|
| Input | Input | 3(RGB) | 227x227 | - | - | - | - |
| C1 | Conv | 96 | 55x55 | 11X11 | 4 | - | ReLU + LRU |
| P1 | MaxPooling | 96 | 27x27 | 3x3 | 2 | - | - |
| C2 | Conv | 256 | 13x13 | 5x5 | 2 | 2 | ReLU + LRU |
| P2 | MaxPooling | 256 | 13x13 | 3x3 | 2 | - | - |
| C3 | Conv | 384 | 13x13 | 3x3 | 1 | 1 | ReLU |
| C4 | Conv | 384 | 13x13 | 3x3 | 1 | 1 | ReLU |
| C5 | Conv | 256 | 13x13 | 3x3 | 1 | 1 | ReLU |
| P3 | MaxPooling | 256 | 6x6 | 3x3 | 2 | - | - |
| FC1 | Fully Connected | - | 4096 | - | - | - | ReLU |
| FC2 | Fully Connected | - | 4096 | - | - | - | ReLU |
| FC3 | Fully Connected | - | 4096 | - | - | - | Softmax |
μ°Έκ³