toc {:toc}

Introduction

object recognition 연구가 진행되면서 더 큰 데이터셋, 더 강력한 모델, Overfitting 을 방지할 수 있는 기술이 연구되고 있다. LabelMe, ImageNet 과 같은 더 큰 데이터셋을 다루기 위해 큰 learning capacity 를 가지고 있는 모델을 필요로 했고 ILSVRC(ImageNet Large Scale Visual recognition Challenge)-2012 대회에 사용되는 ImageNet 데이터셋에 대해 가장 좋은 결과를 갖는 모델을 제작했다.

AlexNet

논문의 첫 번째 저자가 Alex Khrizevsky 이기 때문에 저자의 이름을 따서 AlexNet 이라 부른다.

The Architecture

1. ReLUs

뉴런의 Activation 함수의 기본적인 방법은 tanh(x) 이다. 하지만 AlexNet 은 tanh 대신 속도가 5~6 배 정도 더 빠른 ReLUs(Rectified Linear Units) 를 사용했다. ReLU 를 사용했을 때 학습, 예측의 속도가 증가하고 정확도는 유지할 수 있었다.

2. Local Response Normalization

LRN(Local Response Normalization) 에는 신경생리학에 사용되는 측면 억제 (lateral inhibition) 이라는 개념을 활용해 사용됐다.

‘측면 억제는 한 영역에 있는 신경 세포가 상호 간 연결되어 있을 때 한 그 자신의 축색이나 자신과 이웃 신경세포를 매개하는 중간신경세포 (interneuron) 를 통해 이웃에 있는 신경 세포를 억제하려는 경향이다.’
정의만으로는 이해하기 어렵다.

위 그림을 보면 4개의 검정색 정사각형 중간에 회색 정사각형이 보이는 것 같다. 하지만 실제로 이 그림은 균일한 검은색 정사각형들이 흰색 선으로 둘러싸여 있기만 하고 회색의 정사각형은 존재하지 않는다. 검정색의 강한 자극이 비교적 약한 흰색의 자극을 전달하는 것을 억제하려는 경향이 있다는 것이다.
LRN은 이와 같은 측면 억제의 원리를 구현한 것이다. 강하게 활성화된 뉴런 주변 이웃들에 대해서 normalization을 실행한다. 주변에 비해 어떤 뉴런이 강하게 활성화 되어 있다면, 주변을 normalization함으로써 더욱 활성화되어 보일 것이다. 하지만 강하게 활성화된 뉴런들이 주변에 많다면 normalization을 진행한 후 값이 작아진다.
논문에서는 LRN의 하이퍼파라미터 값으로 $k=2, n=5, \alpha=0.0001, \beta=0.75$으로 설정했다.

3. Overlapping Pooling

CNN 에서 pooling layer 는 convolution 을 통해 얻은 특성맵을 압축, 요약하는 역할을 한다.

전통적으로 사용되었던 pooling 은 겹쳐서 진행되지 않았다. 즉, size 와 stride 가 같다.

하지만, AlexNet 에서는 size 보다 stride 를 더 크게 적용해 overlapping polling 을 사용했다.

값을 사용했다.

LeNet-5 는 pooling layer 로 average pooling 을 사용했지만 AlexNet 에서는 maxpooling 을 사용했다.

논문에 따르면 non-overlapping 에 비해서 top-1, top-5 오차율이 각각 0.4%, 0.3% 감소했다고 한다.

Overall Architecture

Alexnet {: .center}

AlexNet 은 5 개의 convolution layer, 3 개의 fully-connected layer 총 8 개의 layer 로 구성되어 있다.

마지막 fully-connected layer 의 output 은 ImageNet 의 class 가 1000 개이므로 1000 개의 softmax 로 나타낸다.

AlexNet 은 2 개의 GPU 를 사용해 병렬처리하기 때문에 두 갈래로 연결이 된다.

두 번째, 네 번째, 다섯 번째 convolution layer 들은 같은 GPU 에 있는 이전 layer 만 연결되어 있고 세 번째 convolution layer 는 2 개의 GPU 에 있는 이전 layer 모두 연결되어 있다.

추가로, 사진에는 input size 가 224 로 나타나 있지만 실제 계산이 성립되려면 227x227 의 형태가 된다.

Layer	Sort	Kernel	Output	Kernel Size	Stride	Padding	Activation Function
Input	Input	3(RGB)	227x227	-	-	-	-
C1	Conv	96	55x55	11X11	4	-	ReLU + LRU
P1	MaxPooling	96	27x27	3x3	2	-	-
C2	Conv	256	13x13	5x5	2	2	ReLU + LRU
P2	MaxPooling	256	13x13	3x3	2	-	-
C3	Conv	384	13x13	3x3	1	1	ReLU
C4	Conv	384	13x13	3x3	1	1	ReLU
C5	Conv	256	13x13	3x3	1	1	ReLU
P3	MaxPooling	256	6x6	3x3	2	-	-
FC1	Fully Connected	-	4096	-	-	-	ReLU
FC2	Fully Connected	-	4096	-	-	-	ReLU
FC3	Fully Connected	-	4096	-	-	-	Softmax

참고

[1] AlexNet 논문 본문

🖥️ Techtellus

Explorer

AlexNet

Introduction

AlexNet

The Architecture

1. ReLUs

2. Local Response Normalization

3. Overlapping Pooling

Overall Architecture

Graph View

Table of Contents

Backlinks