toc {:toc}

Introduction

LeNet-5 가 만들어지기 전까지 손글씨에 대한 패턴 인식에 대한 연구가 계속해서 이루어지고 있었다. 전통적인 패턴인식 시스템의 경우 hand-designed feature extractor, fully-connected multi-layer classifier 2 가지 모듈로 이루어져 있다. 이 시스템은 여러 문제가 있다.
LeNet_traditional_model {: .center}

전통적인 시스템의 문제점

1. Input 과 관련된 정보만 추출한다.

hand-designed feature extractor 의 경우 input 에 적절한 정보만 선택한다. 부적절한 정보는 제거한다. 단순히 봤을 때는 왜 문제가 되는가 싶지만 input 에 적절한 정보만 선택하는 것은 결국 overfitting 을 만들고 일반화를 이루지 못한다. 때문에 각 경우에 맞는 더 많은 input 데이터를 필요로 하게 된다.

feature extractor 는 설계한 사람이 추출한 정보만 classifier 로 전달되기 때문에 제한된 정보가 전달된다. 결국 이상적인 학습은 feature extractor 자체에서 이루어지는 것이라 말한다.

2. Parameter 가 너무 많다.

하나의 이미지는 몇 백개의 pixel 을 가진다. fully-connected multi layer 에서 첫 번째 layer 만을 보더라도 몇 만 개의 가중치를 포함한다. parameter 가 너무 많은 경우 시스템의 capacity 를 증가시키기 때문에 더 큰 training set 을 요구한다. 추가적으로 많은 parameter 를 처리해야 하므로 메모리 할당량도 매우 증가한다.

손글씨는 여러 스타일이 있기 때문에 input 에 translation, distortion 이 생긴다. fully-connected layer 는 이런 input 에 관련된 결과값을 생성하도록 학습된다. 공통적으로 나타나는 특징이더라도 비슷한 가중치 패턴들 가진 다수의 유닛을 통해 결과값을 출력한다. (중복적으로 사용하게 된다) 때문에 모든 가중치 패턴을 학습하는 것은 많은 학습 instance 를 필요로 한다.

3. Input 의 topology 가 완전히 무시된다.

이미지를 fully-connected layer 를 통해 나열해 사용하기 때문에 2D input 의 위치 정보를 이용하지 못한다.

LeNet-5

Convolution Network

Convolution Network 는 3 개의 아이디어로 결합되어 있다.

(local receptive fields, shared weights, sub-sampling)

1. Local receptive fields

CNN 은 receptive field 를 local 로 제한하여 edge, end-point, corner 와 같은 local feature 를 추출한다. 추출된 feature 들은 다음 layer 의 입력이 되어 고차원의 특징을 추출한다.

이를 통해 input 이 distortion 이나 shift 가이발생하더라도 비슷한 특징을 갖는 배열이 receptive field 에 추출되면 해당 특징을 반영한 feature map 을 만들 수 있다.

해당 local 에 대한 계산을 진행하기 때문에 parameter 의 수도 줄일 수 있다.

2. Shared weight

CNN 은 동일한 weight 와 bias 를 공유하여 사용한다. 이를 이용하여 shift 에 대한 불변성을 얻는다.

→ CNN 은 input 의 처음부터 끝까지 이동하며 feature map 을 만든다. 이 때 가중치는 이동할 때 동일한 weight 와 bias 를 사용하기 때문에 위치가 바뀌더라도 동일한 특징을 추출한다.

이렇게 shared weight 를 통해서 계산 capacity 를 줄일 수 있고 학습할 parameter 의 수도 줄여준다.

다른 논문에서 증명된 이론에 따르면

의 오 차 율

E_{train}

\alpha

You can't use 'macro parameter character #' in math mode 가 성립하기 때문에 capacity가 줄어들면서 두 set의 오차율도 줄일 수 있다. ⇒ Overfitting을 방지 ### 3. Sub-sampling 논문에서 말하는 sub-sampling은 average pooling과 같다. 한 번 local feature가 추출되면 정확한 위치 정보는 점점 덜 중요해진다. 각 위치에 대한 정확한 위치는 패턴 인식과 무관하고 입력값에 따라 특징이 나타나는 위치가 다를 수 있기 때문에 잠재적으로 유해하다고 말한다. 위치에 대한 정확도를 감소시키는 간단한 방법은 feature map의 해상도를 감소시키는 것이다. local averaging과 sub-sampling을 수행하는 sub-sampling layer를 이용하여 해상도를 감소시켜 shift와 distortion에 대한 결과의 민감도를 줄인다. 위치 정보를 감소시키며 발생하는 손실은 더 많은 filter를 사용해 더 다양한 feature를 추출하여 상호보완할 수 있도록 한다. --- <br> ## LeNet-5의 구조 Input → Conv1 → Subsampling2 → Conv3 → Subsampling3 → Conv5 → FC → FC → Output ![LeNet](https://user-images.githubusercontent.com/64977390/208244452-23dff0a8-687b-44f7-8d9a-807aee74b7a4.png){: .center} <br> ### Input - size : 32x32x1 실제 문자 이미지는 28x28x1의 형태이고 20x20 크기의 숫자가 중앙에 있다. 크기를 키움으로써 receptive field 중앙 부분에 corner, edge같은 특징들이 나타나길 기대했다. ### Conv1 - size : 5x5 - kernel = 6 - stride = 1 - output : 28x28x6 - 156개의 trainable parameters, 122,304 connections ### Subsampling2 - size : 2x2 - kernel = 6 - stride = 2 - output : 14x14x6 - 12개의 trainable parameters, 5,880 connections ### Conv3 - size : 5x5 - kernel = 16 - stride = 1 - output : 10x10x16 - 1,416개의 trainable parameters, 151,600 connections ### Subsampling4 - size : 2x2 - kernel = 16 - stride = 2 - output : 5x5x16 - 32개의 trainable parameters, 2,000 connections ### Conv5 - size : 5x5 - kernel = 120 - stride = 1 - output : 1x1x120 - 10,164개의 trainable parameters ### FC6 - tanh를 활성화 함수로 사용한다. - input = 120 - output = 84 ⇒ 각각의 문자가 7x12크기의 비트맵인 ASCII set을 해석하기 적합한 형태로 산출될 것을 기대하고 output을 84로 선택했다. ### FC7 - RBF(Euclidean Radia Basis Function unit)을 활성화 함수로 사용한다. - input = 84 - output = num_classes = 10 ### Loss function - MSE(Mean Squared Error, 평균 제곱 오차)를 사용했다. <br> <br> --- ### 참고 [1] [http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf](http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf) [2] [https://deep-learning-study.tistory.com/368](https://deep-learning-study.tistory.com/368)

🖥️ Techtellus

Explorer

LeNet5