나선형 신경 네트워크 모델 혁신에 대한 이미지 분류
Last Updated on July5,2019
부드러운 소개 혁신에 LeNet,AlexNet,VGG,처음부터,그리고 ResNet 나선형 신경망이 있습니다.
컨볼 루션 신경망은 두 개의 매우 간단한 요소,즉 컨볼 루션 레이어와 풀링 레이어로 구성됩니다.
간단하지만 주어진 컴퓨터 비전 문제에 대해 이러한 계층을 배열하는 거의 무한한 방법이 있습니다.,
다행히도,모두가 있는 일반적인 패턴을 구성하기 위한 이러한 레이어와 건축 혁신하는 데 사용할 수 있는을 개발하기 위해서는 매우 깊은 나선형 신경망이 있습니다. 공부하고 이러한 건축 디자인이 결정을 위해 개발 state-of-the-art 이미지 분류 작업을 제공할 수 있습을 모두 이론적 설명하고 직관을 사용하는 방법에 대한 이들 디자인을 디자인할 때에 자신의 깊은 나선형 신경 네트워크 모델입니다.
이 튜토리얼에서,당신은 발견 할 것이다 키 건축 이정표의 사용에 대한 나선형 신경 네트워크를 위한 도전적인 이미지 분류 문제입니다.,
후 이를 완료하는 튜토리얼에서,당신은 알게 될 것이다:
- 는 방법을 패턴의 수는 필터 및 여과기기를 구현할 때는 나선형 신경망이 있습니다.
- 잘 수행되는 모델을 개발하기 위해 균일 한 패턴으로 컨볼 루션 및 풀링 레이어를 배열하는 방법.
- inception 모듈과 잔류 모듈을 사용하여 훨씬 더 깊은 convolutional 네트워크를 개발하는 방법.
킥-프로젝트를 시작으로 책은 깊은 학습을 위한 컴퓨터 비전을 포함하여,단계별 튜토리얼 Python 소스 코드 파일에 대한 모든 예입니다.
시작합시다.,
- 업데이트 Apr/2019:LeNet 의 필터 크기에 대한 설명이 수정되었습니다(감사합니다 Huang).
튜토리얼을 개요
이 튜토리얼은 여섯 부분으로 나누어 져 있다;그들은:
- 건축 설계에 대한 CNNs
- LeNet-5
- AlexNet
- VGG
- 설립 및 GoogLeNet
- 잔류 네트워크 또는 ResNet
건축 설계에 대한 CNNs
의 요소를 나선형 신경망과 같은 나선형과 풀링 계층, 은 상대적으로 간단하게 이해합니다.,
도전의 일부를 사용하여 나선형 신경 네트워크에서의 연습이 어떻게 디자인 모형 아키텍처는 최고의 이러한 간단한 요소입니다.
유용한 접근하는 방법을 학습을 디자인하는 효과적인 나선형 신경 네트워크 아키텍처는 연구는 성공적인 응용 프로그램. 이것은 ImageNet 대규모 시각적 인식 과제 또는 ILSVRC 에 대한 2012 년부터 2016 년까지 CNNs 의 강렬한 연구 및 적용으로 인해 특히 간단합니다., 이전 결과 모두의 급속한 발전의 상태에서 예술에 대한 매우 어려운 컴퓨터 비전 작업의 개발과 일반의 혁신에서의 아키텍처는 나선형 신경 네트워크 모델입니다.
우리와 함께 시작됩니다 LeNet-5 은 종종 첫 번째 성과는 중요한 응용 프로그램의 CNNs 전 ILSVRC,다음 네 가지 승리는 혁신적인 아키텍처를 위한 나선형의 신경 네트워크 개발에 대한 ILSVRC,즉,AlexNet,VGG,처음부터,그리고 ResNet.,
이해한다면 이정표는 모델들과 그들의 건축물 또는 건축 혁신은 높은 수준에서,당신은 개발할 것입니다 모두에 대한 감사의 이용 이러한 건축의 요소에 현대적인 응용 프로그램의 현지에서 컴퓨터 비전,그리고할 수 있을 식별하고 선택한 건축의 요소에 도움이 될 수 있는 디자인에 자신의 모델입니다.
컴퓨터 비전을위한 딥 러닝으로 결과를 원하십니까?
(샘플 코드)지금 내 무료 7 일 이메일 충돌 과정을 가져 가라.,
클릭 가입 또한 과정의 무료 PDF 전자 책 버전을 얻을.
다운로드 무료 소형 과정
LeNet-5
아마도 처음으로 널리 알려져 있고 성공적인 응용 프로그램의 나선형 신경망이었 LeNet-5,에 의해 설명 얀 마칠,et al. “문서 인식에 적용된 그라디언트 기반 학습”이라는 제목의 1998 년 논문에서(PDF 를 얻으십시오).
이 시스템은 필기 문자 인식 문제에 사용하기 위해 개발되었으며 MNIST 표준 데이터 세트에서 시연되어 약 99 를 달성했습니다.,2%분류 정확도(또는 0.8%오류율). 그런 다음 네트워크는 그래프 변압기 네트워크라고 불리는 더 넓은 시스템에서 중심 기술로 설명되었습니다.
그것은 긴 종이이며,아마도 집중해야 할 가장 좋은 부분은 LENET-5 아키텍처를 설명하는 섹션 II.B 입니다. 섹션에서,종이에 대해 설명합 네트워크를 가진 것으로 일곱 층 입력 흑백 이미지는 모양 32×32,이미지의 크기에 MNIST 합니다.
이 모델은 서브샘플링 레이어로 지칭되는 평균 풀링 레이어가 뒤 따르는 컨볼 루션 레이어의 패턴을 제안한다., 이 패턴은 반복된 두 개의 절반의 시간을 전에 출력 기능을 지도하는 평평하게 먹을 수의 완전히 연결을 위한 레이어 해석 및 최종 예측. 네트워크 아키텍처의 그림이 종이에 제공되어 아래에 재현됩니다.
아키텍처 LeNet-5 나선형 신경 네트워크에 대한 필기체 문자 인식(촬영에서 1998 년 paper).,
패턴의 블록의 나선형 레이어와 풀링 레이어를 함께 그룹화하고 반복되는 남아에서 일반적인 패턴을 디자인하고 사용하여 나선형 신경망이 오늘보다 더됩니다.
흥미롭게도,건축용의 작은 수로의 숨겨진 첫째 층은,특히 여섯 필터를 각각의 크기가 5×5 픽셀이 있습니다., 후에는 풀링(라 서브층),다른 나선형 계층 더 많은 필터,다시 작은 크기보다 작은 이전에 나선형 계층,특히 16 으로 필터의 크기가 5×5 픽셀,다시 뒤에는 풀링을 수행합니다. 컨볼 루션 및 풀링 레이어의이 두 블록의 반복에서 추세는 필터 수의 증가입니다.
에 비해 현대적인 응용 프로그램,필터 수은 또한 작은,하지만 트렌드의 증가 번호를 사용하여 보다 효과적으로 필터 깊이의 네트워크 또한 남아있는 일반적인 패턴에서 현대의 사용 기술입니다.,
평평하게 하는 기능의 지도와 해석 및 분류의 추출 기능에 의해 완벽하게 연결된 계층을 유지한 일반적인 패턴 오늘입니다. 에 현대적인 용어를,마지막 부분의 아키텍처로 분류는 반면,나선형과 풀링을 층을 이전 모델이라고 하는 기능 추출기.
우리는 우리를 요약할 수 있습의 주요 측면 건축 관련 현대적인 모델에서 다음과 같다:
- 고정 크기의 입력이 이미지입니다.
- 컨볼 루션 및 풀링 레이어를 블록으로 그룹화합니다.,
- 아키텍처에서 컨볼 루션 풀링 블록의 반복.
- 네트워크의 깊이와 필터의 수의 증가.
- 아키텍처의 고유 기능 추출 및 분류기 부분.
AlexNet
는 일도 적립과 새로운 관심을 촉발에 신경회로망의 시작 부분의 지배력의 깊은 학습에 많은 컴퓨터 비전 응용 프로그램이었 2012 종이 알렉스에 의해 Krizhevsky,et al. 제목”깊은 Convolutional 신경 네트워크와 ImageNet 분류.,”
의 종이에 대해 설명합 모델을 나중에”로 불 AlexNet”결하도록 설계되었 ImageNet 큰 규모의 시각적 인식 문제 또는 ILSVRC-2010 에 대한 경쟁을 분류하는 사진 물체의 하나로 1,000 개의 서로 다른 범주가 있습니다.
ILSVRC 는 2011 년부터 2016 년까지 개최 된 대회로 컴퓨터 비전 분야의 혁신에 박차를 가하기 위해 고안되었습니다. AlexNet 이 개발되기 전에이 작업은 매우 어렵고 현대적인 컴퓨터 비전 방법의 기능을 훨씬 뛰어 넘는 것으로 생각되었습니다., AlexNet 성공적으로 시연합의 기능을 나선형 신경 네트워크 모델을 도메인에서와 심히 화재는 결과에서 많은 개선 및 혁신의 많은에서 시연 동 ILSVRC 에서 작업하였다. 더 폭넓게 종이 보이는 그것을 개발하는 것이 가능하다 깊고 효과적인 엔드-투-엔드 모델을 위한 도전적인 문제를 사용하지 않고 자율 pretraining 는 기술에 인기가 있었다.
AlexNet 의 디자인에서 중요한 것은 새롭거나 성공적 이었지만 당시에는 널리 채택되지 않은 방법 모음이었습니다., 이제 이미지 분류를 위해 CNNs 를 사용할 때 요구 사항이되었습니다.
AlexNet 을 사용하고 선형 정류 기능을 활성화 또는 ReLU,으로 되 후 각 나선형 계층 대신한 S-모양의 기능과 같은 로지스틱 또는 적용되지 않습니는 일반적인까지는 점이다. 또한 softmax 활성화 기능이 출력 계층에 사용되었으며 이제는 신경망이있는 다중 클래스 분류를위한 필수품입니다.,
평균 풀링에 사용되는 LeNet-5 대체되었으로 최대 풀링 방법이 있지만,이 경우에 겹치는 풀링을 발견되었을 능가 겹치지 않는 풀링은 일반적으로 사용되는 오늘(예:보폭의 풀링 작업 동일한 크기로 풀링 작업,예를 들어,2by2 픽셀 단위). 을 주는 과잉 맞춤,새롭게 제안 드롭아웃 방법이 사용이 완전히 연결되어 레이어의 분류기 모델의 일부 개선하는 일반화에 오류가 있습니다.
AlexNet 의 아키텍처는 깊으며 LeNet-5 로 확립 된 패턴 중 일부에 따라 확장됩니다., 아래 이미지를 촬영에서 종이 요약되어 모델,이 경우에는,두 개로 분할 파이프라인 기차에 GPU 하드웨어의 시간입니다.
아키텍처 AlexNet 나선형 신경 네트워크에 대한 개체 사진분류(에서 찍은 2012 년 paper).
모델은 나선형 계층에 특징 추출의 일부는 모델과 세 개의 완전히 연결되어 있는 층에서류의 일부는 모델입니다.
입력 이미지는 3 개의 컬러 채널로 224×224 크기로 고정되었습니다., 의 관점에서의 수에 사용되는 필터에 각각 나선형 계층 패턴의 수를 증가하는 필터의 깊이에서 볼 LeNet 대부분 준수,이 경우,크기:96,256,384,384 및 256 입니다. 마찬가지로,의 패턴의 크기를 줄이기 필터(kernel)과 깊이 사용되었에서 시작하여,작은 크기의 11×11 감소 5×5,그리고 3×3 에서 깊은 층이 있습니다. 5×5 및 3×3 과 같은 작은 필터의 사용이 이제 표준입니다.,
의 패턴은 나선형 계층 다음으로써 레이어에서 사용되는 시작과 끝의 기능 검색 모델. 흥미롭게도,두 번째 컨볼 루션 레이어가 바로 뒤 따르는 컨볼 루션 레이어의 패턴이 사용되었다. 이 패턴도 현대적인 표준이되었습니다.
모델 훈련을 받았으로 데이터 확대,인공적으로 증가하는 크기의 훈련 데이터 집합과를 주는 모델의 더 배울 수 있는 기회를 동일한 기능에 서로 다른 방향입니다.,
우리는 우리를 요약할 수 있습의 주요 측면 건축 관련 현대적인 모델에서 다음과 같다:
- 사용 ReLU 활성화 기능을 한 후에 나선형 레이어와 softmax 출력을 위한 레이어입니다.
- 평균 풀링 대신 최대 풀링을 사용합니다.
- 완전히 연결된 층들 사이의 드롭 아웃 정규화의 사용.다른 컨볼 루션 층에 직접 공급되는 컨볼 루션 층의
- 패턴.
- 데이터 증강의 사용.,
VGG
개발의 깊은 나선형 신경 네트워크를 위한 컴퓨터 비전 등장 작업하는 것은 조금 어두운 예술 후 AlexNet.
중요한 작업을 하고자 하는 표준화 건축 설계에 대한 깊은 나선형 네트워크와 개발을 훨씬 더 깊이와 더 나은 수행하는 모델에서 프로세스가 2014 년 종이”라는 제목의 매우 깊은 나선형 네트워크에 대한 대규모 이미지 인식을”카렌 Simonyan 및 Andrew Zisserman.
그들의 아키텍처는 일반적으로 실험실의 이름 인 Oxford 의 시각적 기하학 그룹 다음에 VGG 라고 불립니다., 그들의 모델은 sameILSVRC 경쟁에서 개발되고 시연되었습니다.이 경우 ilsvrc-2014 버전의 도전.사실상의 표준이 된 첫 번째 중요한 차이점은 많은 수의 작은 필터를 사용하는 것입니다. 특히,필터 크기와 3×3 1×1 으로 보폭의 하나는,다른 큰 크기의 필터에서 LeNet-5 와 작지만 아직도 상대적으로 큰 필터와 큰폭의 네 AlexNet.,
최대 풀링 레이어가 사용 후에는 아니지만,대부분의 모든 나선형 레이어 학습의 예제에서 AlexNet,아직 풀링을 수행과 크기 2×2 와 동일한 보도가 되는 사실상의 표준입니다. 특히,VGG 네트워크를 사용의 예를 두,세 가지며,심지어 네곱 층이 쌓여 함께하기 전에 최대 풀링 레이어가 사용됩니다. 근거는 쌓아 나선형 레이어와 함께 작 필터를 대략적인 효과의 나선형 계층과 함께 더 큰 크기의 필터,예를 들어,, 3×3 필터를 갖는 3 개의 적층 컨볼 루션 층은 7×7 필터를 갖는 1 개의 컨볼 루션 층을 근사한다.
또 다른 중요한 차이점은 사용 된 필터 수가 매우 많다는 것입니다. 숫자의 필터의 깊이와 함께 증가 모델,지만 시작에서 비교적 큰 숫자 64 증가를 통해 128,256,512 필터를 끝에서의 특징 추출 부분의 모델입니다.
두 가지가 가장 일반적으로 성능과 깊이를 감안할 때 언급되지만 아키텍처의 여러 변형이 개발되고 평가되었습니다., 그들은 레이어의 수에 따라 명명됩니다:그들은 각각 16 및 19 학습 된 레이어에 대한 VGG-16 및 VGG-19 입니다.
아래에 테이블에서 촬영상을 참고 두 개의 오른쪽에 열을 나타내는 구성(숫자의 필터)에서 사용 VGG-16VGG-19 버전을 포함됩니다.
아키텍처 VGG 나선형 신경 네트워크에 대한 개체 사진분류(촬영에서 2014 년 paper).,
VGG 모델의 설계 결정은 일반적으로 convolutional neural network 의 간단하고 직접적인 사용을위한 출발점이되었습니다.
마지막으로,VGG 작업이 가장 먼저 출시하는 소중한 모델을 무겁게 허용 라이센스는 led 들 사이에서 트렌드에 깊은 학습 컴퓨터 시각 연구원입니다. 이것은,차례차례로,지도했는 사용자의 사전 훈련된 모델은 다음과 같 VGG 에서 전송 학습을 시작점으로 새로운 컴퓨터 비전 작업입니다.,
우리는 우리를 요약할 수 있습의 주요 측면 건축 관련 현대적인 모델에서 다음과 같다:
- 사용의 아주 작은 나선형 필터,예를 들어,3×3 1×1 으로 보폭의 하나입니다.
- 2×2 의 크기와 동일한 치수의 보폭으로 최대 풀링을 사용합니다.
- 풀링 레이어를 사용하여 블록을 정의하기 전에 컨볼 루션 레이어를 함께 스태킹하는 것의 중요성.
- convolutional-풀링 블록 패턴의 극적인 반복.
- 매우 깊은(16 및 19 층)모델의 개발.,
inception 및 GoogLeNet
convolutional layer 의 사용에있어 중요한 혁신은 christian Szegedy 등의 2015 논문에서 제안되었습니다. 라는 제목의”회선으로 더 깊이 간다.”
에서는 종이,저자는 제안하는 아키텍처로 언급 개시(또는 개 v1 에서 차별화 하는 확장자)및 특정 모델이라고 GoogLeNet 이 달성된 후에는 해당 상위 결과에서 2014 년 버전의 ILSVRC 도전입니다.
inception 모델의 핵심 혁신을 inception 모듈이라고합니다., 이것은 블록의 평행선 층 서로 다른 크기의 필터(예:1×1, 3×3, 5×5) 3×3max 풀링 계층,결과는 다음 연결됩니다. 아래는 논문에서 가져온 인 셉션 모듈의 예입니다.
순진한 Inception 모듈의 예(2015 논문에서 가져온).
문제 단순한 구현에서의 처음부터 모델은 수의 필터(깊이나 채널)을 구축하기 시작이 빠른,특히 때 처음 모듈은 쌓여있다.,
더 큰 필터 크기(예:3 및 5)를 갖는 컨볼 루션을 수행하는 것은 많은 수의 필터에서 계산적으로 비쌀 수 있습니다. 이를 해결하기 위해 inception 모델의 필터 수를 줄이기 위해 1×1 컨볼 루션 레이어가 사용됩니다. 특히 3×3 및 5×5 컨볼 루션 레이어 전과 풀링 레이어 후. 용지에서 가져온 아래 이미지는 inception 모듈에이 변경 사항을 보여줍니다.
치수 감소가있는 Inception 모듈의 예(2015 년 논문에서 가져온 것).,
inception 모델의 두 번째 중요한 설계 결정은 모델의 다른 지점에서 출력을 연결하는 것이 었습니다. 이것은 예측을하도록 훈련 된 주 네트워크에서 작은 오프-슛 출력 네트워크를 생성함으로써 달성되었습니다. 의도되었을 제공하는 추가적인 오류 신호에서 분류 작업의 다른 지점에서 깊은 모델을 해결하기 위해 사라지는 그라디언트 문제입니다. 그런 다음 이러한 작은 출력 네트워크는 교육 후에 제거되었습니다.,
아래에 보여줍 회전 버전의(왼쪽에서 오른쪽 위한 입력 출력)의 아키텍처의 GoogLeNet 모델에서 찍은 종이를 사용하여 처음부터 모듈에서의 입력이 왼쪽에서 출력을 분류 오른쪽에는 추가로 두 개의 출력을 네트워크에만 사용하는 동안 훈련입니다.
아키텍처 GoogLeNet 모델을 사용하는 동안 훈련한 물체 사진분류(에서 촬영 2015paper).,
흥미롭게도 겹치는 최대 풀링을 사용하였고 큰 평균 풀링 작업이 끝에 사용되는 기능의 추출의 일부 모델에 앞서류의 일부는 모델입니다.
우리는 우리를 요약할 수 있습의 주요 측면 건축 관련 현대적인 모델에서 다음과 같다:
- 개발의 반복이 처음부터 모듈입니다.
- 채널 수를 줄이기 위해 1×1 컨볼 루션을 많이 사용합니다.
- 네트워크의 여러 지점에서 오류 피드백을 사용합니다.
- 매우 깊은(22 층)모델의 개발.,
- 모델의 출력에 대한 전역 평균 풀링 사용.
잔류 네트워크 또는 ResNet
우리가 검토 할 convolutional neural nets 의 최종 중요한 혁신은 Kaiming He,et al. 그들의 2016 년 논문에서”이미지 인식을위한 깊은 잔여 학습.”
에서는 종이,저자는 제안에 매우 깊은 모델이라고 잔여 네트워크,또는 ResNet 에 대한 짧은,예를 들어있는 성공을 달성에서 2015 년 버전의 ILSVRC 도전입니다.
그들의 모델은 인상적인 152 개의 레이어를 가졌습니다., 모델 디자인의 핵심은 바로 가기 연결을 사용하는 잔여 블록에 대한 아이디어입니다. 이들은 단순히 연결 네트워크에서 건물 입력으로 유지-이(가중치)과 다음과 같은 사람들에게 더 깊은 레이어,예를 들어,다음 건너뛰기층이다.
잔류 차단 패턴의 두 나선형과 레이어 ReLU 활성화 어디에서 출력의 블록과 결합한 입력 블록,예를 들어,바로 가기를 연결합니다. 예상된 버전의 입력을 통해 사용 1×1 의 경우 모양을 입력하여 블록은 다른 출력 블록,그래서 소위 1×1 회선., 이들은 비가 중 또는 신원 바로 가기 연결과 비교하여 투영 된 바로 가기 연결이라고합니다.
작가로 시작 그들이 부르는 평범한 네트워크 VGG-서 영감을 깊은 나선형 신경 네트워크와 함께 작 필터(3×3),나선형을 그룹화 층 뒤에 없는 풀링 사이에서,평균 풀링의 끝 부분에 기능을 감지기의 일부는 모델의 이전을 완전히 연결되는 출력으로 레이어 softmax 활성화 기능입니다.,
일반 네트워크은 수정되 잔여 네트워크에 추가하여 바로 가기를 연결하기 위해서 정의 잔여 블록입니다. 일반적으로 바로 가기 연결에 대한 입력의 모양은 잔여 블록의 출력과 동일한 크기입니다.
아래 이미지를 촬영에서 종이와 왼쪽에서 오른쪽으로 비교한 건축의 VGG 모델 일반 나선형 모델,그리고 의 버전을 나선형 일반 잔여 모듈이라고 하는 잔여 네트워크입니다.,
건물의 잔류 네트워크에 대한 개체 사진분류(촬영에서 2016paper).
우리는 우리를 요약할 수 있습의 주요 측면 건축 관련 현대적인 모델에서 다음과 같다:
- 사용의 바로 가기를 연결 합니다.
- 잔여 블록의 개발 및 반복.
- 매우 깊은(152 층)모델의 개발.
추가 읽기
이 섹션에서는 더 많은 리소스에 항목에서 찾고 있다면을 깊이 이동합니다.,
논문
- 문서 인식에 적용된 그라디언트 기반 학습,(PDF)1998.
- 심층 컨볼 루션 신경망을 이용한 ImageNet 분류,2012.
- 대규모 이미지 인식을위한 매우 깊은 컨볼 루션 네트워크,2014.
- Convolutions 로 더 깊이 들어가기,2015.
- 깊은 잔여 학습한 이미지 인식,2016
API
- Keras 응용 프로그램 API
기
- 9 깊은 학문에 대해 알아야 할
- 간단한 가이드 버전은 처음부터 네트워크,2018.,
- CNN 아키텍처:LeNet,AlexNet,VGG,GoogLeNet,ResNet 등., 2017.
요약
이 튜토리얼에서,당신은 발견 키 건축 이정표의 사용에 대한 나선형 신경 네트워크를 위한 도전적인 이미지로 분류하고 있습니다.
특별히,당신은 것을 배웠다.
- 는 방법을 패턴의 수는 필터 및 여과기기를 구현할 때는 나선형 신경망이 있습니다.
- 잘 수행되는 모델을 개발하기 위해 균일 한 패턴으로 컨볼 루션 및 풀링 레이어를 배열하는 방법.,
- inception 모듈과 잔류 모듈을 사용하여 훨씬 더 깊은 convolutional 네트워크를 개발하는 방법.
질문이 있으십니까?
아래 의견에 귀하의 질문을하고 나는 대답하기 위해 최선을 다할 것입니다.
개발 깊은 학습 모델을 위해 오늘 비전!
분 안에 자신의 비전 모델을 개발
…,된 단 몇 줄의 python code
발견하는 방법에는 새로운 전자책:
깊은 학습을 위한 컴퓨터 비전
이 제공하는 자-연구 튜토리얼에서와 같은 주제:
분류체 검색(욜로 rcnn),얼굴 인식을(vggface 및 facenet),데이터 준비하고 훨씬 더 있습니다…
마지막으로 비전 프로젝트에 깊은 학습을 가져
학계를 건너 뜁니다. 그냥 결과.나는 그 안에 무엇이 있는지 알고 싶다.