이 게시물에서는 convolutional 네트워크에 일반적으로 사용되는 아키텍처에 대해 설명합니다. 당신이 볼 수 거의 모든 CNN 아키텍쳐에 따라 동일한 일반적인 디자인의 원리를 연속적으로 적용하는 나선형 계층을 입력,정기적으로 공간적 다운 샘플링 크기의 수가 증가하면서 기능을 지도입니다.,

고전적인 네트워크 아키텍처는 단순히 누적 된 컨볼 루션 레이어로 구성되었지만 현대 아키텍처는보다 효율적인 학습을 가능하게하는 방식으로 컨볼 루션 레이어를 구성하기위한 새롭고 혁신적인 방법을 모색합니다. 거의 모든 이러한 아키텍처는 네트워크 전체에서 사용되는 반복 가능한 단위를 기반으로합니다.

이러한 아키텍처는 기계 학습 실무자가 다양한 컴퓨터 비전 작업을 해결하기 위해 적응하는 일반적인 설계 지침 역할을합니다., 이러한 아키텍처로 봉사한 다양한 기능 추출기 위해 사용될 수 있는 이미지 분류,목표 탐지,이미지 분할,그리고 다른 많은 고급 작업입니다.

클래식 네트워크 아키텍처(역사적 목적을 위해 포함)

  • LeNet-5
  • AlexNet
  • VGG16

현대 네트워크 아키텍처

  • Inception
  • ResNet
  • ResNeXt
  • DenseNet

LeNet-5

yann lecun 의 lenet-5 모델은 1998 년에 우편 서비스에서 우편 번호 인식을 위해 손으로 쓴 숫자를 식별하기 위해 개발되었습니다., 이 선구적인 모델은 오늘날 우리가 알고있는 convolutional neural network 를 크게 도입했습니다.

나선형 레이어 사용 하위 집합의 이전 계층의 채널에 대한 각 필터를 줄일 수 계산 및 강제로는 휴식의 대칭성 네트워크에 있습니다. 서브샘플링 레이어는 평균 풀링 양식을 사용합니다.

Parameters:60,000

지:그라데이션-기반 학습에 적용되는 문서 인식

AlexNet

AlexNet 의해 개발되었 알렉스 Krizhevsky et al. 2012 년 ImageNet 경쟁에서 경쟁합니다., 이 모델은 상당히 크지 만 일반적인 아키텍처는 LeNet-5 와 매우 유사합니다. 성공의 모델(는 첫 번째 장소에서 2012 년 말 경)확신 많은 컴퓨터 비전을 커뮤니티에 심각한 살펴보고 깊은 학습을 위한 컴퓨터 시각 작업을 합니다.

매개변수:60 만

지:ImageNet 분류 깊은 나선형 신경 네트워크

VGG-16

VGG 네트워크를 소개 2014 년에 제공되는 더 깊은 아직 간단한 변형의 나선형 구조이 되고 있습니다., 도입 당시이 모델은 매우 깊은 것으로 간주되었습니다.

아키텍처

매개 변수:1 억 3 천 8 백만

종이:대규모 이미지 인식을위한 매우 깊은 Convolutional 네트워크

Inception(GoogLeNet)

2014 년 Google 의 연구원은 2014 년 ImageNet 경쟁에서 분류 및 탐지 과제에서 1 위를 차지한 Inception 네트워크를 도입했습니다.

모델이 구성되어 있는 기본적인 단위로 불리는”창립 이래 세포에서”이는 우리가 수행하는 이 시리즈의 회선에서 다른 스케일과 그 후 집계의 결과입니다., 계산을 절약하기 위해 입력 채널 깊이를 줄이기 위해 1×1 컨볼 루션이 사용됩니다. 각 셀에 대해 입력에서 다른 스케일로 기능을 추출하는 법을 배울 수있는 1×1,3×3 및 5×5 필터 세트를 학습합니다. 최대 풀링은 출력을 적절하게 연결할 수 있도록 치수를 보존하기 위해”동일한”패딩에도 사용됩니다.

이 연구자들은 원래의 Inception 셀에 대한보다 효율적인 대안을 도입 한 후속 논문을 발표했습니다., 큰 공간 필터(예:5×5 또는 7×7)를 사용한 컨볼 루션은 표현력과 더 큰 규모로 기능을 추출 할 수있는 능력면에서 유익하지만 계산은 불균형 적으로 비쌉니다. 연구진은 5×5 컨볼 루션이 2 개의 누적 된 3×3 필터로보다 저렴하게 표현 될 수 있다고 지적했다.

반면$5\times5\times c$필터에는$25c$매개 변수가 필요하고 두 개의$3\times3\times c$필터에는$18c$매개 변수 만 필요합니다. 5×5 필터를 가장 정확하게 표현하기 위해 두 개의 3×3 레이어 사이에 비선형 활성화를 사용해서는 안됩니다., 그러나 그것은 발견되었습는”선형 활성화는 항상 열등을 사용하여 선형 정류 단위의 모든 단계에서 분해.”

또한 3×3 컨볼 루션이 연속적인 3×1 및 1×3 컨볼 루션으로 더 해체 될 수 있음을 보여 주었다.

이 통찰력을 일반화하면$n\times n$convolution 을$1\times n$convolution 다음으로$n\times1$convolution 으로보다 효율적으로 계산할 수 있습니다.

을 향상시키기 위해서 전체적인 네트워크의 성능,두 개의 보조 출력을 추가 네트워크를 통해., 나중에 가장 초기의 보조 출력이 네트워크의 최종 품질에 식별 할 수있는 영향을 미치지 않는다는 것이 발견되었습니다. 의 추가 보조 출력을 주로 혜택을 끝의 성능 모델을 수렴하기간보다 더 나은 가치를 동일한 네트워크 아키텍처 없이 보조를 지점에 있습니다. 보조 출력의 추가가 네트워크에 규칙 화 효과가 있다고 믿어집니다.

보다 효율적인 Inception 셀을 활용하는 Inception 네트워크의 개정되고 심층적 인 버전이 아래에 나와 있습니다.,

매개변수:5 천만(V1)23 만명(V3)

논문:

  • 더 깊은 것으로 나선
  • 에 대해 다시 생각하고 처음부터링을 위한 컴퓨터 비전

ResNet

깊은 잔여 네트워크었 획기적인 아이디어는 설정의 개발을 훨씬 더 깊은 네트워크(수백 개의 층에 반대하는 수천만의 층).

이것은 일반적으로 수용되는 원리는 더 깊은 네트워크는 학습을 할 수 있는 더 복잡한 함수의 표현을 입력되어야 더 나은 성능을 제공합니다., 그러나 많은 연구자들은 더 많은 레이어를 추가하면 결국 최종 성능에 부정적인 영향을 미친다는 것을 관찰했습니다. 이 동작은 아래의 저자에 의해 설명 된 것처럼 직관적으로 예상되지 않았습니다.

자리 얕은 건축 그리고 깊은 대응에는 레이어에습니다. 더 깊은 모델에 건설하여 솔루션이 존재합니다:추가 된 레이어는 신원 매핑이고 다른 레이어는 학습 된 얕은 모델에서 복사됩니다., 의 존재를 구성된 이 솔루션을 나타내는 더 깊은 모델을 생성 높은 훈련 오류보다 더 얕은이다. 그러나 실험에 따르면 우리의 현재 해결사는 구축 된 솔루션보다 비교할 수 없을 정도로 좋거나 더 나은 솔루션을 찾을 수 없습니다(또는 실현 가능한 시간에 그렇게 할 수 없음).,

이 현상은 저자에 의해 저하 문제로 언급됩니다-더 나은 매개 변수 초기화 기술과 배치 정규화가 더 깊은 네트워크를 수렴하도록 허용하지만,종종 더 얕은 대응 물보다 높은 오류율로 수렴한다는 사실을 암시합니다. 한계에서 더 많은 레이어를 쌓기 만하면 모델의 궁극적 인 성능이 저하됩니다.,

저자는 블록의 중간층이 블록 입력을 참조하여 잔류 함수를 학습하는 잔류 블록을 도입함으로써이 저하 문제에 대한 치료법을 제안합니다. 이 잔여 기능을 더 높은 품질의 기능을 위해 입력 기능 맵을 조정하는 방법을 배우는 구체화 단계로 생각할 수 있습니다. 이는 각 레이어가 새롭고 뚜렷한 피처 맵을 배울 것으로 예상되는”일반”네트워크와 비교됩니다., 지 않는 경우에는 구체화가 필요하고,중간층을 배울 수 있는 점차적으로 조정 무게로 제한 잔류 차단을 나타내는 정체성 기능입니다.나중에 원래 제안 된 유닛에 약간의 수정이 훈련 중에 그라디언트가 네트워크를 통해 전파되도록함으로써 더 나은 성능을 제공한다는 것이 발견되었습니다.,

넓은 잔여 네트워크
원래 ResNet 논문은 열화 문제를 완화하여 더 깊은 구조를 가능하게하는 네트워크 아키텍처를 만드는 데 중점을 두었지만 다른 연구자들은 이후 네트워크의 너비(채널 깊이)를 늘리는 것이 네트워크의 전체 용량을 확장하는보다 효율적인 방법이 될 수 있다고 지적했습니다.

아키텍처

각 색상의 레이어 블록은 동일한 차원의 일련의 컨볼 루션을 나타냅니다., 피쳐 매핑은 레이어 당 시간 복잡성을 보존하기 위해 채널 깊이의 증가를 동반 한 스트라이드 컨볼 루션에 의해 주기적으로 다운 샘플링됩니다. 점선은 새 블록의 치수와 일치하도록 1×1 컨볼 루션을 통해 입력을 투사하는 잔여 연결을 나타냅니다.위의 다이어그램은 ResNet34 아키텍처를 시각화합니다., 에 대한 ResNet50 모델,우리는 단순히 교체를 각각 두 개의 층 잔여 블록으로 세 가지 레이어 병목현상을 차단을 사용하는 1×1 회선을 줄이고 이후에 복원 채널 깊이 허용,감소 전산 부하를 계산할 때 3×3 회선.,

매개 변수:25 백만(ResNet50)

논문:

  • 이미지 인식을위한 딥 잔여 학습
  • 딥 잔여 네트워크에서의 신원 매핑
  • 와이드 잔여 네트워크

ResNeXt 아키텍처는 표준 잔류 블록을”분할-변환-병합”전략(즉.)을 활용하는 것으로 대체하는 딥 잔여 네트워크의 확장입니다. 셀 내의 분기 경로)는 Inception 모델에 사용됩니다., 간단히 말해서 전체 입력 피쳐 맵에 대한 컨볼 루션을 수행하는 대신 블록의 입력은 결과를 병합하기 전에 몇 개의 컨볼 루션 필터를 별도로 적용하는 일련의 하위(채널)차원 표현으로 투영됩니다.

이 아이디어는 매우 유사하는 그룹 회선는 아이디어 제안서 AlexNet 지하는 방법으로 공유 회선 계산을 통해 두 개의 Gpu 있습니다. 입력의 전체 채널 깊이로 필터를 만드는 대신 아래 그림과 같이 입력이 각각 그룹으로 채널 단위로 분할됩니다.,

발견되었을 사용하여 그룹화 회선도 정도로 전문화의 그룹 중 어디에 별도의 그룹에 집중된 다른 특성을 입력된 이미지입니다.

ResNeXt 종이 참조 번호의 지점 또는 그룹으로 카디널리티의 ResNeXt 셀 수행한 일련의 실험을 이해하는 상대적인 성과 이익 사이 증가 카디,깊이와 폭의 네트워크에 있습니다. 실험 것을 보여 증가 카디가 더 효과적인에서 혜택을 모델보다 성능이 증가 또는 폭 깊이의 네트워크에 있습니다., 실험은 또한”잔여 연결은 최적화에 도움이되는 반면 집계 된 변환은 더 강한 표현에 도움이됩니다.”

아키텍처

ResNeXt 아키텍처는 단순히 Resnext 모델을 모방하여 ResNeXt 블록의 ResNet 블록을 대체합니다.

지:집계된 잔여 변화에 대한 깊은 신경 네트워크

DenseNet

아이디어의 뒤에 나선형 고밀도 네트워크는 간단하다:그것은 도움이 될 수 있는 기능을 참조 맵에서 앞서 네트워크입니다., 따라서 각 레이어의 피처 맵은 밀도가 높은 블록 내의 모든 연속 레이어의 입력에 연결됩니다. 이것은 나중에 레이어 네트워크 내에서 직접 활용하여 특징에서 이전 층을 장려하고,기능을 다시 사용 내 네트워크입니다. 저자 상태,”연결하는 기능이도 배운 다른 층에 변화를 증가에 입력 후속 레이어와 효율을 향상시킨다.”

이 모델을 처음 접했을 때 레이어 간의 밀집된 연결을 지원하기 위해 터무니없는 수의 매개 변수를 가질 것이라고 생각했습니다., 그러나기 때문에,네트워크의 능력을 사용하여 직접 이전의 모든 기능을 지도,저자는 그들이 일할 수 있는 아주 작은 출력 채널 깊이(ie. 레이어 당 12 개의 필터),필요한 총 매개 변수 수를 크게 줄입니다. 저자는 각각의 연속적인 레이어가 마지막 레이어보다$k$더 많은 채널을 가질 것이기 때문에(이전의 모든 레이어를 누적하고 입력에 연결 한 결과)각 컨볼 루션 레이어에 사용 된 필터 수를”성장률”,$k$로 나타냅니다.,

ResNet 모델과 비교할 때,DenseNets 는 더 적은 복잡성으로 더 나은 성능을 달성하는 것으로보고되었습니다.

대부분의 실험에서 종이,저자는 유사한 일반 ResNet 모델,단순히 교환에 조밀한 구획으로 반복되는 단위입니다.

매개 변수:

  • 0.8 백만(DenseNet-100,k=12)
  • 15.,3 천만(DenseNet-250,k=24)
  • 40 만명(DenseNet-190,k=40)

지:조밀하게 연결된 나선형 네트워크
비디오:CVPR2017 년 최우수 논문상 수상했:조밀하게 연결된 나선형 네트워크

추가 읽기