În acest post, voi discuta arhitecturi utilizate în mod obișnuit pentru rețele convoluționale. După cum veți vedea, aproape toate arhitecturile CNN urmează aceleași principii generale de proiectare de aplicare succesivă a straturilor convoluționale la intrare, reducând periodic dimensiunile spațiale în timp ce crește numărul de hărți de caracteristici.,în timp ce arhitecturile clasice de rețea au fost compuse pur și simplu din straturi convoluționale stivuite, arhitecturile moderne explorează modalități noi și inovatoare de construire a straturilor convoluționale într-un mod care permite o învățare mai eficientă. Aproape toate aceste arhitecturi se bazează pe o unitate repetabilă care este utilizată în întreaga rețea.

aceste arhitecturi servesc ca linii directoare generale de proiectare pe care practicienii de învățare automată le vor adapta apoi pentru a rezolva diverse sarcini de viziune computerizată., Aceste arhitecturi servesc ca extractoare de caracteristici bogate, care pot fi utilizate pentru clasificarea imaginii, detectarea obiectelor, segmentarea imaginii și multe alte sarcini mai avansate.

Clasic arhitecturi de rețea (inclus în scopuri istorice)

  • LeNet-5
  • AlexNet
  • VGG 16

Modern arhitecturi de rețea

  • de la Începuturile
  • ResNet
  • ResNeXt
  • DenseNet

LeNet-5

Yann Lecun e LeNet-5 modelul a fost dezvoltat în 1998 pentru a identifica scrise de mână cifre pentru codul poștal recunoaștere în serviciul poștal., Acest model de pionierat a introdus în mare măsură rețeaua neuronală convoluțională așa cum o știm astăzi.straturile convoluționale utilizează un subset al canalelor stratului anterior pentru fiecare filtru pentru a reduce calculul și a forța o pauză de simetrie în rețea. Straturile subsampling folosesc o formă de pooling medie.

Parametri: 60.000

Hârtie: Gradient-based learning aplicat pentru documentul de recunoaștere

AlexNet

AlexNet a fost dezvoltat de Alex Krizhevsky et al. în 2012 pentru a concura în competiția ImageNet., Arhitectura generală este destul de asemănătoare cu LeNet-5, deși acest model este considerabil mai mare. Succesul acestui model (care a ocupat primul loc în competiția ImageNet din 2012) a convins o mulțime de comunitate de viziune computerizată să arunce o privire serioasă asupra învățării profunde pentru sarcinile de viziune computerizată.

Arhitectura

Parametri: 60 de milioane

Hârtie: ImageNet Clasificare cu Profundă Convoluțional Rețele Neuronale

VGG-16

VGG rețea, introdus în 2014, oferă o mai profundă încă mai simplă variantă de convoluțional structuri discutate mai sus., La momentul introducerii sale, acest model a fost considerat a fi foarte profund.

Arhitectura

Parametri: 138 de milioane

Hârtie: Foarte Adânc Convoluțional Rețele de Scară Largă Recunoaștere a Imaginilor

de la Începuturile (GoogLeNet)

În 2014, cercetătorii de la Google a introdus de la Începuturile rețelei care a luat primul loc în 2014 ImageNet concurs pentru clasificarea și detectarea provocări.

modelul este compus dintr-o unitate de bază denumită „celulă inițială” în care efectuăm o serie de convoluții la diferite scări și agregăm ulterior rezultatele., Pentru a salva calculul, 1×1 convoluții sunt utilizate pentru a reduce adâncimea canalului de intrare. Pentru fiecare celulă, învățăm un set de filtre 1×1, 3×3 și 5×5 care pot învăța să extragă funcții la diferite scări din intrare. De asemenea, se utilizează pooling maxim, deși cu umplutură „aceeași” pentru a păstra dimensiunile, astfel încât ieșirea să poată fi concatenată corespunzător.

acești cercetători au publicat o lucrare de urmărire care a introdus alternative mai eficiente la celula inițială inițială., Convolutions cu mare spațiale filtre (cum ar fi 5×5 sau 7×7) sunt benefice în ceea ce privește expresivitatea și capacitatea de a extrage caracteristici la o scară mai mare, dar calculul este prea costisitoare. Cercetătorii au subliniat că o convoluție de 5×5 poate fi reprezentată mai ieftin de două filtre 3×3 stivuite.în timp ce un filtru de $5 \ori 5 \ori C$ necesită parametri $25C$, două filtre de $3 \ori 3 \ori C$ necesită doar parametri $18c$. Pentru a reprezenta cu cea mai mare precizie un filtru 5×5, nu ar trebui să folosim activări neliniare între cele două straturi 3×3., Cu toate acestea, sa descoperit că „activarea liniară a fost întotdeauna inferioară utilizării unităților liniare rectificate în toate etapele factorizării.”

s-a arătat, de asemenea, că convoluțiile 3×3 ar putea fi deconstruite în continuare în convoluții succesive 3×1 și 1×3.generalizând această perspectivă, putem calcula mai eficient o convoluție de $n \times n$ ca o convoluție de $1 \times n$ urmată de o convoluție de $n \times 1$.pentru a îmbunătăți performanța generală a rețelei, două ieșiri auxiliare sunt adăugate în întreaga rețea., Ulterior s-a descoperit că cea mai veche ieșire auxiliară nu a avut niciun efect perceptibil asupra calității finale a rețelei. Adăugarea ieșirilor auxiliare a beneficiat în primul rând de performanța finală a modelului, convergând la o valoare puțin mai bună decât aceeași arhitectură de rețea fără o ramură auxiliară. Se crede că adăugarea ieșirilor auxiliare a avut un efect de regularizare asupra rețelei.

o versiune revizuită, mai profundă a rețelei Inception, care profită de celulele Inception mai eficiente, este prezentată mai jos.,

Parametrii: 5 milioane de euro (V1) și 23 de milioane (V3)

Documente:

  • O mai profundă cu convolutions
  • Regândirea Începuturile Arhitecturii de Viziune de Calculator

ResNet

Adânc reziduale rețele au fost o descoperire, idee care a permis dezvoltarea de mult mai profundă rețele (de sute de straturi ca spre deosebire de zeci de straturi).

este un principiu general acceptat că rețelele mai profunde sunt capabile să învețe funcții și reprezentări mai complexe ale input-ului, ceea ce ar trebui să conducă la o performanță mai bună., Cu toate acestea, mulți cercetători au observat că adăugarea mai multor straturi a avut în cele din urmă un efect negativ asupra performanței finale. Acest comportament nu a fost așteptat intuitiv, după cum explică autorii de mai jos.

Să luăm în considerare o arhitectură mai mică și omologul său mai profund care adaugă mai multe straturi pe ea. Există o soluție prin construirea modelului mai profund: straturile adăugate sunt cartografierea identității, iar celelalte straturi sunt copiate din modelul mai adânc învățat., Existența acestei soluții construite indică faptul că un model mai profund nu ar trebui să producă o eroare de formare mai mare decât omologul său mai puțin adânc. Dar experimentele arată că solverii noștri actuali la îndemână nu sunt capabili să găsească soluții care sunt comparabil bune sau mai bune decât soluția construită (sau incapabile să facă acest lucru în timp fezabil).,

Acest fenomen este denumit de autori ca degradarea problema – făcând aluzie la faptul că, deși mai bine parametru de inițializare tehnici și lot normalizarea permite pentru mai adânc rețele să conveargă, ei ajung, adesea, la o rată de eroare mai ridicată decât a lor superficială omologii. În limita, pur și simplu stivuirea mai multor straturi degradează performanța finală a modelului.,autorii propun o remediere a acestei probleme de degradare prin introducerea blocurilor reziduale în care straturile intermediare ale unui bloc învață o funcție reziduală cu referire la intrarea blocului. Vă puteți gândi la această funcție reziduală ca la un pas de rafinare în care învățăm cum să ajustăm harta caracteristicilor de intrare pentru funcții de calitate superioară. Aceasta se compară cu o rețea” simplă ” în care se așteaptă ca fiecare strat să învețe hărți de caracteristici noi și distincte., În cazul în care nu este nevoie de rafinare, straturile intermediare pot învăța să-și ajusteze treptat greutățile spre zero, astfel încât blocul rezidual să reprezinte o funcție de identitate.notă: mai târziu s-a descoperit că o ușoară modificare a unității propuse inițial oferă performanțe mai bune, permițând gradienților să se propage mai eficient prin rețea în timpul antrenamentului.,deși hârtia originală ResNet s-a concentrat pe crearea unei arhitecturi de rețea care să permită structuri mai profunde prin atenuarea problemei degradării, alți cercetători au subliniat de atunci că creșterea lățimii rețelei (adâncimea canalului) poate fi o modalitate mai eficientă de extindere a capacității globale a rețelei.fiecare bloc colorat de straturi reprezintă o serie de convoluții de aceeași dimensiune., Cartografierea caracteristică este periodic downsampled de convoluție strided însoțită de o creștere a adâncimii canalului pentru a păstra complexitatea de timp pe strat. Liniile punctate denotă conexiuni reziduale în care proiectăm intrarea printr-o convoluție 1×1 pentru a se potrivi dimensiunilor noului bloc.

diagrama de mai sus vizualizează arhitectura ResNet 34., Pentru modelul ResNet 50, înlocuim pur și simplu fiecare bloc rezidual cu două straturi cu un bloc cu trei straturi care utilizează convoluții 1×1 pentru a reduce și a restabili ulterior adâncimea canalului, permițând o sarcină computațională redusă la calcularea convoluției 3×3.,

Parametri: 25 de milioane de euro (ResNet 50)

Documente:

  • Adânc Reziduale de Învățare pentru Recunoaștere a Imaginilor
  • Identitatea Operatori în Adânc Reziduale Rețele
  • Lat Reziduale Rețele

ResNeXt arhitectura este o extensie de adânc reziduale rețea care înlocuiește standardul reziduale bloc cu unul care foloseste un „split-transforma-merge” strategie (ie. căi ramificate într-o celulă) utilizate în modelele inițiale., Pur și simplu, mai degrabă decât efectuarea de rotatii pe întreaga caracteristică de intrare hartă, blocul de intrare este proiectat într-o serie de mici (canal) dimensional reprezentări de care ne-am separat se aplică câteva convoluțional filtre înainte de fuziunea rezultatele.

Această idee este destul de similar cu grupul de rotatii, care a fost o idee propusă în AlexNet hârtie ca o modalitate de a partaja convoluție calcul peste două Gpu-uri. În loc să creeze filtre cu adâncimea completă a canalului de intrare, intrarea este împărțită în grupuri cu fiecare, după cum se arată mai jos.,s-a descoperit că utilizarea convoluțiilor grupate a dus la un grad de specializare între grupuri în care grupuri separate s-au concentrat pe diferite caracteristici ale imaginii de intrare.

ResNeXt de hârtie se referă la numărul de sucursale sau grupuri ca cardinalitatea de ResNeXt mobil și efectuează o serie de experimente pentru a înțelege relativă câștiguri de performanță între creșterea cardinalitate, adâncimea și lățimea de rețea. Experimentele arată că creșterea cardinalității este mai eficientă pentru a beneficia de performanța modelului decât creșterea lățimii sau adâncimii rețelei., Experimentele sugerează, de asemenea, că „conexiunile reziduale sunt utile pentru optimizare, în timp ce transformările agregate sunt (utile pentru) reprezentări mai puternice.”

Arhitectura

ResNeXt arhitectura pur și simplu mimicks la ResNet modele, înlocuirea ResNet blocuri pentru ResNeXt bloc.

Hârtie: Agregate Reziduale Transformări Profunde pentru Rețele Neuronale

DenseNet

ideea Din spatele dens convoluțional rețele este simplu: acesta poate fi util pentru referință caracteristică harti de la mai devreme în rețea., Astfel, harta caracteristicilor fiecărui strat este concatenată la intrarea fiecărui strat succesiv într-un bloc dens. Acest lucru permite straturilor ulterioare din rețea să utilizeze direct caracteristicile straturilor anterioare, încurajând reutilizarea caracteristicilor în rețea. Autorii afirmă: „caracteristica de concatenare-hărți învățate de diferite straturi crește variația intrării straturilor ulterioare și îmbunătățește eficiența.”

când am dat peste acest model, m-am gândit că ar avea un număr absurd de parametri pentru a susține conexiunile dense dintre straturi., Cu toate acestea, deoarece rețeaua este capabilă să utilizeze direct orice hartă a caracteristicilor anterioare, autorii au descoperit că ar putea lucra cu adâncimi foarte mici ale canalului de ieșire (adică. 12 filtre pe strat), reducând considerabil numărul total de parametri necesari. Autorii se referă la numărul de filtre utilizate în fiecare strat convoluțional ca o” rată de creștere”, $k$, deoarece fiecare strat succesiv va avea $k$ mai multe canale decât ultimul (ca urmare a acumulării și concatenării tuturor straturilor anterioare la intrare).,

în comparație cu modelele ResNet, DenseNets sunt raportate pentru a atinge performanțe mai bune, cu o complexitate mai mică.pentru majoritatea experimentelor din lucrare, autorii au imitat arhitectura generală a modelului ResNet, schimbând pur și simplu blocul dens ca unitate repetată.

parametri:

  • 0,8 milioane (DenseNet-100, k = 12)
  • 15.,3 milioane de euro (DenseNet-250, k=24)
  • 40 de milioane de euro (DenseNet-190, k=40)

Hârtie: Dens Conectat Convoluțional Rețele
Video: CVPR 2017 cel Mai bun Ziar de Atribuire: Dens Conectat Convoluțional Rețele

bibliografie