ebben a bejegyzésben megvitatom a konvolúciós hálózatok általánosan használt architektúráit. Mint látni fogod, szinte az összes CNN architektúra ugyanazokat az általános tervezési elveket követi, mint a konvolúciós rétegek egymás utáni alkalmazása a bemenetre, a térbeli dimenziók periodikus lekicsinylése, miközben növeli a funkciótérképek számát.,

míg a klasszikus hálózati architektúrák egyszerűen egymásra rakott konvolúciós rétegekből álltak, a modern architektúrák új és innovatív módszereket tárnak fel a konvolúciós rétegek felépítésére oly módon, hogy lehetővé tegyék a hatékonyabb tanulást. Ezen architektúrák szinte mindegyike egy ismételhető egységen alapul, amelyet az egész hálózaton használnak.

ezek az architektúrák általános tervezési iránymutatásként szolgálnak, amelyeket a gépi tanulási szakemberek ezután alkalmazkodnak a különböző számítógépes látási feladatok megoldásához., Ezek az architektúrák gazdag funkciókivonóként szolgálnak, amelyek képosztályozáshoz, objektumfelismeréshez, képszegmentáláshoz, valamint sok más fejlettebb feladathoz használhatók.

klasszikus hálózati architektúrák (történelmi célokra mellékelve)

  • LeNet-5
  • AlexNet
  • VGG 16

Modern hálózati architektúrák

  • Inception
  • ResNet
  • ResNeXt
  • DenseNet

LeNet-5

Yann LeCun lenet-5 modelljét 1998-ban fejlesztették ki, hogy azonosítsa a postai irányítószám-felismerés kézzel írt számjegyeit., Ez az úttörő modell nagyrészt bemutatta a konvolúciós neurális hálózatot, amint azt ma ismerjük.

architektúra

a konvolúciós rétegek az előző réteg csatornáinak egy részhalmazát használják minden szűrőhöz, hogy csökkentsék a számítást, és kényszerítsék a szimmetria törését a hálózatban. Az alcsoportos rétegek az átlagos egyesítés formáját használják.

paraméterek: 60.000

papír: gradiens alapú tanulás alkalmazott dokumentumfelismerés

AlexNet

AlexNet fejlesztette ki Alex Krizhevsky et al. 2012-ben versenyezni az ImageNet versenyen., Az Általános architektúra meglehetősen hasonlít a LeNet-5-hez, bár ez a modell lényegesen nagyobb. Ennek a modellnek a sikere (amely az első helyet foglalta el a 2012-es ImageNet versenyen) meggyőzte a számítógépes látásközösség nagy részét, hogy komolyan vizsgálja meg a számítógépes látás feladatainak mély tanulását.

architektúra

paraméterek: 60 millió

papír: ImageNet osztályozás mély konvolúciós neurális hálózatokkal

VGG-16

a 2014-ben bevezetett VGG hálózat a fent tárgyalt konvolúciós struktúrák mélyebb, mégis egyszerűbb változatát kínálja., Bevezetésekor ezt a modellt nagyon mélynek tekintették.

Építészet

Paraméterek: 138 millió

Papír: Nagyon Mély Convolutional Hálózatok a Nagyméretű Kép Elismerés

Eredet (GoogLeNet)

2014-Ben a kutatók a Google bemutatta a Kezdetektől hálózat, amely átvette az első helyet a 2014-es ImageNet verseny besorolása, valamint észlelési kihívások.

a modell egy “Inception cella” – nak nevezett alapegységből áll, amelyben különböző skálákon konvolúciókat végzünk, majd az eredményeket összesítjük., A számítás megtakarítása érdekében 1×1 konvolúciót használnak a bemeneti csatorna mélységének csökkentésére. Minden egyes cellához egy 1×1, 3×3 és 5×5 szűrőből álló készletet tanulunk meg, amely a bemenetről különböző skálákon képes kibontani a funkciókat. A Max poolingot is használják, bár “azonos” párnával a méretek megőrzése érdekében, hogy a kimenet megfelelően összeillesszenhető legyen.

ezek a kutatók nyomon követési tanulmányt tettek közzé, amely hatékonyabb alternatívákat vezetett be az eredeti kezdeti cellához., A nagy térbeli szűrőkkel (például 5×5 vagy 7×7) ellátott konvolúciók kifejezőképességük és képességük szempontjából előnyösek, de a számítás aránytalanul drága. A kutatók rámutattak arra, hogy az 5×5 konvolúciót olcsóbban képviselheti két egymásra helyezett 3×3 szűrő.

míg a$ 5 \times 5 \ times C $ szűrő $25c$ paramétereket igényel, két $ 3 \ szor 3 \ szor C$ szűrő csak $18C$ paramétereket igényel. Annak érdekében, hogy a legpontosabban képviselje az 5×5 szűrőt, ne használjunk nemlineáris aktivációkat a két 3×3 réteg között., Azonban felfedezték, hogy ” a lineáris aktiválás mindig rosszabb volt, mint a korrigált Lineáris egységek használata a faktorizáció minden szakaszában.”

azt is kimutatták, hogy a 3×3-as konvolúciók tovább bonthatók egymást követő 3×1-es és 1×3-as konvolúciókba.

általánosítva ezt a betekintést, hatékonyabban tudjuk kiszámítani a $n \ times n$ konvolúciót $1 \ times n$ konvolúcióként, amelyet $n \times 1$ konvolúció követ.

architektúra

a teljes hálózati teljesítmény javítása érdekében két kiegészítő kimenetet adnak hozzá a hálózaton keresztül., Később kiderült, hogy a legkorábbi kiegészítő kimenetnek nincs észrevehető hatása a hálózat végső minőségére. A kiegészítő kimenetek hozzáadása elsősorban a modell végteljesítményét részesítette előnyben, kissé jobb értéken konvergálva, mint ugyanazon hálózati architektúra segédág nélkül. Úgy gondolják, hogy a kiegészítő kimenetek hozzáadása szabályozó hatással volt a hálózatra.

az Inception network felülvizsgált, mélyebb verziója, amely kihasználja a hatékonyabb Inception cellákat, az alábbiakban látható.,

Paraméterek: 5 millió (V1), valamint a 23 millió (V3)

a Papírokat:

  • mélyebbre Menni a menetek
  • Újragondolása a Kezdetektől Építészet a Számítógépes Látás

ResNet

Mély maradék hálózatok áttörés ötlet, amely lehetővé tette, hogy a fejlődés sokkal mélyebb hálózatok (több réteg szemben több réteg).

általánosan elfogadott alapelve, hogy a mélyebb hálózatok képesek a bemenet összetettebb funkcióit és reprezentációit megtanulni, ami jobb teljesítményhez vezet., Sok kutató azonban megfigyelte, hogy több réteg hozzáadása végül negatív hatással volt a végső teljesítményre. Ez a viselkedés nem intuitív módon várható, amint azt az alábbi szerzők magyarázzák.

tekintsünk egy sekélyebb architektúrát és annak mélyebb megfelelőjét, amely több réteget ad hozzá. Létezik egy megoldás a mélyebb modell felépítésével: a hozzáadott rétegek identitás leképezés, a többi réteg pedig a tanult sekélyebb modellből másolódik., Ennek az épített megoldásnak a létezése azt jelzi, hogy egy mélyebb modellnek nem szabad nagyobb képzési hibát eredményeznie, mint a sekélyebb társa. De a kísérletek azt mutatják, hogy a jelenlegi megoldóink nem képesek olyan megoldásokat találni, amelyek összehasonlíthatóan jók vagy jobbak, mint az épített megoldás (vagy megvalósítható időben nem képesek erre).,

ezt a jelenséget a szerzők degradációs problémának nevezik – utalva arra a tényre, hogy bár a jobb paraméter-inicializálási technikák és a kötegelt normalizálás lehetővé teszi a mélyebb hálózatok konvergálását, gyakran nagyobb hibaaránnyal konvergálnak, mint a sekélyebb társaik. A határ, egyszerűen egymásra több réteg rontja a modell végső teljesítményét.,

A szerzők javaslatot orvosolja ez a megalázás probléma bevezetésével maradék blokkok, amelyek közbenső réteg egy blokk tanulni maradék funkció arra hivatkozással, hogy a bemeneti blokk. Ezt a maradék funkciót finomítási lépésként gondolhatja, amelyben megtanuljuk, hogyan állítsuk be a bemeneti funkciótérképet a jobb minőségű szolgáltatásokhoz. Ez összehasonlítható egy “sima” hálózattal, amelyben minden réteg várhatóan új, különálló funkciótérképeket fog tanulni., Abban az esetben, ha nincs szükség finomításra, a közbenső rétegek megtanulhatják, hogy súlyukat fokozatosan nullára állítsák úgy, hogy a maradék blokk identitásfüggvényt képviseljen.

Megjegyzés: később felfedezték, hogy az eredeti javasolt egység enyhe módosítása jobb teljesítményt nyújt azáltal, hogy hatékonyabban teszi lehetővé a színátmenetek terjedését a hálózaton keresztül a képzés során.,

széles maradék hálózatok
bár az eredeti ResNet papír egy hálózati architektúra létrehozására összpontosított, amely lehetővé teszi a mélyebb struktúrákat a lebontási probléma enyhítésével, más kutatók azóta rámutattak arra, hogy a hálózat szélességének (csatornamélységének) növelése hatékonyabb módja lehet a hálózat teljes kapacitásának bővítésének.

architektúra

minden színes rétegblokk azonos méretű konvolúciók sorozatát képviseli., A funkció leképezés időszakosan downsampled által csíkos konvolúció kíséri növekedése csatorna mélysége, hogy megőrizze az idő összetettsége rétegenként. A szaggatott vonalak olyan maradék csatlakozásokat jelölnek, amelyekben a bemenetet 1×1 konvolúcióval vetítjük ki, hogy megfeleljen az új blokk méreteinek.

a fenti ábra a ResNet 34 architektúrát jeleníti meg., A ResNet 50 modellhez egyszerűen kicseréljük minden kétrétegű maradék blokkot egy háromrétegű szűk keresztmetszetű blokkra, amely 1×1 konvolúciót használ a csatorna mélységének csökkentésére, majd visszaállítására, lehetővé téve a csökkentett számítási terhelést a 3×3 konvolúció kiszámításakor.,

Paraméterek: 25 millió (ResNet 50)

a Papírokat:

  • Mély Maradék Tanulás képfelismerés
  • Identitás Leképezések Mély Maradék Hálózatok
  • Széles Maradék Hálózatok

A ResNeXt építészet egy kiterjesztése a mély maradék hálózat, amely helyettesíti a hagyományos maradék blokk egyik, hogy kihasználja a “split-transform-merge” stratégia (ie. Elágazó utak egy cellán belül) használt Inception modellek., Egyszerűen, ahelyett, hogy konvolúciókat hajtana végre a teljes bemeneti funkciótérképen, a blokk bemenetét alacsonyabb (csatorna) dimenziós ábrázolások sorozatába vetítjük, amelyek külön-külön néhány konvolúciós szűrőt alkalmazunk az eredmények egyesítése előtt.

Ez az ötlet nagyon hasonlít a csoportos konvolúciókhoz, amely az AlexNet papírban javasolt ötlet volt, hogy megosszák a konvolúciós számítást két GPU-n keresztül. Ahelyett, hogy szűrőket hozna létre a bemenet teljes csatornamélységével, a bemenet csatornánként csoportokra oszlik, az alábbiak szerint.,

felfedezték, hogy a csoportosított konvolúciók használata bizonyos fokú specializációt eredményezett a csoportok között, ahol a különálló csoportok a bemeneti kép különböző jellemzőire összpontosítottak.

a ResNeXt papír az ágak vagy csoportok számát jelenti a ResNeXt cella kardinalitásaként, és kísérletsorozatot hajt végre a relatív teljesítménynövekedés megértése érdekében a hálózat kardinalitásának, mélységének és szélességének növelése között. A kísérletek azt mutatják, hogy a kardinalitás növelése hatékonyabb a modell teljesítményének kihasználásában, mint a hálózat szélességének vagy mélységének növelése., A kísérletek azt is sugallják, hogy ” a maradék kapcsolatok hasznosak az optimalizáláshoz, míg az aggregált transzformációk (hasznosak) erősebb reprezentációkhoz.”

architektúra

a ResNeXt architektúra egyszerűen utánozza a ResNet modelleket, helyettesítve a ResNeXt blokk ResNet blokkjait.

papír: a mély neurális hálózatok összesített Maradéktranszformációi

DenseNet

a sűrű konvolúciós hálózatok mögötti ötlet egyszerű:hasznos lehet a hálózat korábbi funkciótérképei., Így az egyes rétegek jellemző térképét egy sűrű blokkban minden egymást követő réteg bemenetéhez társítják. Ez lehetővé teszi a hálózaton belüli későbbi rétegek számára, hogy közvetlenül kihasználhassák a korábbi rétegek funkcióit, ösztönözve a szolgáltatások újrafelhasználását a hálózaton belül. A szerzők kijelentik: “a különböző rétegek által megtanult funkciók összekapcsolása növeli a későbbi rétegek bemenetének változását, javítja a hatékonyságot.”

amikor először találkoztam ezzel a modellel, úgy gondoltam, hogy abszurd számú paraméter van a rétegek közötti sűrű kapcsolatok támogatására., Mivel azonban a hálózat képes közvetlenül használni bármely korábbi funkciótérképet, a szerzők azt találták, hogy nagyon kis kimeneti csatornamélységekkel (pl. 12 szűrő rétegenként), jelentősen csökkentve a szükséges paraméterek számát. A szerzők utalnak, hogy a szám a használt szűrők minden convolutional réteg, mint “növekedési üteme”, $k$, mivel egymást követő réteg lesz $k$ többet csatornák, mint az utolsó (következtében felhalmozódó, illetve összefűző minden korábbi réteget, hogy a bemeneti).,

A ResNet modellekhez képest a DenseNets jobb teljesítményt nyújt, kevesebb összetettséggel.

architektúra

a legtöbb kísérlet a papír, a szerzők utánozta az Általános ResNet modell architektúra, egyszerűen csere a sűrű blokk, mint az ismételt egység.

paraméterek:

  • 0,8 millió (DenseNet-100, k = 12)
  • 15.,3 millió (DenseNet-250, k=24)
  • 40 millió (DenseNet-190, k = 40)

papír: sűrűn csatlakoztatott konvolúciós hálózatok
videó: Cvpr 2017 Legjobb papír díj: sűrűn csatlakoztatott konvolúciós hálózatok

további olvasás