Problem med forsvinningen av gradienten

Problemet med forsvinningen av gradienten (på engelsk forsvinnende gradientproblem ) er et fenomen som skaper vanskeligheter med å trene dype nevrale nettverk gjennom tilbake-propagering av feilen gjennom stokastisk nedstigning av gradienten . I denne metoden mottar hver parameter i modellen ved hver iterasjon en oppdatering proporsjonal med den partielle deriverte av kostnadsfunksjonen med hensyn til selve parameteren. En av hovedårsakene er tilstedeværelsen av klassiske ikke-lineære aktiveringsfunksjoner, for eksempel den hyperbolske tangenten eller den logistiske funksjonen , som har en gradient ved verdier i intervallet . Siden i tilbake-propageringsalgoritmen blir gradientene på de forskjellige nivåene multiplisert med kjederegelen , reduseres produktet av tall eksponentielt med hensyn til dybden av nettverket. På den annen side, når gradienten til aktiveringsfunksjonene kan anta høye verdier, er et lignende problem som kan oppstå det med eksplosjonen av gradienten. $(0,1)$ $n$ $(0,1)$ $n$

Bakoverspredningen av feilen tillot å trene nevrale nettverk gjennom overvåket læring, men de første forsøkene hadde begrenset suksess, og i 1991, i sin avhandling, tilskrev Sepp Hochreiter denne vanskeligheten til problemet han kalte "forsvinningen av gradienten" [1] [ 2] , som påvirker både dype fremmatingsnevrale nettverk [3] og rekursive [4] , som fra et læringssynspunkt er ekvivalente med dype nettverk ved at de "rulles ut" med hensyn til tidsretningen med en nivå for hvert tidsintervall. [5]

Forenklet illustrasjon i tilbakevendende nevrale nettverk

I et tilbakevendende nevralt nettverk etter passeringer, gjentas multiplikasjoner av en matrise med en vektor for skjulte tilstander: den skjulte utgangsvektoren til laget avhenger av den skjulte utgangen til det forrige laget . $n$ $h_ {i}$ $de$ ${\ displaystyle {\ vec {h}} _ {i} = f (W {\ vec {h}} _ {i-1} + {\ vec {b}})}$

Vi kan forenkle diskusjonen ved ekstremt å neglisjere den ikke-lineære funksjonen , skjevheten og legge merke til at vektmatrisen ( ) alltid er den samme. I dette tilfellet er den endelige utgangen bare: $f$ ${\ displaystyle {\ vec {b}}}$ $W$ ${\ displaystyle {\ vec {h}} _ {n} = W ^ {n} {\ vec {h}} _ {0},}$

hvor er den første inngangen til nettverket. Hvis det kan diagonaliseres, er det (på grunn av ) klart at egenverdier mindre enn 1 avtar eksponentielt med dybde n mens egenverdier større enn 1 eksploderer eksponentielt med dybde n. [6] ${\ displaystyle {\ vec {h}} _ {0}}$ ${\ displaystyle W = Q \ lambda Q ^ {T}}$ ${\ displaystyle W ^ {n} = Q \ lambda ^ {n} Q ^ {T}}$

Løsninger

Problemet kan løses ved hjelp av forskjellige aktiveringsfunksjoner, for eksempel korrigerte funksjoner som ReLU, [7] ved bruk av forskjellige treningsalgoritmer, for eksempel Rprop , som kun avhenger av fortegnet til gradienten og ikke av dens norm, [8] eller ved å bruke metoder som ikke er avhengige av gradienten for optimalisering av parameterne, slik som genetiske algoritmer og partikkelsvermoptimalisering , [9] hvis kostnad imidlertid kan bli uoverkommelig i tilfelle av nettverk med et svært høyt antall parametere.

Sammenlignet med perioden da problemet ble oppdaget, har forsvinningen av gradienten blitt delvis dempet med tiden takket være den betydelige økningen i tilgjengelig datakraft, spesielt takket være overgangen fra CPU til GPGPU for modelltrening , til og med dersom dette ikke i seg selv representerer en effektiv løsning på problemet. [10] [11]

En foreslått metode for å motvirke gradientkansellering i dype nettverk er å trene med en flernivåtilnærming, trene de individuelle lagene separat og deretter sette dem sammen, og bruke back-propagation over hele nettverket for å avgrense treningen. Jürgen Schmidhuber foreslo å trene individuelle nivåer på en uovervåket måte, slik at de lærer en komprimert representasjon av deres innspill. [12] Geoffrey Hinton foreslo i 2006 dype trosnettverk , som modellerer å lære distribusjonen av en representasjon på høyt nivå gjennom flere nivåer av latente variabler . Hvert nivå er modellert av en begrenset Boltzmann-maskin og, når den er trent riktig, garanterer en økning i den nedre grensen for logg sannsynlighet . Når et tilstrekkelig antall nivåer er trent, kan nettverket også brukes som en generativ modell , og få en ny prøve som starter fra verdiene til aktiveringsfunksjonene på det høyeste nivået. [11] Denne modellen er nyttig for utvinning av egenskaper fra høydimensjonale strukturerte data. [1. 3]

Når det gjelder rekursive nevrale nettverk, som også påvirkes av forsvinningen av gradienten, noe som reduserer deres evne til å lære langsiktige relasjoner, ble sektoren revolusjonert i 1997 med introduksjonen, av Sepp Hochreiter og Jürgen Schmidhuber , av den ' lang- korttidsminne (LSTM) arkitektur. [14] I LSTM-nettverk forplanter tilstanden til modellen seg over tid uten å krysse ikke-lineære funksjoner, og forhindrer kansellering eller eksplosjon av gradienten. [15] LSTM-nettverk har oppnådd toppmoderne resultater i mange problemer som er iboende i tidssekvenser, for eksempel håndskriftgjenkjenning eller naturlig språkbehandling. [16] [17]

De gjenværende nevrale nettverkene gjør det mulig å kontrastere forsvinningen av gradienten i veldig dype nettverk, takket være tillegget av snarveisforbindelser som lar en kort sekvens av nivåer lære ikke bare den objektive funksjonen , men dens rest oppnådd ved å trekke fra identitetsfunksjonen. [18] [19]

Merknader

^ S. Hochreiter . Untersuchungen zu dynamischen neuronalen Netzen. Diplomoppgave, Institut f. Informatik, Technische Univ. Munich, 1991. Rådgiver: J. Schmidhuber .
^ S. Hochreiter , Y. Bengio, P. Frasconi og J. Schmidhuber . Gradientflyt i tilbakevendende nett: vanskeligheten med å lære langsiktige avhengigheter. I SC Kremer og JF Kolen, redaktører, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.
^ Garrett B. Goh , Nathan O. Hodas og Abhinav Vishnu, Deep learning for computational chemistry , i Journal of Computational Chemistry , vol. 38, n. 16, 15. juni 2017, s. 1291-1307, DOI : 10.1002 / jcc.24764 / abstract , PMID 28272810 , arXiv : 1701.04503 .
^ Razvan Pascanu, Tomas Mikolov og Yoshua Bengio, Om vanskeligheten med å trene tilbakevendende nevrale nettverk , 16. februar 2013.
^ S. Hochreiter, Y. Bengio, P. Frasconi og J. Schmidhuber, Gradient flow in recurrent nets: the vanskelighet med å lære langsiktige avhengigheter , i Kremer og JF Kolen (red), A Field Guide to Dynamical Recurrent Neural Networks , IEEE Press, 2001, ISBN 0-7803-5369-2 .
^ Andrew Trask, Grokking Deep Learning , Manning, 2019, ISBN 978-1617293702 .
^ Xavier Glorot , Antoine Bordes og Yoshua Bengio, Deep Sparse Rectifier Neural Networks , PMLR , 14. juni 2011.
^ Sven Behnke, Hierarkiske nevrale nettverk for bildetolkning. ( PDF ), Lecture Notes in Computer Science, vol. 2766, Springer, 2003.
^ Sepp Hochreiter's Fundamental Deep Learning Problem (1991) , på people.idsia.ch . Hentet 7. januar 2017 .
^ Jürgen Schmidhuber, Dyp læring i nevrale nettverk: en oversikt , i nevrale nettverk , vol. 61, 2015, s. 85-117, DOI : 10.1016 / j.neunet.2014.09.003 , PMID 25462637 , arXiv : 1404.7828 .
^ a b G. E. Hinton , S. Osindero og Y. Teh, En rask læringsalgoritme for dype trosnett ( PDF ), i Neural Computation , vol. 18, nei. 7, 2006, s. 1527-1554, DOI : 10.1162 / neco. 2006.18.7.1527 , PMID 16764513 .
^ J. Schmidhuber., "Lære komplekse, utvidede sekvenser ved å bruke prinsippet om historiekomprimering," Neural Computation , 4, s. 234–242, 1992.
^ G. Hinton, Deep belief networks , i Scholarpedia , vol. 4, nei. 5, 2009, s. 5947, Bibcode : 2009SchpJ ... 4.5947H , DOI : 10.4249 / scholarpedia.5947 .
^ Sepp Hochreiter og Jürgen Schmidhuber , Long Short-Term Memory , i Neural Computation , vol. 9, nei. 8, 1997, s. 1735-1780, DOI : 10.1162 / neco. 1997.9.8.1735 , PMID 9377276 .
^ Cristopher Olah, Understanding LSTM networks , på colah.github.io .
^ Graves, Alex; og Schmidhuber, Jürgen; Frakoblet håndskriftgjenkjenning med flerdimensjonale tilbakevendende nevrale nettverk , i Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris KI; og Culotta, Aron (red.), Advances in Neural Information Processing Systems 22 (NIPS'22), 7. – 10. desember 2009, Vancouver, BC , Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552
^ A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke og J. Schmidhuber, A Novel Connectionist System for Improved Unconstrained Handwriting Recognition , i IEEE Transactions on Pattern Analysis and Machine Intelligence , vol. 31, n. 5, 2009, s. 855-868, DOI : 10.1109 / tpami . 2008.137 .
^ Kaiming He, Xiangyu Zhang, Shaoqing Ren og Jian Sun, Deep Residual Learning for Image Recognition , i arXiv: 1512.03385 [cs] , 10. desember 2015.
^ Andreas Veit, Michael Wilber og Serge Belongie, Residual Networks Behave Like Ensembles of Relatively Shallow Networks , 20. mai 2016.