Delta regel

Delta - regelen er en gradientnedstigningsregel for å oppdatere vektene til inngangssignalene som ankommer en perceptron . [1] Dette er et spesielt tilfelle av den mer generelle tilbakeforplantningsalgoritmen .

Uttalelse

For et nevron med en aktiverende funksjon er deltaregelen for den -te vekten gitt av $j$ ${\ displaystyle g (x)}$ $de$ ${\ displaystyle w_ {ji}}$

{\ displaystyle \ Delta w_ {ji} = \ alpha (t_ {j} -y_ {j}) g '(h_ {j}) x_ {i}}

hvor er det

	$\ alfa$ er en liten konstant som kalles læringshastighet
	${\ displaystyle g (x)}$ er den aktiverende funksjonen til nevronet og dets derivater ${\ displaystyle g '}$
	${\ displaystyle t_ {j}}$ er ønsket utgang
	${\ displaystyle h_ {j}}$ er den vektede summen av inngangene til nevronet
	${\ displaystyle y_ {j}}$ er den sanne utgangen
	${\ displaystyle x_ {i}}$ er den -te inngangen. $de$

Følgende er gyldige: og . ${\ displaystyle h_ {j} = \ sum x_ {i} w_ {ji}}$ ${\ displaystyle y_ {j} = g (h_ {j})}$

Delta-regelen er ofte forenklet hvis aktiveringsfunksjonen er lineær som f.eks

{\ displaystyle \ Delta w_ {ji} = \ alpha (t_ {j} -y_ {j}) x_ {i}}

mens deltaregelen ligner på perseptoroppdateringsregelen , er hvordan vi utleder regelen annerledes. Oppfatteren bruker Heavisides trinnfunksjon som en aktiveringsfunksjon , som betyr at den ikke eksisterer i null, og at den er lik null andre steder, noe som gjør direkte anvendelse av regelen umulig. ${\ displaystyle g (h)}$ ${\ displaystyle g '(h)}$

Utledning av deltaregelen

Delta-regelen oppnås med utgangspunkt i minimeringen av feilen på utgangen fra det nevrale nettverket gjennom nedstigningen av gradienten . Feilen for et utgangsnevralt nettverk kan måles som $j$

{\ displaystyle E = \ sum _ {j} {\ frac {1} {2}} (t_ {j} -y_ {j}) ^ {2}}

I dette tilfellet er det nødvendig å bevege seg i "vektrommet" til nevronet (rommet til alle verdiene som vektene kan anta) i forhold til gradienten til feilfunksjonen med hensyn til hver vekt. For å gjøre dette beregnes den partielle deriverte av feilen med hensyn til hver vekt. For den -te vekten er den deriverte $de$

{\ displaystyle {\ frac {\ delvis E} {\ delvis w_ {ji}}} = {\ frac {\ delvis \ venstre ({\ frac {1} {2}} \ venstre (t_ {j} -y_ { j} \ høyre) ^ {2} \ høyre)} {\ delvis w_ {ji}}}}

hvor summeringen er utelatt siden derivatet er i forhold til det -th nevronet. $j$

Beregningen fortsetter med anvendelsen av kjederegelen :

{\ displaystyle = {\ frac {\ delvis \ venstre ({\ frac {1} {2}} \ venstre (t_ {j} -y_ {j} \ høyre) ^ {2} \ høyre)} {\ delvis y_ {j}}} {\ frac {\ delvis y_ {j}} {\ delvis w_ {ji}}} = - \ venstre (t_ {j} -y_ {j} \ høyre) {\ frac {\ delvis y_ { j}} {\ delvis w_ {ji}}}}

mens den gjenværende deriverte fortsatt beregnes med kjederegelen, men avledes med hensyn til hele inngangen til , det vil si : $j$ ${\ displaystyle h_ {j}}$

{\ displaystyle = - \ venstre (t_ {j} -y_ {j} \ høyre) {\ frac {\ delvis y_ {j}} {\ delvis h_ {j}}} {\ frac {\ delvis h_ {j} } {\ delvis w_ {ji}}}}

Legg merke til at utgangen fra det -te nevronet,, ganske enkelt er aktiveringsfunksjonen til nevronet som brukes på inngangen . Vi kan derfor skrive den deriverte av respekt til ganske enkelt som den første deriverte av : $j$ ${\ displaystyle y_ {j}}$ $g$ ${\ displaystyle h_ {j}}$ ${\ displaystyle y_ {j}}$ ${\ displaystyle h_ {j}}$ $g$

{\ displaystyle = - \ venstre (t_ {j} -y_ {j} \ høyre) g '(h_ {j}) {\ frac {\ delvis h_ {j}} {\ delvis w_ {ji}}}}

På dette tidspunktet skrives det om i siste ledd som summen over alle vektene til hver vekt multiplisert med deres tilsvarende inndata : ${\ displaystyle h_ {j}}$ $k$ ${\ displaystyle w_ {jk}}$ ${\ displaystyle x_ {k}}$

{\ displaystyle = - \ venstre (t_ {j} -y_ {j} \ høyre) g '(h_ {j}) {\ frac {\ delvis \ venstre (\ sum _ {i} x_ {i} w_ {ji } \ høyre)} {\ delvis w_ {ji}}}}

Siden bare den -te vekten er av interesse, er det eneste leddet i summeringen som er relevant . Helt klart, $de$ ${\ displaystyle x_ {i} w_ {ji}}$

{\ displaystyle {\ frac {\ delvis x_ {i} w_ {ji}} {\ delvis w_ {ji}}} = x_ {i}}

som fører til den endelige ligningen for gradienten:

{\ displaystyle {\ frac {\ delvis E} {\ delvis w_ {ji}}} = - \ venstre (t_ {j} -y_ {j} \ høyre) g '(h_ {j}) x_ {i}}

Som fremhevet ovenfor, sier nedstigningen av gradienten at variasjonen til hver vekt må være proporsjonal med gradienten Valget av en proporsjonalitetskonstant og eliminering av minustegnet (siden vi ser etter retningen som reduserer gradienten), la oss komme frem til den søkte ligningen: $\ alfa$

{\ displaystyle \ Delta w_ {ji} = \ alpha (t_ {j} -y_ {j}) g '(h_ {j}) x_ {i}}

Merknader

^ The Delta Rule , på uhavax.hartford.edu (arkivert fra originalen 4. mars 2016) .

Bibliografi

Tom Mitchell, Machine Learning , McGraw Hill, 1997.
Ben Krose, Patrick van der Smagt, En introduksjon til nevrale nettverk , Universitetet i Amsterdam

Delta regel

Uttalelse

Utledning av deltaregelen

Merknader

Bibliografi

Relaterte elementer