Objektiv funksjon

I matematisk optimalisering og beslutningsteori er en objektiv funksjon eller kostnadsfunksjon eller til og med tapsfunksjon [ 1] en funksjon som kartlegger en hendelse , eller verdier av en eller flere variabler, på et reelt tall som intuitivt representerer en "kostnad" assosiert med hendelsen. Et optimaliseringsproblem prøver å minimere en kostnadsfunksjon. Mens kostnads- eller tapsfunksjonen indikerer en funksjon som skal minimeres, angir objektivfunksjonen en funksjon som kanskje må maksimeres; da snakker vi omforsterkningsfunksjon , nyttefunksjon , kondisjonsfunksjon , etc ...).

I statistikk brukes en objektiv funksjon (ofte kalt en tapsfunksjon ) vanligvis for å estimere parametere og er en funksjon av forskjellen mellom forventede og faktiske verdier for en dataforekomst. Konseptet, like gammelt som Laplace , ble gjeninnført i statistikken av Abraham Wald på midten av 1900-tallet. [2] I økonomi handler dette for eksempel generelt om kostnader eller anger. I statistisk klassifisering representerer det straffen for feil klassifisering av en data. I aktuarvitenskapen brukes det i en forsikringssammenheng for å modellere ytelsene som betales på premier ; den finnes særlig i verkene til Harald Cramér på 1920-tallet [3] . Ved optimal kontroll er det straffen for manglende oppnåelse av ønsket verdi av kostnadsfunksjonen. I finansiell risikostyring er funksjonen forbundet med et pengetap.

I klassisk statistikk (både frekventist og bayesiansk) brukes en kostnadsfunksjon generelt som en slags underliggende matematisk konvensjon, selv om kritikere som William Edwards Deming og Nassim Nicholas Taleb har hevdet at den objektive funksjonen bør gjenspeile en empirisk gyldig erfaring. brukes til å ta reelle avgjørelser.

Velge en objektivfunksjon

God statistisk praksis krever valg av en estimeringsfunksjon i samsvar med den faktiske variasjonen som oppleves i sammenheng med en bestemt applikasjon. Derfor avhenger i praksis valget av den statistiske metoden som skal brukes for å modellere et anvendt problem av kunnskapen om kostnadene som vil oppstå på grunn av de spesifikke omstendighetene ved problemet [4] .

Et vanlig eksempel er estimering av "posisjon". Under typiske statistiske forutsetninger er gjennomsnittet den statistiske verdien som brukes til å estimere den posisjonen som minimerer feilen med en kvadratisk objektivfunksjon, mens medianen er estimatoren som minimerer feilen med objektivfunksjonen som beregner den absolutte forskjellen. Estimatorer brukes i andre, mindre vanlige forhold.

I økonomi, når en agent er risikoagnostisk, uttrykkes den objektive funksjonen ganske enkelt som den forventede verdien av en pengemengde, for eksempel profitt , inntekt eller formue ved slutten av en periode. For risikovillige (eller risikoelskende) agenter måles tap som negasjonen av en nyttefunksjon og den objektive funksjonen som skal optimaliseres er den forventede nytteverdien.

For de fleste optimaliseringsalgoritmer er det ønskelig å ha en tapsfunksjon som er globalt kontinuerlig og differensierbar .

To svært vanlig brukte objektivfunksjoner er middelkvadratfeilen og avviket , . Imidlertid har avvik (som gjør bruk av en absolutt verdi ) den ulempen at det ikke er differensierbart i . En kvadratisk funksjon har den ulempen at den må domineres av uteliggere , når du gjør summen over et sett med verdier (som i ), har den endelige summen en tendens til å være verdien av noen spesielt store data av , i stedet for uttrykket av gjennomsnittet.

Valget av en objektiv funksjon er ikke vilkårlig og kan noen ganger begrenses av de ønskelige egenskapene som skal utnyttes [5] . Blant prinsippene for valg er for eksempel kravet om fullstendighet av klassen av symmetrisk statistikk ved iid -observasjoner , prinsippet om fullstendig informasjon og andre.

I maskinlæring er den objektive funksjonen sentral i læringsprosessen, da den representerer et mål på hvor mye systemet (typisk et nevralt nettverk ) lærer. Følgelig er valget av den objektive funksjonen strengt knyttet til ytelsen til algoritmene fordi disse er orientert for å oppnå best mulig verdier for funksjonen, og følgelig modifiserer parametrene til systemet (f.eks. vektene til nettverket) for å nærme seg dem.

Middels feil

En veldig enkel verdi for den objektive funksjonen er gitt av målet på inkonsistensen mellom de forventede og observerte verdiene [6] . Dette målet kalles mean error (på engelsk: Mean Bias Error : MBE) og er gitt ved gjennomsnittet av de absolutte feilene :

der de representerer de observerte verdiene kontra de forventede verdiene .

Dette tiltaket er veldig intuitivt og lar deg identifisere både positive og negative avvik . På den annen side kan avvikene oppheve hverandre, noe som innebærer en generell unøyaktighet av MBE.

Gjennomsnittlig absolutt feil

For å overvinne problemet med nullverdier er den gjennomsnittlige absolutte feilen introdusert (på engelsk: Mean Absolute Error : MAE - også kalt Loss L1 ) [7] . Dette er gjennomsnittet av den absolutte verdien av forskjellene mellom prognoser og mål:

Imidlertid har denne funksjonen en mer kompleks gradient å beregne på grunn av diskontinuiteten.

Kvadratisk objektivfunksjon

Bruken av en kvadratisk objektivfunksjon er vanlig (også kalt Tap L2 ), for eksempel ved bruk av minste kvadraters teknikker . Ofte er en kvadratisk funksjon mer matematisk håndterbar på grunn av dens egenskaper på varianser , i tillegg til at den er symmetrisk. På et sett med elementer i er den kvadratiske objektivfunksjonen av formen:

Mange statistiske metoder, inkludert t-test , regresjonsanalyse , eksperimentdesign, etc., bruker minste kvadraters metode brukt ved bruk av lineær regresjonsteori , som er basert på en kvadratisk objektivfunksjon.

Målfunksjon 0-1

I statistikk og beslutningsteori er en ofte brukt objektiv funksjon 0-1 funksjonen:

hvor er indikatorfunksjonen .

Logaritmisk objektivfunksjon

Mye brukt i klassifisering , den logaritmiske objektivfunksjonen, også kalt kryssentropitap eller loggtap , måler ytelsen til en klassifiseringsmodell med utganger mellom 0 og 1:

Forventet kostnad

I noen sammenhenger er verdien av selve kostnadsfunksjonen en tilfeldig størrelse fordi den avhenger av resultatet av en tilfeldig variabel X.

I statistikk

Både frekventistisk og Bayesiansk statistisk teori tar en beslutning basert på forventet verdi av kostnadsfunksjonen; Imidlertid er denne mengden definert forskjellig i de to paradigmene.

Forventet kostnad frekventist

Den oppnås ved å ta forventet verdi med hensyn til sannsynlighetsfordelingen, P θ , av de observerte dataene, X. Denne verdien kalles også risikofunksjonen [8] [9] [10] [11] til en beslutningsregel δ og parameter θ . Her avhenger beslutningsregelen av resultatet av X. Risikofunksjonen er gitt av:

Hvor θ er en tilstand av fast, men potensielt ukjent natur, X er en vektor av observasjoner som er stokastisk trukket fra en gitt populasjon , er forventningen på alle populasjonsverdier av X , er dP θ et sannsynlighetsmål på hendelsesrommet til X (parametrisert med   θ ) og integralet blir evaluert på all støtte for X

Bayesiansk forventet kostnad

I en Bayesiansk tilnærming beregnes forventningen ved å bruke den bakre fordelingen π * av parameteren θ  :

Du bør derfor velge handling a * som minimerer forventet kostnad. Selv om dette innebærer å velge den samme handlingen som å velge å bruke frekventistrisiko, er vektleggingen av den Bayesianske tilnærmingen på den sentrerte interessen for å velge den optimale handlingen basert på faktisk observerte data, mens et mye vanskeligere problem er hvordan man velger den frekventistiske optimale beslutningsregelen. , som er en funksjon av alle mulige observasjoner.

Eksempler i statistikk risikofunksjonen blir middelkvadratfeilen til estimatet, risikofunksjonen blir den gjennomsnittlige integrerte kvadratfeilen

Økonomiske valg i forhold til usikkerhet

I økonomi blir beslutningstaking under usikkerhet ofte modellert ved å bruke von Neumann-Morgenstern-verktøyfunksjonen i den usikre variabelen av interesse. Siden verdien av denne variabelen er usikker, er det også verdien av nyttefunksjonen; det er derfor den forventede verdien av nytten som maksimeres.

Merknader

  1. ^ Oppførings-ID 1570749 , på iate.europa.eu , Interactive Terminology for Europe . Hentet 22. juli 2022 .
  2. ^ A. Wald, Statistical Decision Functions , Wiley, 1950.
  3. ^ H. Cramér, Om den matematiske teorien om risiko , i Centraltryckeriet , 1930.
  4. ^ J. Pfanzagl, Parametric Statistical Theory , Berlin, Walter de Gruyter, 1994, ISBN  978-3-11-013863-4 .
  5. ^ B. Klebanov, Svetlozat T. Rachev og Frank J. Fabozzi, kap. 2 , i Robuste og ikke-robuste modeller i statistikk , New York, Nova Scientific Publishers, Inc., 2009.
  6. ^ Robert Gilmore Pontius , Olufunmilayo Thontteh og Hao Chen, Komponenter av informasjon for sammenligning av flere oppløsninger mellom kart som deler en reell variabel , i Environmental and Ecological Statistics , vol. 15, nei. 2, juni 2008, s. 111–142, DOI : 10.1007 / s10651-007-0043-y . Hentet 22. juli 2019 .
  7. ^ Cj Willmott og K Matsuura, Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) i vurdering av gjennomsnittlig modellytelse , i Climate Research , vol. 30, 2005, s. 79–82, DOI : 10.3354 / cr030079 . Hentet 22. juli 2019 .
  8. ^ ( EN ) Risiko for en statistisk prosedyre , i Encyclopaedia of Mathematics , Springer and European Mathematical Society, 2002.
  9. ^ James O. Berger , Statistical decision theory and Bayesian Analysis , 2. utgave, New York, Springer-Verlag, 1985, ISBN 978-0-387-96098-2 .  
  10. ^ Morris DeGroot , Optimal Statistical Decisions , Wiley Classics Library, 2004 [1970] , ISBN 978-0-471-68029-1 .  
  11. ^ Christian P. Robert, The Bayesian Choice , i Springer Texts in Statistics , 2nd ed., New York, Springer, 2007, DOI : 10.1007 / 0-387-71599-1 , ISBN  978-0-387-95231-4 .

Relaterte elementer