Flytende kommanummer

Begrepet flyttall i numerisk analyse indikerer den omtrentlige representasjonsmetoden for reelle tall og databehandling som brukes av prosessorer for å utføre matematiske operasjoner .

Den står i kontrast til heltallsaritmetikk og fastpunktsaritmetikk . I informatikk brukes det vanligvis i base 2, og i dette tilfellet kan det betraktes som den binære analogen til vitenskapelig notasjon i base 10.

Bruken av flytende komma-aritmetiske operasjoner er i dag den mest utbredte metoden for å håndtere reelle tall og deres rasjonelle tilnærming i dataminne .

Beskrivelse

Et flyttall består i sin enkleste form av to deler:

en feltbetydning eller mantisse M ;
et eksponentfelt e .

I noen tilfeller, for eksempel i IEEE 754 -standarden , er det et tilleggsfelt: tegnet s; men dette vil bli behandlet spesifikt i det aktuelle punktet.

Et generisk reelt tall a kan dermed representeres som (den aritmetiske betydningen av feltene er angitt med store bokstaver):

\ operatørnavn {a} = \ operatørnavn {M} \ ganger \ operatørnavn {b} ^ {E}

Denne skrivemetoden lar deg representere et veldig stort numerisk sett innenfor et visst antall sifre, noe som fikspunktet ikke tillater. Et tall er karakterisert ved verdien b , som danner grunnlaget for notasjonen som tallet er skrevet i, og mengden p av sifre som er tilstede i mantissen, kalt presisjon . Mantissen til et tall skrevet med denne metoden presenteres derfor i formen ± d.ddd ... ddd (en mengde p av sifrene d mellom 0 og b -1). Hvis det første sifferet i mantissen ikke er null, sies representasjonen å være normalisert . (Hvis s -feltet brukes , må mantissen være positiv, og denne biten bestemmer fortegnet).

Settet med flyttall inkluderer verdiene + ∞, −∞ (pluss eller minus uendelig) og Nan (ikke et tall, brukt til å definere resultatene av umulige eller ugyldige operasjoner).

I C-språket kommer flytende kommarepresentasjonen av et flyte- eller dobbeltrasjonelt tall fra den vitenskapelige representasjonen. I den vitenskapelige representasjonen produseres et tall i to deler: den andre, kalt skalafaktoren , er en potens av 10, den andre delen, kalt brøkdelen , er et tall som, multiplisert med skalafaktoren, returnerer tallet som han ønsker å representere. Det er derfor ulike måter å representere samme tall på, for eksempel:

0,07824 × 10 5
0,7824 × 10 4
7824 × 10 3
78 240 × 10 −1

de fire notasjonene er likeverdige.

Imidlertid brukes den normaliserte representasjonen : i den er det pålagt at brøkdelen alltid er mindre enn 1 og det mest signifikante sifferet alltid er forskjellig fra 0. Derfor, i eksemplet vurdert ovenfor, er den riktige notasjonen bare den andre:

0,7824 × 10 4

Flyttalsrepresentasjonen er derfor den vitenskapelige representasjonen normalisert med bruk av det binære systemet; derfor er skalafaktoren en potens av 2. Brøkdelen kalles mantisse mens eksponenten av potensen av to kalles eksponent . Det rasjonelle tallet er derfor representert som følger:

$MANTISSA \ ganger 2 ^ {{EXPONENT}}$

hvor mantisse og eksponent kan ha et + eller - tegn.

Flytepunktsaritmetiske egenskaper

Denne aritmetikken har to grunnleggende forskjeller fra ekte aritmetikk:

flytepunktaritmetikk er ikke assosiativ : generelt, for flyttall,

(x + y) + z \ neq x + (y + z)

(x \ cdot y) \ cdot z \ neq x \ cdot (y \ cdot z)

flytepunktaritmetikk er ikke distributiv : generelt sett,

x \ cdot (y + z) \ neq (x \ cdot y) + (x \ cdot z)

det er det nøytrale multiplikasjonselementet, det nøytrale addisjonselementet og det motsatte, men de er ikke unike.

Til syvende og sist kan rekkefølgen som flere flyttallsoperasjoner utføres i, variere resultatet. Dette er viktig for numerisk analyse, da to matematisk ekvivalente formler kan gi forskjellige resultater, den ene til og med betydelig mer nøyaktig enn den andre. For eksempel, i de fleste flyttallapplikasjoner, gir 1,0 + (10 100 + −10 100 ) 1,0, mens (1,0 + 10 100 ) + −10 100 gir 0,0.

Problemer med bruk av flyttall

Generelt oppfører denne typen tall seg veldig likt reelle tall. Dette fører imidlertid ofte til at programmerere ikke vurderer viktigheten av en tilstrekkelig numerisk analyse av de oppnådde resultatene. Det er mange inkonsistenser mellom oppførselen til base 2-flyttall, brukt i informatikk, og oppførselen til reelle tall, selv i veldig enkle tilfeller (for eksempel brøken 0,1 som ikke kan representeres nøyaktig av noe binært flyttallssystem) . Av denne grunn brukes for eksempel ikke formatet i det økonomiske feltet.

Hovedårsakene til flytende kommaberegningsfeil er:

avrunding
- ikke-representerbare tall (for eksempel 0,1);
- avrunding av aritmetiske operasjoner (f.eks.: 2/3 = 0,666667);
absorpsjon (f.eks.:1 × 10 15 + 1 =1 x 1015 ) ;
kansellering (f.eks: subtraksjon av to svært nære tall);
overløp (med uendelig resultatsignalering);
underflyt (resultater i 0, et subnormalt tall eller det minste representable antallet);
umulige operasjoner (f.eks.: kvadratroten av et negativt tall resulterer i NaN );
avrundingsfeil: i motsetning til det faste punktet, er bruk av rystelse på flytepunktet nesten umulig.

Flytepunkt fremstår som mer passende når det kreves en viss presisjon om verdien. Når absolutt presisjon kreves, virker det faste punktet et bedre valg.

Når det gjelder presisjonsfeilen som forårsaker bruken av flyttallen, merker vi først og fremst at hvis x er det representerte tallet, dvs.

{\ mathrm {fl}} (x) = \ operatørnavn {sgn} (x) (0.a_ {1} a_ {2} ... a_ {n}) b ^ {p}

da vil du ha

b ^ {{p-1}} \ leq \ venstre | x \ høyre | <b ^ {p}

og derfor, hvis x er verdien som skal representeres og den relative verdien i flyttallsnotasjon med en mantisse av sifre, vil den absolutte feilen være: ${\ mathrm {fl}} (x)$ $t$

\ venstre | x - {\ mathrm {fl}} (x) \ høyre | \ leq b ^ {{- t}} b ^ {p} = b ^ {{pt}}

som det er intuitivt å tenke, mens i stedet den relative feilen, som tar hensyn til størrelsen på det aktuelle tallet, vil være:

{\ frac {\ venstre | x - {\ mathrm {fl}} (x) \ høyre |} {\ venstre | x \ høyre |}} \ leq b ^ {{1-t}}

denne siste økningen oppnås lett fra den absolutte feilformelen: faktisk siden da og derfor: $| x | \ geq b ^ {{p-1}}$ ${\ frac {1} {| x |}} \ leq b ^ {{1-p}}$

b ^ {{pt}} \, b ^ {{1-p}} = b ^ {{1-t}}

Spesielt er den relative feilen, selv om den er variabel, alltid under den funnet verdien: sistnevnte er ikke avhengig av tallet som er representert (faktisk er den ikke avhengig av , i motsetning til den absolutte feilen) og av denne grunn kalles den også maskin presisjon. $s$

Bibliografi

Davide Manca, Applied numerical calculus , Bologna, Pitagora Editrice, 2007, ISBN 88-371-1697-7 .

Relaterte elementer

Eksterne lenker

( EN ) Flytende kommanummer , i Encyclopedia Britannica , Encyclopædia Britannica, Inc.