NORMAL FORDELING: FORMEL, EGENSKAPER, EKSEMPEL, TRENING - MATTE

Den normalfordeling eller Gaussisk fordeling er sannsynlighetsfordelingen i en kontinuerlig variabel, hvor sannsynlighetstetthetsfunksjonen det er beskrevet ved en eksponensiell funksjon av kvadratisk og negative argument, som gir opphav til en klokkeform.

Navnet på normalfordeling kommer fra det faktum at denne distribusjonen er den som gjelder i størst antall situasjoner der en kontinuerlig tilfeldig variabel er involvert i en gitt gruppe eller populasjon.

Figur 1. Normal fordeling N (x; μ, σ) og dens sannsynlighetstetthet f (s; μ, σ). (Egen utdyping)

Eksempler der normalfordeling brukes, er: høyden på menn eller kvinner, variasjoner i mål av en viss fysisk størrelse eller i målbare psykologiske eller sosiologiske trekk som den intellektuelle kvoten eller forbruksvanene til et bestemt produkt.

På den annen side kalles det en Gauss-distribusjon eller Gauss-bjelle, fordi det er dette tyske matematiske geniet som blir kreditert oppdagelsen sin for bruken han ga den for å beskrive den statistiske feilen ved astronomiske målinger tilbake i år 1800.

Det anføres imidlertid at denne statistiske distribusjonen tidligere ble publisert av en annen stor matematiker av fransk opprinnelse, som Abraham de Moivre, tilbake i 1733.

Formel

Normaldistribusjonsfunksjonen i den kontinuerlige variabelen x, med parametrene μ og σ, er betegnet med:

N (x; μ, σ)

og det er eksplisitt skrevet slik:

N (x; μ, σ) = ∫ _-∞ ^x f (s; μ, σ) ds

der f (u; μ, σ) er sannsynlighetstetthetsfunksjonen:

f (s; μ, σ) = (1 / (σ√ (2π)) Exp (- s ² / (2σ ² ))

Konstanten som multipliserer den eksponentielle funksjonen i sannsynlighetstetthetsfunksjonen kalles normaliseringskonstanten, og den er valgt på en slik måte at:

N (+ ∞, μ, σ) = 1

Det forrige uttrykket sikrer at sannsynligheten for at den tilfeldige variabelen x er mellom -∞ og + ∞ er 1, det vil si 100% sannsynlighet.

Parameteren μ er det aritmetiske gjennomsnittet av den kontinuerlige tilfeldige variabelen x og σ standardavviket eller kvadratroten av variansen til den samme variabelen. I tilfelle at μ = 0 og σ = 1, har vi standard normalfordeling eller typisk normalfordeling:

N (x; μ = 0, σ = 1)

Kjennetegn på normalfordelingen

1- Hvis en tilfeldig statistisk variabel følger en normal fordeling av sannsynlighetstettheten f (s; μ, σ), er de fleste av dataene gruppert rundt middelverdien μ og spredt rundt den på en slik måte at litt mer enn ⅔ av dataene er mellom μ - σ og μ + σ.

2- Standardavviket σ er alltid positivt.

3- Formen på tetthetsfunksjonen f ligner på en bjelle, og det er derfor denne funksjonen ofte kalles en gaussisk bjelle eller en gaussisk funksjon.

4- I en Gaussisk fordeling sammenfaller middelverdien, medianen og modus.

5- Bøyningspunktene for sannsynlighetstetthetsfunksjonen er nøyaktig ved μ - σ og μ + σ.

6- Funksjonen f er symmetrisk med hensyn til en akse som går gjennom middelverdien μ og har asymptotisk null for x ⟶ + ∞ og x ⟶ -∞.

7- Jo høyere verdi på σ, desto større er spredning, støy eller avstand til dataene rundt middelverdien. Med andre ord, jo høyere σ er bjelleformen mer åpen. På den annen side indikerer σ liten at terningene er i nærheten av middelverdien og formen på klokken er mer lukket eller spiss.

8- Distribusjonsfunksjonen N (x; μ, σ) indikerer sannsynligheten for at den tilfeldige variabelen er mindre enn eller lik x. For eksempel, i figur 1 (over), er sannsynligheten P for at variabelen x er mindre enn eller lik 1,5, 84% og tilsvarer området under sannsynlighetstetthetsfunksjonen f (x; μ, σ) fra -∞ til x.

Tillitsintervaller

9- Hvis dataene følger en normalfordeling, er 68,26% av disse mellom μ - σ og μ + σ.

10- 95,44% av dataene som følger en normalfordeling er mellom μ - 2σ og μ + 2σ.

11- 99,74% av dataene som følger en normalfordeling er mellom μ - 3σ og μ + 3σ.

12- Hvis en tilfeldig variabel x følger en fordeling N (x; μ, σ), så er variabelen

z = (x - μ) / σ følger standard normalfordeling N (z; 0,1).

Å endre variabelen x til z kalles standardisering eller inntasting og er veldig nyttig når du bruker tabellene til standardfordelingen på dataene som følger en ikke-standard normalfordeling.

Bruksområder for normalfordeling

For å anvende normalfordelingen er det nødvendig å gå gjennom beregningen av integralen av sannsynlighetstettheten, som fra analytisk synspunkt ikke er lett, og det ikke alltid er et dataprogram som tillater dets numeriske beregning. For dette formålet brukes tabellene med normaliserte eller standardiserte verdier, som ikke er noe mer enn normalfordelingen i tilfellet μ = 0 og σ = 1.

Standardisert normalfordelingstabell (del 1/2)

Standardisert normalfordelingstabell (del 2/2)

Det skal bemerkes at disse tabellene ikke inkluderer negative verdier. Imidlertid kan de tilsvarende verdiene oppnås ved å bruke symmetriegenskapene til den Gaussiske sannsynlighetstetthetsfunksjonen. Den løste øvelsen vist nedenfor viser bruken av tabellen i disse tilfellene.

Eksempel

Anta at du har et sett med tilfeldige data x som følger en normalfordeling av gjennomsnitt 10 og standardavvik 2. Du blir bedt om å finne sannsynligheten for at:

a) Den tilfeldige variabelen x er mindre enn eller lik 8.

b) Er mindre enn eller lik 10.

c) At variabelen x er under 12.

d) Sannsynligheten for at en x-verdi er mellom 8 og 12.

Løsning:

a) For å svare på det første spørsmålet må du bare beregne:

N (x; μ, σ)

Med x = 8, μ = 10 og σ = 2. Vi innser at det er et integral som ikke har en analytisk løsning i elementære funksjoner, men løsningen er uttrykt som en funksjon av feilfunksjonen erf (x).

På den annen side er det muligheten for å løse integralen i numerisk form, det er det mange kalkulatorer, regneark og dataprogrammer som GeoGebra gjør. Følgende figur viser den numeriske løsningen som tilsvarer det første tilfellet:

Figur 2. Sannsynlighetstetthet f (x; μ, σ). Det skyggelagte området representerer P (x ≤ 8). (Egen utdyping)

og svaret er at sannsynligheten for at x er under 8 er:

P (x ≤ 8) = N (x = 8; μ = 10, σ = 2) = 0,1587

b) I dette tilfellet prøver vi å finne sannsynligheten for at den tilfeldige variabelen x er under gjennomsnittet, som i dette tilfellet er verdt 10. Svaret krever ingen beregning, siden vi vet at halvparten av dataene er under gjennomsnitt og den andre halvparten over gjennomsnittet. Derfor er svaret:

P (x ≤ 10) = N (x = 10; μ = 10, σ = 2) = 0,5

c) For å svare på dette spørsmålet må vi beregne N (x = 12; μ = 10, σ = 2), som kan gjøres med en kalkulator som har statistiske funksjoner eller gjennom programvare som GeoGebra:

Figur 3. Sannsynlighetstetthet f (x; μ, σ). Det skyggelagte området representerer P (x ≤ 12). (Egen utdyping)

Svaret til del c kan sees i figur 3 og er:

P (x ≤ 12) = N (x = 12; μ = 10, σ = 2) = 0,8413.

d) For å finne sannsynligheten for at den tilfeldige variabelen x er mellom 8 og 12 kan vi bruke resultatene fra delene a og c som følger:

P (8 ≤ x ≤ 12) = P (x ≤ 12) - P (x ≤ 8) = 0,8413 - 0,1587 = 0,66826 = 68,26%.

Trening løst

Gjennomsnittsprisen på et selskaps aksje er $ 25 med et standardavvik på $ 4. Bestem sannsynligheten for at:

a) En handling koster mindre enn $ 20.

b) Det har en kostnad som er større enn $ 30.

c) Prisen er mellom $ 20 og $ 30.

Bruk standard normalfordelingstabellene for å finne svarene.

Løsning:

For å kunne bruke tabellene, er det nødvendig å gå til den normaliserte eller typede z-variabelen:

$ 20 i den normaliserte variabelen er lik z = ($ 20 - $ 25) / $ 4 = -5/4 = -1,25 og

$ 30 i den normaliserte variabelen tilsvarer z = ($ 30 - $ 25) / $ 4 = +5/4 = +1,25.

a) $ 20 tilsvarer -1,25 i den normaliserte variabelen, men tabellen har ikke negative verdier, så vi plasserer verdien +1,25 som gir verdien 0,8944.

Hvis 0,5 trekkes fra denne verdien, vil resultatet være området mellom 0 og 1,25, som forresten er identisk (ved symmetri) til området mellom -1,25 og 0. Resultatet av subtraksjonen er 0,8944 - 0,5 = 0,3944 som er området mellom -1,25 og 0.

Men området fra -∞ til -1,25 er av interesse, som vil være 0,5 - 0,3944 = 0,1056. Det konkluderes derfor med at sannsynligheten for at en aksje er under $ 20 er 10,56%.

b) $ 30 i den typiske variabelen z er 1,25. For denne verdien viser tabellen tallet 0,8944, som tilsvarer området fra -∞ til +1,25. Området mellom +1,25 og + ∞ er (1 - 0,8944) = 0,1056. Med andre ord, sannsynligheten for at en aksje koster mer enn $ 30 er 10,56%.

c) Sannsynligheten for at en handling har en kostnad mellom $ 20 og $ 30 vil bli beregnet som følger:

100% -10,56% - 10,56% = 78,88%

referanser

Statistikk og sannsynlighet. Normal distribusjon. Gjenopprettet fra: projectdescartes.org
Geogebra. Klassisk geogebra, sannsynlighetsregning. Gjenopprettet fra geogebra.org
MathWorks. Gaussisk distribusjon. Gjenopprettet fra: es.mathworks.com
Mendenhall, W. 1981. Statistikk for ledelse og økonomi. Tredje. utgaven. Grupo Redaksjonell Iberoamérica.
Stat Trek. Lær deg statistikk. Poisson Distribusjon. Gjenopprettet fra: stattrek.com,
Triola, M. 2012. Elementær statistikk. 11.. Ed. Pearson Education.
University of Vigo. Hoved kontinuerlige distribusjoner. Gjenopprettet fra: anapg.webs.uvigo.es
Wikipedia. Normal distribusjon. Gjenopprettet fra: es.wikipedia.org

NORMAL FORDELING: FORMEL, EGENSKAPER, EKSEMPEL, TRENING - MATTE - 2026