HYPERGEOMETRISK FORDELING: FORMLER, LIGNINGER, MODELL - DUDAS

Den hypergeometriske fordelingen er en diskret statistisk funksjon, egnet for å beregne sannsynligheten i randomiserte eksperimenter med to mulige utfall. Betingelsen som kreves for å anvende den, er at de er små bestander, der uttakene ikke erstattes og sannsynlighetene ikke er konstante.

Derfor, når et element i befolkningen blir valgt for å kjenne resultatet (sant eller usant) av en viss karakteristikk, kan ikke det samme elementet velges igjen.

Figur 1. I en boltpopulasjon som denne er det sikkert mangelfulle prøver. Kilde: Pixabay.

Det er sikkert at det neste elementet som velges er mer sannsynlig å oppnå et sant resultat, hvis det forrige elementet hadde et negativt resultat. Dette betyr at sannsynligheten varierer ettersom elementer trekkes ut fra prøven.

De viktigste bruksområdene for den hypergeometriske fordelingen er: kvalitetskontroll i prosesser med liten befolkning og beregning av sannsynligheter i sjansespill.

Når det gjelder den matematiske funksjonen som definerer den hypergeometriske fordelingen, består den av tre parametere, som er:

- Antall befolkningselementer (N)

- Prøvestørrelse (m)

- Antall hendelser i hele befolkningen med et gunstig (eller ugunstig) resultat av den undersøkte egenskapen (n).

Formler og ligninger

Formelen for den hypergeometriske fordelingen gir sannsynligheten P for at x gunstige tilfeller av en viss karakteristikk forekommer. Måten å skrive det matematisk på, basert på kombinasjonsnumrene er:

I forrige uttrykk er N, n og m parametere og x er selve variabelen.

- Total befolkning er N.

Antall positive resultater av en viss binær karakteristikk med hensyn til den totale befolkningen er n.

- Mengden av elementer i prøven er m.

I dette tilfellet er X en tilfeldig variabel som tar verdien x og P (x) indikerer sannsynligheten for forekomst av x gunstige tilfeller av karakteristikken som er studert.

Viktige statistiske variabler

Andre statistiske variabler for den hypergeometriske fordelingen er:

- Gjennomsnitt μ = m * n / N

- Varianse σ ^ 2 = m * (n / N) * (1-n / N) * (Nm) / (N-1)

- Standardavvik σ som er kvadratroten til variansen.

Modell og egenskaper

For å komme frem til modellen for den hypergeometriske fordelingen, tar vi utgangspunkt i sannsynligheten for å oppnå x gunstige tilfeller i en prøve av størrelse m. Denne prøven inneholder elementer som er i samsvar med eiendommen som undersøkes, og elementer som ikke gjør det.

Husk at n representerer antall gunstige tilfeller i den totale populasjonen av N-elementer. Da vil sannsynligheten beregnes slik:

Ved å uttrykke det ovennevnte i form av kombinatoriske tall, oppnås følgende sannsynlighetsfordelingsmodell:

Hovedegenskaper ved den hypergeometriske fordelingen

De er som følger:

- Utvalget må alltid være lite, selv om befolkningen er stor.

- Elementene i prøven blir trukket ut en etter en uten å innlemme dem tilbake i populasjonen.

- Egenskapen som skal studeres er binær, det vil si at den bare kan ta to verdier: 1 eller 0, eller sann eller usann.

I hvert elementuttrekkstrinn endres sannsynligheten avhengig av de tidligere resultatene.

Tilnærming ved bruk av binomialfordelingen

En annen egenskap ved den hypergeometriske fordelingen er at den kan tilnærmes med binomialfordelingen, betegnet Bi, så lenge populasjonen N er stor og minst 10 ganger større enn prøven m. I dette tilfellet ser det slik ut:

Sannsynligheten for at x = 3 skruer i prøven er mangelfulle er: P (500, 5, 60, 3) = 0.0129.

På sin side er sannsynligheten for at x = 4 skruer fra seksti av prøven er defekt: P (500, 5, 60; 4) = 0,0008.

Til slutt er sannsynligheten for at x = 5 skruer i den prøven er defekt: P (500, 5, 60; 5) = 0.

Men hvis du vil vite sannsynligheten for at det i den prøven er mer enn tre defekte skruer, må du oppnå den kumulative sannsynligheten, og legge til:

Dette eksemplet er illustrert i figur 2, oppnådd ved å bruke GeoGebra, en gratis programvare som er mye brukt på skoler, institutter og universiteter.

Figur 2. Eksempel på hypergeometrisk distribusjon. Utarbeidet av F. Zapata med GeoGebra.

Eksempel 2

Et spansk kortstokk har 40 kort, hvorav 10 har gull og de resterende 30 ikke. Anta at 7 kort blir trukket tilfeldig fra kortstokken, som ikke blir reinkorporert i kortstokken.

Hvis X er antallet gull som er til stede i de 7 kortene som trekkes, blir sannsynligheten for at det vil være x gull i en 7-korts trekning gitt ved den hypergeometriske fordelingen P (40,10,7; x).

La oss se dette slik: For å beregne sannsynligheten for å ha 4 gull i en trekort med 7 kort bruker vi formelen for den hypergeometriske fordelingen med følgende verdier:

Og resultatet er: 4,57% sannsynlighet.

Men hvis du vil vite sannsynligheten for å få mer enn 4 kort, må du legge til:

Løste øvelser

Følgende sett med øvelser er ment å illustrere og assimilere konseptene som er presentert i denne artikkelen. Det er viktig at leseren prøver å løse dem på egen hånd, før han ser på løsningen.

Oppgave 1

En kondomfabrikk har funnet ut at av hver 1000 kondomer produsert av en bestemt maskin, er 5 mangelfulle. For kvalitetskontroll tas 100 kondomer tilfeldig og partiet avvises hvis det er minst en eller flere mangelfulle. Svar:

a) Hva er muligheten for at mange 100 blir kastet?

b) Er dette kvalitetskontrollkriteriet effektivt?

Løsning

I dette tilfellet vil veldig store kombinatoriske tall vises. Beregningen er vanskelig, med mindre du har en passende programvarepakke.

Men siden det er en stor populasjon og utvalget er ti ganger mindre enn den totale populasjonen, er det mulig å bruke tilnærmingen av den hypergeometriske fordelingen ved binomialfordeling:

I ovennevnte uttrykk er C (100, x) et kombinatorisk tall. Da vil sannsynligheten for å ha mer enn en defekt beregnes slik:

Det er en utmerket tilnærming, sammenlignet med verdien oppnådd ved å anvende den hypergeometriske fordelingen: 0,4102

Det kan sies at med 40% sannsynlighet, bør en gruppe med 100 profylaktiske stoffer kasseres, noe som ikke er veldig effektivt.

Men når du er litt mindre krevende i kvalitetskontrollprosessen og kasserer partiet på 100 bare hvis det er to eller flere mangler, vil sannsynligheten for å kaste partiet falle til bare 8%.

Oppgave 2

En plastblokkmaskin fungerer på en slik måte at en av hver tiende del kommer ut deformert. I en prøve på 5 stykker, hvor sannsynlig er det at bare en brikke er mangelfull?

Løsning

Befolkning: N = 10

Antall n mangler for hvert N: n = 1

Prøvestørrelse: m = 5

Derfor er det 50% sannsynlighet for at i en prøve på 5 vil en blokk bli deformert.

Oppgave 3

I et møte med unge kandidater på videregående skole er det 7 damer og 6 herrer. Blant jentene studerer 4 humaniora og 3 vitenskap. I guttegruppen studerer 1 humaniora og 5 vitenskap. Beregn følgende:

a) Valg av tre jenter tilfeldig: hvor sannsynlig er det at de alle studerer humaniora?

b) Hvis tre deltakere til vennemøtet blir valgt tilfeldig: Hva er muligheten for at tre av dem, uavhengig av kjønn, studerer vitenskap alle tre, eller humaniora også alle tre?

c) Velg nå to venner tilfeldig og kaller x den tilfeldige variabelen "antall av dem som studerer humaniora". Bestem middelverdien eller forventet verdi av x og variansen σ ^ 2 mellom de to valgte.

Løsning på

Verdiene som skal brukes nå er:

-Folkning: N = 14

-Kvalitet som studerer bokstaver er: n = 6 og

-Størrelse på prøven: m = 3.

- Antall venner som studerer humaniora: x

I følge dette betyr x = 3 at alle tre studerer humaniora, men x = 0 betyr at ingen studerer humaniora. Sannsynligheten for at alle tre studerer det samme er gitt med summen:

P (14, 6, 3, x = 0) + P (14, 6, 3, x = 3) = 0,0560 + 0,1539 = 0,2099

Da har vi 21% sannsynlighet for at tre møtedeltakere, valgt tilfeldig, skal studere det samme.

Løsning c

Her har vi følgende verdier:

N = 14 total populasjon av venner, n = 6 totalt antall i befolkningen som studerer humaniora, utvalgets størrelse er m = 2.

Håpet er:

E (x) = m * (n / N) = 2 * (6/14) = 0,8572

Og variansen:

σ (x) ^ 2 = m * (n / N) * (1-n / N) * (Nm) / (N-1) = 2 * (6/14) * (1-6 / 14) * ( 14-2) / (14-1) =

= 2 * (6/14) * (1-6 / 14) * (14-2) / (14-1) = 2 * (3/7) * (1-3 / 7) * (12) / ( 13) = 0,4521

referanser

Diskrete sannsynlighetsfordelinger. Gjenopprettet fra: biplot.usal.es
Statistikk og sannsynlighet. Hypergeometrisk distribusjon. Gjenopprettet fra: projectdescartes.org
CDPYE-UGR. Hypergeometrisk distribusjon. Gjenopprettet fra: ugr.es
Geogebra. Klassisk geogebra, sannsynlighetsregning. Gjenopprettet fra geogebra.org
Prøv enkelt. Løst problemer med hypergeometrisk distribusjon. Gjenopprettet fra: probafacil.com
Minitab. Hypergeometrisk distribusjon. Gjenopprettet fra: support.minitab.com
University of Vigo. Hoved diskrete fordelinger. Gjenopprettet fra: anapg.webs.uvigo.es
Vitutor. Statistikk og kombinatorikk. Gjenopprettet fra: vitutor.net
Weisstein, Eric W. Hypergeometrisk distribusjon. Gjenopprettet fra: mathworld.wolfram.com
Wikipedia. Hypergeometrisk distribusjon. Gjenopprettet fra: es.wikipedia.com

HYPERGEOMETRISK FORDELING: FORMLER, LIGNINGER, MODELL - DUDAS - 2026

Formler og ligninger

Viktige statistiske variabler

Modell og egenskaper

Hovedegenskaper ved den hypergeometriske fordelingen

Tilnærming ved bruk av binomialfordelingen

Eksempel 2

Løste øvelser

Oppgave 1

Løsning

Oppgave 2

Løsning

Oppgave 3

Løsning på

Løsning c

referanser

Redaktørens valg