- Uttalelse av problemet i Mann-Whitney U-testen
- Kvalitative variabler kontra kvantitative variabler
- Normal sak
- Sak med ikke-normal trend
- Parvise eller uparede prøver
- Kjennetegn på Mann Whitney U-testen
- Mann - Whitney formel
- Fremgangsmåte for å bruke testen
- Praktisk anvendelseseksempel
- - Trinn 1
- - Steg 2
- Region A
- Region B
- Trinn 3
- Trinn 4
- Sammenligningskriterier
- Online kalkulatorer for Mann - Whitney U testen
- referanser
Den Mann - Whitney U test er brukt for sammenlikning av to uavhengige utvalg når de har lite data eller ikke følger en normalfordeling. På denne måten anses det for å være en ikke-parametrisk test, i motsetning til dens homologe Student's t-test, som brukes når prøven er stor nok og følger normalfordeling.
Frank Wilcoxon foreslo det for første gang i 1945, for prøver av identiske størrelser, men to år senere ble det utvidet til å omfatte prøver av forskjellige størrelser av Henry Mann og DR Whitney.
Figur 1. Mann-Whitney U-testen brukes for sammenligning av uavhengige prøver. Kilde: Pixabay.
Testen brukes ofte for å sjekke om det er en sammenheng mellom en kvalitativ og en kvantitativ variabel.
Et illustrerende eksempel er å ta et sett med hypertensive personer og trekke ut to grupper, fra hvilke daglige blodtrykksdata blir registrert i en måned.
Behandling A brukes til en gruppe og behandling B. En annen her. Blodtrykket er den kvantitative variabelen og behandlingstypen er den kvalitative.
Vi vil vite om medianen, og ikke middelverdien, av de målte verdiene er statistisk den samme eller forskjellig, for å fastslå om det er en forskjell mellom begge behandlingene. For å få svaret, blir Wilcoxon-statistikken eller Mann-Whitney U-testen brukt.
Uttalelse av problemet i Mann-Whitney U-testen
Et annet eksempel der testen kan brukes er følgende:
Anta at du vil vite om forbruket av brus varierer betydelig i to regioner i landet.
En av dem kalles region A og den andre regionen B. Det blir ført oversikt over literene som er konsumert ukentlig i to prøver: en av 10 personer for region A og en annen av 5 personer for region B.
Dataene er som følger:
-Region A : 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
-Region B : 12,14, 11, 30, 10
Følgende spørsmål oppstår:
Kvalitative variabler kontra kvantitative variabler
-Kvalitativ variabel X : Region
-Kvantativ variabel Y : forbruk av brus
Hvis mengden liter som konsumeres er den samme i begge regioner, vil konklusjonen være at det ikke er noen avhengighet mellom de to variablene. Måten å finne ut på er å sammenligne gjennomsnittlig eller median trend for de to regionene.
Normal sak
Hvis dataene følger en normalfordeling, foreslås to hypoteser: null H0 og alternativ H1 gjennom sammenligning mellom midlene:
- H0 : det er ingen forskjell mellom gjennomsnittet for de to regionene.
- H1 : virkemidlene i begge regioner er forskjellige.
Sak med ikke-normal trend
Tvert imot, hvis dataene ikke følger en normal fordeling eller utvalget bare er for lite til å vite det, i stedet for å sammenligne middelverdien, vil medianen til de to regionene sammenlignes.
- H0 : det er ingen forskjell mellom medianen til de to regionene.
- H1 : medianene i begge regioner er forskjellige.
Hvis medianene faller sammen, blir nullhypotesen oppfylt: det er ingen sammenheng mellom forbruk av brus og regionen.
Og hvis det motsatte skjer, er den alternative hypotesen sann: det er en sammenheng mellom forbruk og region.
Det er for disse tilfellene Mann-Whitney U-testen er indikert.
Parvise eller uparede prøver
Det neste viktige spørsmålet når man skal bestemme seg for om man skal bruke Mann Whitney U-testen er om antall data i begge prøvene er identiske, det vil si at de er på nivå.
Hvis de to prøvene er sammenkoblet, vil den originale Wilcoxon-versjonen gjelde. Men hvis ikke, som tilfellet er i eksemplet, blir den modifiserte Wilcoxon-testen brukt, som nettopp er Mann Whitney U-testen.
Kjennetegn på Mann Whitney U-testen
Mann - Whitney U-testen er en ikke-parametrisk test, som kan brukes på prøver som ikke følger normalfordeling eller med lite data. Det har følgende egenskaper:
1.- Sammenlign medianene
2.- Det fungerer på bestilte serier
3.- Det er mindre kraftig, noe som betyr at kraften er sannsynligheten for å avvise nullhypotesen når den faktisk er falsk.
Når man tar hensyn til disse egenskapene, blir Mann - Whitney U-testen brukt når:
-Dataene er uavhengige
-De følger ikke normalfordelingen
-Nullhypotesen H0 aksepteres hvis medianene til de to prøvene sammenfaller: Ma = Mb
-Den alternative hypotesen H1 aksepteres hvis medianene til de to prøvene er forskjellige: Ma ≠ Mb
Mann - Whitney formel
Variabelen U er kontraststatistikken som ble brukt i Mann - Whitney-testen og er definert som følger:
Dette betyr at U er den minste av verdiene mellom Ua og Ub, brukt på hver gruppe. I vårt eksempel vil det være for hver region: A eller B.
Variablene Ua og Ub er definert og beregnet i henhold til følgende formel:
Ua = Na Nb + Na (Na +1) / 2 - Ra
Ub = Na Nb + Nb (Nb +1) / 2 - Rb
Her er Na- og Nb-verdiene størrelsene på prøvene som tilsvarer henholdsvis regionene A og B, og for deres del er Ra og Rb rangeringssummene som vi vil definere nedenfor.
Fremgangsmåte for å bruke testen
1.- Bestill verdiene for de to prøvene.
2.- Tildel en ordrerangering til hver verdi.
3.- Korriger eksisterende bånd i dataene (gjentatte verdier).
4.- Beregn Ra = Summen av rekkene til prøve A.
5.- Finn Rb = Summen av rekkene til prøve B.
6.- Bestem verdien Ua og Ub, i henhold til formlene gitt i forrige avsnitt.
7.- Sammenlign Ua og Ub, og den minste av de to er tilordnet den eksperimentelle U-statistikken (det vil si av dataene) som sammenlignes med den teoretiske eller normale U-statistikken.
Praktisk anvendelseseksempel
Nå bruker vi de nevnte på problemet med brus oppdrettet tidligere:
Region A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
Region B: 12,14, 11, 30, 10
Avhengig av om middelene til begge prøvene er statistisk like eller forskjellige, blir nullhypotesen akseptert eller avvist: det er ingen sammenheng mellom variablene Y og X, det vil si at forbruket av brus ikke avhenger av regionen:
H0: Ma = Mb
H1: Ma ≠ Mb
Figur 2. Forbruksdata for brus i regionene A og B. Kilde: F. Zapata.
- Trinn 1
Vi fortsetter med å bestille dataene i fellesskap for de to prøvene, og bestiller verdiene fra laveste til høyeste:
Legg merke til at verdien 11 vises 2 ganger (en gang i hver prøve). Opprinnelig har den posisjoner eller områder 3 og 4, men for ikke å overvurdere eller undervurdere det ene eller det andre, velges gjennomsnittsverdien som området, det vil si 3,5.
På en lignende måte fortsetter vi med verdien 12, som gjentas tre ganger med områdene 5, 6 og 7.
Verdien 12 er tildelt det gjennomsnittlige området 6 = (5 + 6 + 7) / 3. Og det samme for verdien 14, som har ligatur (vises i begge prøvene) i posisjonene 8 og 9, tildeles det gjennomsnittlige området 8,5 = (8 + 9) / 2.
- Steg 2
Deretter skilles dataene for region A og B igjen, men nå blir de korresponderende områdene tildelt i en annen rad:
Region A
Region B
Områdene Ra og Rb oppnås fra summen av elementene i den andre raden for hvert tilfelle eller område.
Trinn 3
De respektive Ua- og Ub-verdiene beregnes:
Ua = 10 × 5 + 10 (10 + 1) / 2 - 86 = 19
Ub = 10 × 5 + 5 (5 + 1) / 2 -34 = 31
Eksperimentell verdi U = min (19, 31) = 19
Trinn 4
Det antas at den teoretiske U følger en normalfordeling N med parametere utelukkende gitt av størrelsen på prøvene:
N ((na⋅nb) / 2, √)
For å sammenligne variabelen U oppnådd eksperimentelt, med den teoretiske U er det nødvendig å gjøre en endring av variabelen. Vi beveger oss fra den eksperimentelle variabelen U til dens standardiserte verdi, som vil bli kalt Z, for å kunne sammenligne den med en standardisert normalfordeling.
Endringen av variabelen er som følger:
Z = (U - na.nb / 2) / √
Det skal bemerkes at for endring av variabel ble parametrene for den teoretiske fordelingen for U brukt. Da kontrastes den nye variabelen Z, som er en hybrid mellom den teoretiske U og den eksperimentelle U, med en standardisert normalfordeling N (0,1 ).
Sammenligningskriterier
Hvis Z ≤ Zα ⇒, aksepteres nullhypotesen H0
Hvis Z> Zα ⇒ avviser nullhypotesen H0
De standardiserte Za-kritiske verdiene avhenger av det nødvendige nivået av tillit, for eksempel for et konfidensnivå a = 0,95 = 95%, som er den mest vanlige, oppnås den kritiske verdien Za = 1,96.
For dataene som vises her:
Z = (U - na nb / 2) / √ = -0,73
Som er under den kritiske verdien 1,96.
Så den endelige konklusjonen er at nullhypotesen H0 er akseptert:
Online kalkulatorer for Mann - Whitney U testen
Det er spesifikke programmer for statistiske beregninger, inkludert SPSS og MINITAB, men disse programmene blir betalt og bruken av dem er ikke alltid like lett. Dette skyldes det faktum at de gir så mange alternativer at bruken praktisk talt er forbeholdt eksperter i statistikk.
Heldigvis finnes det en rekke veldig nøyaktige, gratis og brukervennlige online programmer som lar deg kjøre Mann-Whitney U-testen, blant andre.
Disse programmene er:
-Social Science Statistics (socscistatistics.com), som har både Mann-Whitney U-testen og Wilcoxon-testen når det gjelder balanserte eller sammenkoblede prøver.
-AI Therapy Statistics (ai-therapy.com), som har flere av de vanlige testene med beskrivende statistikk.
-Statistisk å bruke (physics.csbsju.edu/stats), en av de eldste, så grensesnittet kan se ut datert, selv om det likevel er et veldig effektivt gratis program.
referanser
- Dietrichson. Kvantitative metoder: rangeringstest. Gjenopprettet fra: bookdown.org
- Marín J P. SPSS Guide: Analyse og prosedyrer i ikke-parametriske tester. Gjenopprettet fra: halweb.uc3m.es
- USAL MOOC. Ikke-parametriske tester: Mann-Whitney U. Gjenopprettet fra: youtube.com
- Wikipedia. Mann-Whitney U-test. Gjenopprettet fra: es.wikipedia.com
- XLSTAT. Hjelpesenter. Mann - Whitney testopplæring i Excel. Gjenopprettet fra: help.xlsat.com