- Betydningen av homoscedasticity
- Homoscedasticity versus heteroscedasticity
- Homoscedasticitetstester
- Standardiserte variabler
- Ikke-grafiske tester av homoscedasticitet
- referanser
Den homoscedasticity i en prediktiv statistisk modell inntreffer hvis alle datagrupper til en eller flere observasjoner, variansen (eller uavhengig) mønster med hensyn til de forklarende variabler holdes konstant.
En regresjonsmodell kan være homoscedastisk eller ikke, i så fall snakker vi om heteroscedastisitet.
Figur 1. Fem datasett og regresjonspasning for settet. Avviket med hensyn til den forutsagte verdien er den samme i hver gruppe. (Upav-biblioteca.org)
En statistisk regresjonsmodell av flere uavhengige variabler kalles homoscedastic, bare hvis variansen av feilen til den forutsagte variabelen (eller standardavviket til den avhengige variabelen) forblir ensartet for forskjellige grupper av verdier av de forklarende eller uavhengige variablene.
I de fem datagruppene i figur 1 er variansen i hver gruppe beregnet, med hensyn til verdien estimert av regresjonen, og viser seg å være den samme i hver gruppe. Det antas videre at dataene følger normalfordeling.
På det grafiske nivået betyr det at punktene er like spredt eller spredt rundt verdien som er forutsagt av regresjonspassningen, og at regresjonsmodellen har samme feil og gyldighet for området til den forklarende variabelen.
Betydningen av homoscedasticity
For å illustrere viktigheten av homoscedastisitet i prediktiv statistikk, er det nødvendig å kontrastere med det motsatte fenomenet, heteroscedasticitet.
Homoscedasticity versus heteroscedasticity
Når det gjelder figur 1, der det er homoskedastisitet, er det riktig at:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
Der Var ((yi-Yi); Xi) representerer variansen, representerer paret (xi, yi) data fra gruppe i, mens Yi er verdien som er forutsagt av regresjonen for middelverdien Xi for gruppen. Variansen av n-dataene fra gruppe i beregnes som følger:
Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
Tvert imot, når heteroskedastisitet oppstår, er det mulig at regresjonsmodellen ikke er gyldig for hele regionen der den ble beregnet. Figur 2 viser et eksempel på denne situasjonen.
Figur 2. Gruppe av data som viser heteroscedasticitet. (Egen utdyping)
Figur 2 representerer tre datagrupper og passformen til settet ved bruk av en lineær regresjon. Det skal bemerkes at dataene i den andre og tredje gruppen er mer spredt enn i den første gruppen. Grafen i figur 2 viser også middelverdien for hver gruppe og dens feilbjelke ± σ, med σ standardavviket for hver datagruppe. Det må huskes at standardavviket σ er kvadratroten til variansen.
Det er klart at i tilfelle av heteroscedasticitet, endres regresjonsestimeringsfeilen i verdiene i den forklarende eller uavhengige variabelen, og i intervallene der denne feilen er veldig stor, er regresjonsforutsigelsen upålitelig eller ikke aktuelt.
I en regresjonsmodell må feilene eller restene (og -Y) fordeles med lik varians (σ ^ 2) gjennom intervallet av verdier for den uavhengige variabelen. Det er av denne grunn at en god regresjonsmodell (lineær eller ikke-lineær) må bestå homoscedasticitetstesten.
Homoscedasticitetstester
Punktene vist i figur 3 tilsvarer dataene fra en studie som ser etter et forhold mellom prisene (i dollar) på husene som en funksjon av størrelsen eller området i kvadratmeter.
Den første modellen som ble testet er en lineær regresjon. Først og fremst bemerkes at bestemmelseskoeffisienten R ^ 2 for passformen er ganske høy (91%), så det kan tenkes at passformen er tilfredsstillende.
To regioner kan imidlertid tydelig skilles fra justeringsgrafen. En av dem, den til høyre omsluttet av en oval, oppfyller homoscedasticitet, mens regionen til venstre ikke har homoscedasticity.
Dette betyr at prediksjonen av regresjonsmodellen er tilstrekkelig og pålitelig i området fra 1800 m ^ 2 til 4800 m ^ 2, men svært utilstrekkelig utenfor denne regionen. I den heteroscedastiske sonen er ikke bare feilen veldig stor, men også dataene ser ut til å følge en annen trend enn den som er foreslått av den lineære regresjonsmodellen.
Figur 3. Boligpriser mot område og prediktiv modell etter lineær regresjon, som viser homoskedastisitet og heteroskedastisitetssoner. (Egen utdyping)
Spredningsgrafen for dataene er den enkleste og mest visuelle testen av deres homoscedastisitet, men i tilfeller der det ikke er så tydelig som i eksemplet vist i figur 3, er det nødvendig å ty til grafer med hjelpevariabler.
Standardiserte variabler
For å skille områdene der homoscedasticitet oppfylles og hvor det ikke er, introduseres de standardiserte variablene ZRes og ZPred:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
Det skal bemerkes at disse variablene avhenger av den anvendte regresjonsmodellen, siden Y er verdien av regresjonsprediksjonen. Nedenfor er scatter-plottet ZRes vs ZPred for samme eksempel:
Figur 4. Det skal bemerkes at i homoscedasticitetssonen forblir ZRes enhetlige og små i prediksjonsregionen (Egen utdypning).
I grafen i figur 4 med de standardiserte variablene er området der restfeilen er liten og ensartet skilt klart fra området der det ikke er. I den første sonen blir homoscedasticitet oppfylt, mens i regionen der restfeilen er svært varierende og stor, opprettholdes heteroscedasticitet.
Regresjonsjustering brukes på den samme gruppen av data i figur 3, i dette tilfellet er justeringen ikke-lineær, siden modellen som brukes innebærer en potensiell funksjon. Resultatet er vist i følgende figur:
Figur 5. Nye soner med homoscedasticitet og heteroscedasticitet i datatilpasning med en ikke-lineær regresjonsmodell. (Egen utdyping).
I grafen på figur 5 skal de homoskedastiske og heteroskedastiske områdene tydelig vises. Det skal også bemerkes at disse sonene ble ombyttet med hensyn til de som ble dannet i den lineære passformmodellen.
I grafen i figur 5 er det tydelig at selv når det er en ganske høy bestemmelseskoeffisient for passformen (93,5%), er modellen ikke tilstrekkelig for hele intervallet til den forklarende variabelen, siden dataene for verdiene større enn 2000 m ^ 2 til stede heteroscedasticitet.
Ikke-grafiske tester av homoscedasticitet
Breusch-Pagan-testen er en av de ikke-grafiske testene som er mest brukt for å verifisere om homoscedasticitet er oppfylt eller ikke.
Ikke alle detaljene i denne testen vil bli gitt i denne artikkelen, men dens grunnleggende egenskaper og trinnene til den er grovt skissert:
- Regresjonsmodellen brukes på n-dataene og variansen av de samme blir beregnet med hensyn til verdien estimert av modellen σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- En ny variabel er definert ε = ((yj - Y) ^ 2) / (σ ^ 2)
- Den samme regresjonsmodellen brukes på den nye variabelen, og dens nye regresjonsparametre blir beregnet.
- Den kritiske verdien Chi-kvadratet (χ ^ 2) bestemmes, dette er halvparten av summen av kvadratene nye rester i variabelen ε.
- Chi-kvadratfordelingstabellen brukes med tanke på nivået av betydning (vanligvis 5%) og antall frihetsgrader (antall regresjonsvariabler minus enheten) på tabellens x-akse, for å oppnå verdien av styret.
- Den kritiske verdien oppnådd i trinn 3 blir sammenlignet med verdien som er funnet i tabellen (χ ^ 2).
- Hvis den kritiske verdien er under den i tabellen, har vi nullhypotesen: det er homoscedastisitet
- Hvis den kritiske verdien er over tabellen, har vi den alternative hypotesen: det er ingen homoscedastisitet.
De fleste av de statistiske programvarepakkene som: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic og flere andre innlemmer Breusch-Pagan homoscedasticitetstest. En annen test for å bekrefte enhetens varians er Levene-testen.
referanser
- Box, Hunter & Hunter. (1988) Statistikk for forskere. Jeg snudde redaktører.
- Johnston, J (1989). Econometrics metoder, Vicens -Vives redaktører.
- Murillo og González (2000). Econometrics Manual. Universitetet i Las Palmas de Gran Canaria. Gjenopprettet fra: ulpgc.es.
- Wikipedia. Homoscedasticity. Gjenopprettet fra: es.wikipedia.com
- Wikipedia. Homoscedasticity. Gjenopprettet fra: en.wikipedia.com