- Hvordan beregne bestemmelseskoeffisienten?
- Illustrerende sak
- Tolkning
- eksempler
- - Eksempel 1
- Løsning
- - Eksempel 2
- Løsning
- - Eksempel 3
- Løsning
- Passer sammenligning
- konklusjoner
- referanser
Den koeffisienten er et tall mellom 0 og 1, som representerer den fraksjon av punkter (x, y) som følger regresjonslinjen for tilpasning av et datasett med to variabler.
Det er også kjent som godhet for passform og er betegnet med R 2 . For å beregne det tas kvotienten mellom variansen til dataene estimatedi estimert av regresjonsmodellen og variansen til dataene Yi som tilsvarer hver Xi av dataene.
R 2 = Sŷ / Sy

Figur 1. Korrelasjonskoeffisient for fire datapar. Kilde: F. Zapata.
Hvis 100% av dataene er på linje med regresjonsfunksjonen, vil bestemmelseskoeffisienten være 1.
På den annen side, hvis for et sett av data, og en viss tilpasning funksjon av koeffisienten R 2 viser seg å være lik 0,5, så kan det sies at det passer er 50% tilfredsstillende eller gode.
Tilsvarende, når regresjonsmodellen utbyttene R 2 -verdier lavere enn 0,5, angir dette at den valgte justeringsfunksjonen ikke tilpasse seg tilfredsstillende til dataene, og derfor er det nødvendig å søke etter en annen justeringsfunksjon.
Og når kovariansen eller korrelasjonskoeffisienten tendens til null, da de variable X og Y i de data som er relatert, og derfor R 2 vil også en tendens til null.
Hvordan beregne bestemmelseskoeffisienten?
I forrige avsnitt ble det sagt at bestemmelseskoeffisienten beregnes ved å finne kvoten mellom avvikene:
-Skattet av regresjonsfunksjonen til variabel Y
-Det av variabelen Yi som tilsvarer hver av variabelen Xi til N-dataparene.
Angitt matematisk, ser det slik ut:
R 2 = Sŷ / Sy
Fra dette følger det at formelen R 2 representerer den andel av varians forklart ved regresjonsmodellen. Alternativt kan R 2 beregnes ved å bruke følgende formel, fullstendig ekvivalent med den forrige:
R 2 = 1 - (Sε / Sy)
Hvor Sε representerer variansen til restene εi = Ŷi - Yi, mens Sy er variansen til settet med Yi-verdiene til dataene. For å bestemme Ŷi brukes regresjonsfunksjonen, som betyr å bekrefte at Ŷi = f (Xi).
Variansen i datasettet Yi, med i fra 1 til N, beregnes på denne måten:
Sy =
Og fortsett deretter på lignende måte for Sŷ eller Sε.
Illustrerende sak
For å vise detaljene om hvordan beregningen av bestemmelseskoeffisienten gjøres, vil vi ta følgende sett med fire datapar:
(X, Y): {(1, 1); (2. 3); (3, 6) og (4, 7)}.
En lineær regresjonstilpasning foreslås for dette datasettet, som oppnås ved bruk av metoden med minst kvadrater:
f (x) = 2,1 x - 1
Ved bruk av denne justeringsfunksjonen oppnås dreiemomentene:
(X, Ŷ): {(1, 1.1); (2, 3,2); (3, 5.3) og (4, 7.4)}.
Deretter beregner vi det aritmetiske gjennomsnittet for X og Y:
Varians Sy
Sy = / (4-1) =
= = 5883
Varians Sŷ
Sŷ = / (4-1) =
= = 7,35
Bestemmelseskoeffisient R 2
R 2 = sy / Sy = 7,35 / 7,58 = 0,97
Tolkning
Bestemmelseskoeffisienten for det illustrerende tilfellet vurdert i forrige segment viste seg å være 0,98. Med andre ord, den lineære justeringen gjennom funksjonen:
f (x) = 2,1x - 1
Det er 98% pålitelig når det gjelder å forklare dataene de ble innhentet ved bruk av metoden med minste kvadrat.
I tillegg til bestemmelseskoeffisienten er det den lineære korrelasjonskoeffisienten eller også kjent som Pearsons koeffisient. Denne koeffisienten, betegnet som r, beregnes ved følgende forhold:
r = Sxy / (Sx Sy)
Her representerer telleren samvariansen mellom variablene X og Y, mens nevneren er produktet av standardavviket for variabel X og standardavviket for variabelen Y.
Pearsons koeffisient kan ta verdier mellom -1 og +1. Når denne koeffisienten har en tendens til +1, er det en direkte lineær korrelasjon mellom X og Y. Hvis den pleier å -1 i stedet, er det en lineær korrelasjon, men når X vokser reduseres Y. Endelig er det nær 0, det er ingen sammenheng mellom de to variablene.
Det skal bemerkes at bestemmelseskoeffisienten sammenfaller med kvadratet av Pearson-koeffisienten, bare når den første er beregnet basert på en lineær passform, men denne likheten er ikke gyldig for andre ikke-lineære passninger.
eksempler
- Eksempel 1
En gruppe elever på videregående skole bestemte seg for å bestemme en empirisk lov for perioden med en pendel som en funksjon av dens lengde. For å oppnå dette målet, utfører de en serie målinger der de måler tiden for en pendelsvingning i forskjellige lengder som oppnår følgende verdier:
| Lengde (m) | Periode (r) |
|---|---|
| 0.1 | 0.6 |
| 0.4 | 1,31 |
| 0.7 | 1,78 |
| en | 1,93 |
| 1.3 | 2,19 |
| 1.6 | 2,66 |
| 1.9 | 2,77 |
| 3 | 3,62 |
Det blir bedt om å lage et spredningsdiagram av dataene og utføre en lineær passform gjennom regresjon. Vis også regresjonsligningen og dens bestemmelseskoeffisient.
Løsning

Figur 2. Løsningsgrafikk for øvelse 1. Kilde: F. Zapata.
En ganske høy bestemmelseskoeffisient (95%) kan observeres, så man kunne tro at den lineære passformen er optimal. Imidlertid, hvis punktene blir sett sammen, ser de ut til å ha en tendens til å bøye seg nedover. Denne detalj blir ikke betraktet i den lineære modellen.
- Eksempel 2
For de samme dataene i eksempel 1, lag et spredningsdiagram av dataene. I denne anledningen, i motsetning til i eksempel 1, blir en regresjonsjustering bedt om å bruke en potensiell funksjon.

Figur 3. Løsningsgrafikk for øvelse 2. Kilde: F. Zapata.
Vis også passningsfunksjonen og dens bestemmelseskoeffisient R 2 .
Løsning
Potensialfunksjonen er av formen f (x) = Aksel B , der A og B er konstanter som bestemmes etter metoden med minste kvadrat.
Den forrige figuren viser potensiell funksjon og dens parametere, så vel som bestemmelseskoeffisienten med en meget høy verdi på 99%. Legg merke til at dataene følger krumningen av trendlinjen.
- Eksempel 3
Ved å bruke de samme dataene fra eksempel 1 og eksempel 2, utfør en polynom i andre grad. Viser diagrammet den passer polynom, og de tilsvarende koeffisienten R 2 .
Løsning

Figur 4. Løsningsgrafikk for øvelse 3. Kilde: F. Zapata.
Med den andre gradens polynomtilpasning kan du se en trendlinje som passer godt til krumningen av dataene. Dessuten er bestemmelseskoeffisienten over den lineære passformen og under den potensielle passningen.
Passer sammenligning
Av de tre passene som er vist, er den med høyeste bestemmelseskoeffisient den potensielle passformen (eksempel 2).
Potensialstilpasningen sammenfaller med den fysiske teorien om pendelen, som som kjent slår fast at perioden til en pendel er proporsjonal med kvadratroten av dens lengde, og proporsjonalitetskonstanten er 2π / √g der g er tyngdekraksjonen.
Denne typen potensielle passform har ikke bare den høyeste bestemmelseskoeffisient, men eksponenten og proporsjonalitetskonstanten stemmer overens med den fysiske modellen.
konklusjoner
-Regresjonsjusteringen bestemmer parametrene til funksjonen som tar sikte på å forklare dataene ved bruk av metoden med minste kvadrat. Denne metoden består i å minimere summen av den kvadratiske forskjellen mellom justerings-Y-verdien og Yi-verdien til dataene for Xi-verdiene til dataene. Dette bestemmer parameterne for innstillingsfunksjonen.
-Som vi har sett, er den vanligste justeringsfunksjonen linjen, men den er ikke den eneste, siden justeringene også kan være polynomiske, potensielle, eksponentielle, logaritmiske og andre.
-I alle fall avhenger bestemmelseskoeffisienten av dataene og typen justering og er en indikasjon på godheten til den anvendte justeringen.
Endelig indikerer bestemmelseskoeffisienten prosentandelen av den totale variabiliteten mellom Y-verdien til dataene med hensyn til Ŷ-verdien for justeringen for X gitt.
referanser
- González C. Generell statistikk. Gjenopprettet fra: tarwi.lamolina.edu.pe
- IACS. Aragonese Institute of Health Sciences. Gjenopprettet fra: ics-aragon.com
- Salazar C. og Castillo S. Grunnleggende prinsipper for statistikk. (2018). Gjenopprettet fra: dspace.uce.edu.ec
- Superprof. Bestemmelseskoeffisient. Gjenopprettet fra: superprof.es
- USAC. Beskrivende statistikkmanual. (2011). Gjenopprettet fra: Statistics.ingenieria.usac.edu.gt.
- Wikipedia. Bestemmelseskoeffisient. Gjenopprettet fra: es.wikipedia.com.
