KORRELASJONSKOEFFISIENT: FORMLER, BEREGNING, TOLKNING, EKSEMPEL - DUDAS

Den Korrelasjonskoeffisienten i statistikken er en indikator som måler tendensen av to kvantitative variable X og Y for å ha en lineær eller proporsjonalt forhold mellom dem.

Generelt er parene med variabler X og Y to kjennetegn ved den samme populasjonen. For eksempel kan X være en persons høyde og Y hans vekt.

Figur 1. Korrelasjonskoeffisient for fire datapar (X, Y). Kilde: F. Zapata.

I dette tilfellet vil korrelasjonskoeffisienten indikere om det er en trend mot et proporsjonalt forhold mellom høyde og vekt i en gitt populasjon.

Pearssons lineære korrelasjonskoeffisient er angitt med små bokstaver r og dens minimums- og maksimumsverdier er henholdsvis -1 og +1.

En verdi r = +1 ville indikere at settet med par (X, Y) er perfekt på linje, og at når X vokser, vil Y vokse i samme forhold. På den annen side, hvis det skjedde at r = -1, ville parparet også være perfekt justert, men i dette tilfellet når X øker, reduseres Y i samme proporsjon.

Figur 2. Ulike verdier av den lineære korrelasjonskoeffisienten. Kilde: Wikimedia Commons.

På den annen side vil en verdi r = 0 indikere at det ikke er noen lineær sammenheng mellom variablene X og Y. Mens en verdi på r = +0,8 vil indikere at parene (X, Y) har en tendens til å klynge seg på den ene siden og en annen av en bestemt linje.

Formelen for å beregne korrelasjonskoeffisienten r er som følger:

Hvordan beregne korrelasjonskoeffisienten?

Den lineære korrelasjonskoeffisienten er en statistisk mengde som er innebygd i vitenskapelige kalkulatorer, de fleste regneark og statistiske programmer.

Imidlertid er det praktisk å vite hvordan formelen som definerer den blir brukt, og for dette vil en detaljert beregning bli vist, utført på et lite datasett.

Og som angitt i forrige avsnitt, er korrelasjonskoeffisienten samvariasjonen Sxy delt på produktet av standardavviket Sx for variablene X og Sy for variabelen Y.

Kovarians og varians

Kovariansen Sxy er:

Sxy = / (N-1)

Hvor summen går fra 1 til N datapar (Xi, Yi). og er det aritmetiske middelet til dataene henholdsvis Xi og Yi.

Standardavviket for variabelen X er på sin side kvadratroten av variansen til datasettet Xi, med i fra 1 til N:

Sx = √

Tilsvarende er standardavviket for variabel Y kvadratroten av variansen til datasettet Yi, med i fra 1 til N:

Sy = √

Illustrerende sak

For å vise i detalj hvordan vi beregner korrelasjonskoeffisienten, tar vi følgende sett med fire datapar

(X, Y): {(1, 1); (2. 3); (3, 6) og (4, 7)}.

Først beregner vi det aritmetiske gjennomsnittet for X og Y, som følger:

= (1 + 2 + 3 + 4) / 4 = 2,5

= (1 + 3 + 6 + 7) / 4 = 4,25

Deretter beregnes de gjenværende parametrene:

Covariance Sxy

Sxy = / (4-1)

Sxy = / (3) = 10,5 / 3 = 3,5

Standardavvik Sx

Sx = √ = √ = 1,29

Standardavvik Sy

Sx = √ =

√ = 2,75

Korrelasjonskoeffisient r

r = 3,5 / (1,29 * 2,75) = 0,98

Tolkning

I datasettet fra forrige tilfelle observeres en sterk lineær korrelasjon mellom variablene X og Y, som manifesteres både i spredningsplottet (vist i figur 1) og i korrelasjonskoeffisienten, som ga en verdien ganske nær enhet.

I den grad korrelasjonskoeffisienten er nærmere 1 eller -1, jo mer fornuftig det er å passe dataene til en linje, resultatet av lineær regresjon.

Lineær regresjon

Den lineære regresjonslinjen oppnås fra metoden med minste kvadrat. hvor parametrene for regresjonslinjen oppnås fra minimering av summen av kvadratet av forskjellen mellom den estimerte Y-verdien og Yi for N-dataene.

På den annen side er parametrene a og b for regresjonslinjen y = a + bx, oppnådd ved metoden for minste kvadrater:

* b = Sxy / (Sx ² ) for skråningen

* a = - b for krysset av regresjonslinjen med Y-aksen.

Husk at Sxy er samvariasjonen definert ovenfor og Sx ² er variansen eller kvadratet til standardavviket definert over. og er aritmetiske midler for henholdsvis dataene X og Y.

Eksempel

Korrelasjonskoeffisienten brukes til å bestemme om det er en lineær korrelasjon mellom to variabler. Det er aktuelt når variablene som skal studeres er kvantitative, og dessuten antas de at de følger en normal typefordeling.

Vi har et illustrerende eksempel nedenfor: et mål på graden av overvekt er kroppsmasseindeksen, som oppnås ved å dele en persons vekt i kilogram med den kvadratiske høyden til personen i enheter på kvadratmeter.

Du vil vite om det er en sterk sammenheng mellom kroppsmasseindeksen og konsentrasjonen av HDL-kolesterol i blodet, målt i millimol per liter. For dette formålet er det utført en studie med 533 personer, som er oppsummert i den følgende grafen, der hvert punkt representerer dataene til en person.

Figur 3. Studie av BMI og HDL-kolesterol hos 533 pasienter. Kilde: Aragonese Institute of Health Sciences (IACS).

Nøye observasjon av grafen viser at det er en viss lineær trend (ikke veldig markert) mellom HDL-kolesterolkonsentrasjonen og kroppsmasseindeksen. Det kvantitative målet for denne trenden er korrelasjonskoeffisienten, som i dette tilfellet viste seg å være r = -0,276.

referanser

González C. Generell statistikk. Gjenopprettet fra: tarwi.lamolina.edu.pe
IACS. Aragonese Institute of Health Sciences. Gjenopprettet fra: ics-aragon.com
Salazar C. og Castillo S. Grunnleggende prinsipper for statistikk. (2018). Gjenopprettet fra: dspace.uce.edu.ec
Superprof. Korrelasjonskoeffisient. Gjenopprettet fra: superprof.es
USAC. Beskrivende statistikkmanual. (2011). Gjenopprettet fra: Statistics.ingenieria.usac.edu.gt
Wikipedia. Pearssons korrelasjonskoeffisient. Gjenopprettet fra: es.wikipedia.com.

KORRELASJONSKOEFFISIENT: FORMLER, BEREGNING, TOLKNING, EKSEMPEL - DUDAS - 2026