- eksempler
- Klassifisering av kategoriske variabler
- Nominelle kategorier
- Ordinær kategorisk
- Binære kategorier
- Statistikk med kategoriske variabler
- Grafisk fremstilling av kategoriske variabler
- Løste øvelser
- Oppgave 1
- Eksempel 2
- Eksempel 3
- referanser
Den kategoriske variabelen er den som brukes i statistikk for å tilordne en ikke-numerisk eller kvalitativ egenskap eller egenskap til et objekt, individ, enhet, tilstand eller prosedyre. Det er mulig å definere alle slags kategoriske variabler etter hvert behov.
Eksempler på kategoriske variabler er: farge, kjønn, blodgruppe, sivilstand, type materiale, betalingsmåte eller type bankkonto, og de brukes mye på daglig basis.
Figur 1: Farge er en kategorisk variabel. Kilde: pixabay
Ovennevnte er variablene, men deres mulige verdier er kvalitative, det vil si av kvalitet eller karakteristikk og ikke av en numerisk måling. For eksempel er de mulige verdiene for det variable kjønn: mannlig, h-favør.
Når denne variabelen er lagret i et dataprogram, kan den deklareres som en tekstvariabel, og de eneste aksepterte verdiene er de som allerede heter: Mann, kvinne.
Imidlertid kan det samme variable kjønn deklareres og lagres som et helt tall hvis hann er tildelt 1 og hunn er tildelt verdien 2. Det er av denne grunn at kategoriske variabler noen ganger blir referert til som en oppført type.
Hovedtrekket ved kategoriske variabler er at det i motsetning til andre variabler, som kontinuerlige og diskrete variabler, ikke er mulig å gjøre aritmetikk med dem. Imidlertid kan statistikk gjøres med dem, slik vi vil se senere.
eksempler
Legg merke til følgende eksempler på kategoriske variabler og deres mulige verdier:
- Gruppe_Sanguíneo, Verdiområde: A, B, AB, O
- Civil_Status, kategoriske verdier: Singel (A), Gift (B), Enke (C), Skilt (D).
- Tipo_de_Material, kategorier eller verdier: 1 = Tre, 2 = metall, 3 = plast
-Form_av_Betaling, verdipapirer eller kategorier: (1) kontanter, (2) debet, (3) overføring, (4) kreditt
I de foregående eksemplene har et nummer blitt assosiert med hver kategori på en helt vilkårlig måte.
Man kan da tro at denne vilkårlige numeriske assosiasjonen gjør den lik en diskret kvantitativ variabel, men det er det ikke, siden aritmetiske operasjoner ikke kan utføres med disse tallene.
For å illustrere ideen, i variabelen Form_of_Payment, gir summen ikke noe mening:
(1) Kontanter + (2) Debet blir aldri lik (3) Overføring
Klassifisering av kategoriske variabler
Rangeringen er basert på om de har et implisitt hierarki eller ikke, eller om antallet mulige utfall er mer enn to eller to.
En kategorisk variabel med bare ett mulig utfall er ikke en variabel, den er en kategorisk konstant.
Nominelle kategorier
Når de ikke kan representeres av et nummer eller har noen rekkefølge. For eksempel har variabelen: Type_of_Material, nominelle verdier (tre, metall, plast), de har ikke hierarki eller rekkefølge, selv når et vilkårlig tall er tilordnet til hver respons eller kategori.
Ordinær kategorisk
Variabel: Academic_performance
Nominelle verdier: Høy, Medium, Lav
Selv om verdiene til denne variabelen ikke er numeriske, har de en implisitt rekkefølge eller hierarki.
Binære kategorier
Dette er nominelle variabler med to mulige svar, for eksempel:
-Variabel: Respons
-Nomale verdier: Sant, usant
Legg merke til at svarvariabelen ikke har et implisitt hierarki og bare har to mulige utfall, så det er en binær kategorisk variabel.
Noen forfattere kaller denne typen en binær variabel, og anser ikke at den tilhører kategoriske variabler som er begrenset til de med mer enn tre mulige kategorier.
Statistikk med kategoriske variabler
Statistikk kan gjøres med kategoriske variabler, til tross for at det ikke er numeriske eller kvantitative variabler. For å kjenne trenden eller mest sannsynlige verdien til en kategorisk variabel, blir modusen for eksempel tatt.
Modusen er i dette tilfellet det mest gjentatte resultatet eller verdien av en kategorisk variabel. For kategoriske variabler er det ikke mulig å beregne verken gjennomsnittet eller medianen.
Gjennomsnittet kan ikke beregnes fordi du ikke kan regne med kategoriske variabler. Median er heller ikke, fordi de kvantitative eller kategoriske variablene ikke har en orden eller hierarki, så det er ikke mulig å bestemme en sentral verdi.
Grafisk fremstilling av kategoriske variabler
Gitt en viss kategorisk variabel, kan frekvensen eller antall ganger som et resultat av den variabelen gjentas bli funnet. Hvis dette gjøres for hvert utfall, kan du lage en graf over frekvensen mot hver kategori eller utfall.
Her er noen eksempler på hvordan kategoriske variabler kan representeres grafisk.
Løste øvelser
Oppgave 1
Et selskap har opplysninger om 170 ansatte. En av variablene som er i disse postene er: Estado_Civil. Denne variabelen har fire kategorier eller mulige verdier:
Singel (A), gift (B), enke (C), skilt (D).
Selv om det er en ikke-numerisk variabel, er det mulig å vite hvor mange av de totale postene som er i en viss kategori og være representert i form av et søylediagram, som vist i følgende figur:
Figur 2. Representasjon av resultatene av en kategorisk variabel. Kilde: self made
Eksempel 2
En skobutikk holder oversikt over salget. Blant variablene som administrerer postene deres, er skofargen for hver modell. Variabelen:
Color_Shoe_Model_AW3
Den er av kategorisk type og har fem kategorier eller mulige verdier. For hver kategori av denne variabelen er antall salg totalt og prosentandelen av dem er etablert. Resultatene presenteres i grafen til følgende figur:
Figur 3. Kategorisk variabel Farge _Sko. I denne variabelen er modusen Hvit. Kilde: self made.
Det kan da sies at for AW3-skomodellen som er på moten, den som selges hyppigst er Hvit, fulgt tett av Svart.
Det kan også sies at med en sannsynlighet på 70% vil den neste skoen som selges av denne modellen være hvit eller svart.
Denne informasjonen kan være nyttig for butikken når du legger inn nye bestillinger, eller den kan til og med bruke rabatter på de minst solgte fargene på grunn av overflødig varebeholdning.
Eksempel 3
For en viss populasjon av blodgivere, ønsker du å representere antall mennesker som tilhører en viss blodgruppe. En grafisk måte å visualisere resultatene på er ved hjelp av et piktogram, som er nederst i et bord.
Den første kolonnen representerer variabelen group_sanguíneo og dens mulige resultater eller kategorier. Den andre kolonnen har representasjonen i ikonisk eller billedlig form for antall personer i hver kategori. I vårt eksempel brukes en rød dråpe som ikon, som hver representerer 10 personer.
Figur 4. Piktogram. Kilde: self made
referanser
- Khan Academy. Analyse av kategoriske data. Gjenopprettet fra: khanacademy.org
- Universumformler. Kvalitativ variabel. Gjenopprettet fra: univesoformulas.com
- Minitab. Som er kategoriske, diskrete og kontinuerlige variabler. Gjenopprettet fra: support.minitab.com
- Excel tutorial. Karakterisering av variabler. Gjenopprettet fra: help.xlslat.com.
- Wikipedia. Statistisk variabel. Gjenopprettet fra wikipedia.com
- Wikipedia. Kategorisk variabel. Gjenopprettet fra wikipedia.com
- Wikipedia. Kategorisk variabel. Gjenopprettet fra wikipedia.com