Den regel Sturges er et kriterium som brukes til å bestemme antallet av klasser eller områder som er nødvendige for å plotte et sett av statistiske data. Denne regelen ble uttalt i 1926 av den tyske matematikeren Herbert Sturges.
Sturges foreslo en enkel metode, basert på antall prøver x som ville tillate oss å finne antall klasser og deres rekkevidden bredde. Sturges regel er mye brukt, spesielt innen statistikkområdet, spesielt for å konstruere frekvenshistogrammer.

Forklaring
Sturges 'regel er en empirisk metode som er mye brukt i beskrivende statistikk for å bestemme antall klasser som må eksistere i et frekvenshistogram, for å klassifisere et sett med data som representerer et utvalg eller populasjon.
I utgangspunktet bestemmer denne regelen bredden på de grafiske beholderne, til frekvenshistogrammer.
For å etablere sin regel regnet Herbert Sturges som et ideelt frekvensskjema, bestående av K-intervaller, der det i-de intervallet inneholder et visst antall prøver (i = 0, … k - 1), representert som:

Dette antallet prøver er gitt av antall måter en undergruppe av et sett kan trekkes ut; det vil si ved den binomiale koeffisienten, uttrykt som følger:


For å forenkle uttrykket, brukte han egenskapene til logaritmer på begge deler av ligningen:

Sturges slo således fast at det optimale antall intervaller k er gitt av uttrykket:

Det kan også uttrykkes som:

I dette uttrykket:
- k er antall klasser.
- N er det totale antall observasjoner i utvalget.
- Logg er den vanlige logaritmen til base 10.
For å konstruere et frekvenshistogram som uttrykker en tilfeldig prøve på 142 barns høyde, er antall intervaller eller klasser distribusjonen har:
k = 1 + 3.322 * log 10 (N)
k = 1 + 3,322 * logg (142)
k = 1 + 3,322 * 2,1523
k = 8,14 ≈ 8
Dermed vil fordelingen være i 8 intervaller.
Antall intervaller må alltid være representert med hele tall. I tilfeller hvor verdien er desimal, bør du foreta en tilnærming til nærmeste hele tall.
applikasjoner
Sturges 'regel brukes hovedsakelig i statistikk, siden den gjør det mulig å foreta en frekvensfordeling gjennom beregning av antall klasser (k), samt lengden på hver av disse, også kjent som amplitude.
Amplituden er forskjellen på øvre og nedre grense for klassen, delt på antall klasser, og er uttrykt:

Det er mange tommelfingerregler som gjør det mulig å lage en frekvensfordeling. Imidlertid blir Sturges regel ofte brukt fordi den tilnærmer seg antall klasser, som vanligvis varierer fra 5 til 15.
Dermed vurderer den en verdi som tilstrekkelig representerer et utvalg eller populasjon; det vil si at tilnærmingen ikke representerer ekstreme grupperinger, og den fungerer heller ikke med et for høyt antall klasser som ikke lar prøven oppsummeres.
Eksempel
Det må lages et frekvenshistogram i henhold til dataene som tilsvarer aldre oppnådd i en undersøkelse av menn som trener i et lokalt treningsstudio.

For å bestemme intervallene må man vite størrelsen på prøven eller antall observasjoner; i dette tilfellet er det 30.
Da gjelder Sturges regel:
k = 1 + 3.322 * log 10 (N)
k = 1 + 3,322 * logg (30)
k = 1 + 3,322 * 1,4771
k = 5,90 ≈ 6 intervaller.
Fra antall intervaller kan amplituden som disse vil ha beregnes; det vil si bredden på hver stolpe representert i frekvenshistogrammet:

Den nedre grensen anses som den minste verdien av dataene, og den øvre grensen er den største verdien. Forskjellen mellom øvre og nedre grense kalles variablenes rekkevidde eller område.
Fra tabellen har vi at den øvre grensen er 46 og den nedre grensen er 13; således vil amplituden til hver klasse være:

Intervallene består av en øvre og nedre grense. For å bestemme disse intervallene, starter vi med å telle fra den nedre grensen, og legger til denne amplituden bestemt av regel (6), på følgende måte:

Deretter beregnes den absolutte frekvensen for å bestemme antall menn som tilsvarer hvert intervall; i dette tilfellet er det:
- Intervall 1: 13 - 18 = 9
- Intervall 2: 19 - 24 = 9
- Intervall 3: 25 - 30 = 5
- Intervall 4: 31 - 36 = 2
- Intervall 5: 37 - 42 = 2
- Intervall 6: 43 - 48 = 3
Når du legger til den absolutte frekvensen for hver klasse, må dette være lik det totale antallet av prøven; i dette tilfellet 30.
Deretter beregnes den relative frekvensen for hvert intervall, og deler den absolutte frekvensen med det totale antall observasjoner:

- Intervall 1: fi = 9 ÷ 30 = 0,30
- Intervall 2: fi = 9 ÷ 30 = 0,30
- Intervall 3: fi = 5 ÷ 30 = 0,1666
- Intervall 4: fi = 2 ÷ 30 = 0,0666
- Intervall 5: fi = 2 ÷ 30 = 0,0666
- Intervall 4: fi = 3 ÷ 30 = 0,10
Deretter kan du lage en tabell som gjenspeiler dataene, og også diagrammet fra den relative frekvensen i forhold til de oppnådde intervaller, som kan sees på følgende bilder:


På denne måten tillater Sturges-regelen å bestemme antall klasser eller intervaller som en prøve kan deles i, for å oppsummere en dataprøve gjennom utdyping av tabeller og grafer.
referanser
- Alfonso Urquía, MV (2013). Modellering og simulering av diskrete hendelser. UNED ,.
- Altman Naomi, MK (2015). "Enkel lineær regresjon." Naturmetoder.
- Antúnez, RJ (2014). Statistikk i utdanning. Digital UNIT.
- Fox, J. (1997.). Anvendt regresjonsanalyse, lineære modeller og relaterte metoder. SAGE-publikasjoner.
- Humberto Llinás Solano, CR (2005). Beskrivende statistikk og sannsynlighetsfordeling. Nord universitet.
- Panteleeva, OV (2005). Grunnleggende om sannsynlighet og statistikk.
- O. Kuehl, MO (2001). Design av eksperimenter: Statistiske prinsipper for forskningsdesign og analyse. Thomson Editors.
