Frihedsgraderne er kombinationen af antallet af observationer i et datasæt, der varierer tilfældigt og uafhængigt minus de observationer, der er betinget af disse vilkårlige værdier.
Med andre ord er frihedsgraderne antallet af rent gratis observationer (som kan variere), når vi estimerer parametrene.
Vi skelner hovedsageligt mellem statistikker, der bruger population og stikprøveparametre for at kende deres frihedsgrader. Vi diskuterer forskellene mellem middelværdien og standardafvigelsen, når parametrene er population eller prøve:
Befolkning og prøveparametre
- Befolkningsparametre:
Da vi i befolkningerne ikke kender alle værdierne, vil frihedsgraderne være alle elementerne i befolkningen: N.
Begge statistikker tillader, at alle observationer i sættet er tilfældige, og derfor får vi forskellige resultater hver gang vi estimerer statistikken. Derefter er de observationer, der har den fulde ret til at variere, alle befolkningens observationer. Med andre ord er frihedsgraderne i dette tilfælde alle befolkningens elementer: N. Af denne grund opdeler vi begge statistikker med den samlede størrelse af befolkningen (N).
- Prøveparametre (estimater):
I prøverne kender vi alle værdierne.
Vi differentierer størrelsen på populationen (N) med størrelsen på prøven (n).
Da vi kender alle værdierne i prøverne, har vi ikke noget problem med at beregne middelværdien, da det tillader, at alle observationer i sættet er tilfældige.
I tilfælde af standardafvigelsen pålægger vi en begrænsning af frihedsgraderne: alle elementer i prøven (n), og vi trækker 1 element.
Men … Hvorfor trækker vi kun 1 og ikke 5 eller 10 elementer fra prøven (n)?
Jo flere elementer vi trækker, det betyder, at jo mere information vi har om prøveparameteren, i dette tilfælde, standardafvigelsen.
Jo mere information vi har, jo mindre frihed (frihedsgrader) skal prøveobservationer tage tilfældige værdier. Jo flere elementer vi trækker fra prøven, jo mere begrænsning påfører vi, og jo færre frihedsgrader vil prøveparameteren have.
Eksempel
Vi formoder, at vi går til Andorra for at se finalen i verdensmesterskabet på ski, fordi vi virkelig kan lide alpint skiløb. Vi bringer et kort, der fortæller os, hvor de forskellige discipliner er placeret, og navnet på nogle af konkurrenterne, men startnummeret for hver deltager er ikke angivet. Hver gang de siger konkurrentens navn, skraber vi deres navn. Da listen over konkurrenter er begrænset, vil der komme et punkt, hvor vi kender konkurrentens navn, før de meddeler det over højttalerne.
Vi analyserer krøniken fra et matematisk synspunkt:
- Prøvestørrelse (n), fordi de kun fortæller os navnet på nogle af deltagerne.
- Hver deltager kan starte tilfældigt, rækkefølgen betyder ikke noget og kan ikke konkurrere igen (kombinationer uden gentagelser).
- Den sidste deltager vil være det kendte element (n-1). Derefter kan alle de andre deltagere tilfældigt komme ud undtagen den sidste, hvilket vi helt sikkert ved.
Læs eksemplet på frihedsgrader