En tilstrækkelig statistik for en parameter Θ er en i stand til at indsamle eller opsummere al den information, som prøven af en tilfældig variabel X indeholder.
Vi ved, at en statistik er en reel funktion af prøven. Det vil sige, det tager reelle værdier indeholdt i prøven. Derfra, som vi har set i artiklen, hvor begrebet statistik er defineret, skal vi sikre, at statistikeren har visse egenskaber. Hvorfor kræve sådanne ejendomme? For at sikre, at statistikken er nyttig til vores formål.
Tilstrækkelighed er en af disse egenskaber. På en meget enklere måde vil vi sige, at en statistik er tilstrækkelig, hvis den bruger al informationen i prøven.
Hvordan ved jeg, om en statistik er nok?
Logisk set er spørgsmålet, der opstår: Hvordan kan jeg vide, om en T-statistik opfylder egenskaben tilstrækkelighed? Eller hvordan kan jeg finde, hvis den findes, en statistik, der opfylder egenskaben tilstrækkelighed. Svaret på disse to spørgsmål findes i to sætninger:
- Fisher-Neyman faktoriseringskriterium: Dette kriterium angiver, at givet en statistik T, hvis den opfylder visse betingelser, vil det være en tilstrækkelig statistik.
- Darmois sætning: Denne sætning besvarer det andet spørgsmål. Det vil sige, det giver os mulighed for at finde en tilstrækkelig statistik gennem en række procedurer.
Eksempel på tilstrækkelig statistik
Antag, at vi vil beregne den gennemsnitlige årlige indkomst for familier, der bor i Chile. For at gøre dette følger vi følgende proces:
- Indsaml information (prøve): Da vi ikke kan spørge hver eneste af de familier, der bor i Chile, hvor meget de tjener årligt, tager vi en repræsentativ prøve på for eksempel 1.000 familier.
- Identificer den tilfældige variabel, der undersøges: Den tilfældige variabel, der undersøges, er familieindkomst. Således: X → Familieindkomst
- Vælg den rigtige statistik: Den passende statistik til beregning af gennemsnitsindkomst er ingen ringere end forventningen om X. Med andre ord er stikprøven af X.
- Hvordan kan jeg vide, om eksemplets gennemsnitlige statistik er en tilstrækkelig statistik? Da vi allerede har det matematiske udtryk for statistikken, bruger vi Fisher-Neyman factoring-kriteriet. Eller Darmois-sætningen. De er formler oprettet til dette formål.
Efter at have anvendt de korrekte beregninger konkluderer vi, at stikprøven betyder statistik, der opfylder kravet eller egenskaben for tilstrækkelighed. Ved at sikre, at den opfylder dette krav, sikrer vi, at denne (statistiske) funktion, der giver os mulighed for at syntetisere informationen (den gennemsnitlige indkomst), bruger al informationen i prøven (de 1.000 familier).
Hvorfor er det vigtigt, at jeg bruger alle oplysningerne i prøven?
Nu hvor vi ved, at stikprøven er en tilstrækkelig statistik, lad os antage en sag. Hvilken mening ville det give at ønske at beregne den gennemsnitlige indkomst baseret på disse 1.000 chilenske familier, og at vi kun bruger dataene fra 500 familier?
Selvfølgelig ville det ikke give mening. Vi ønsker et resumé af alle oplysninger. Det vil sige, hvad vi har defineret som tilstrækkelig statistik.