En statistisk stikprøve er en delmængde af data, der tilhører en datapopulation. Statistisk set skal det bestå af et bestemt antal observationer, der tilstrækkeligt repræsenterer de samlede data.
Statistik, som en gren af matematik, er ansvarlig for at indsamle data, bestille og analysere dem. Med andre ord, når vi vil studere et bestemt fænomen, vender vi os til statistik. Et godt eksempel på et fænomen undersøgt af statistikker er gennemsnitslønnen for borgerne i et land
I denne forstand kan vi af tids- og omkostningsårsager ikke indsamle alle data. Denne samlede data er det, der kaldes en datapopulation eller simpelthen en population.
Hvorfor arbejder du med statistiske prøver?
For at forklare, hvorfor en statistisk stikprøve bruges i stedet for den samlede befolkning, vil vi bruge eksemplet ovenfor.
Antag, at vi vil studere ethvert fænomen. I vores tilfælde er dette fænomen gennemsnitslønnen for borgerne i et land. Datapopulationen består af hver eneste arbejdstager i landet. Af tids- og omkostningsårsager ville det selvfølgelig være umuligt at spørge hver arbejdstager, hvad deres årsløn er. Det ville tage lang tid, ellers ville vi have brug for en masse ressourcer.
På dette tidspunkt vises begrebet statistisk stikprøve. I stedet for at spørge de millioner af arbejdere i et land eller en region, indsamler vi kun en lille mængde data. For eksempel spurgte vi 100.000 mennesker. Denne opgave er stadig kompliceret, men det er meget mere overkommeligt at spørge 100.000 mennesker end at spørge 30 millioner.
Denne lille mængde data skal være repræsentativ. Det vil sige, det skal repræsentere befolkningen i tilstrækkelig grad. Hvis de 100.000 mennesker, vi spurgte, er koncentreret i velhavende kvarterer, får vi data, der ikke er repræsentative. Den gennemsnitlige løn ville være meget højere, end den virkelig er.
Karakteristika for en repræsentativ statistisk stikprøve
Hvis du vil undersøge godt, er kvaliteten af den statistiske prøve afgørende. Det er nytteløst at udføre de mest komplekse statistiske målinger med de mest sofistikerede modeller, hvis den statistiske prøve er partisk. Det vil sige, hvis prøven ikke er repræsentativ.
Når man får en repræsentativ prøve, er der visse aspekter, som forskeren skal vide på forhånd. Blandt disse aspekter er karakteristikaene ved en repræsentativ prøve. Kendetegnene ved en repræsentativ prøve er som følger:
- Stor nok størrelse: Når vi arbejder med prøver, arbejder vi normalt med en datamængde, der er mindre end befolkningen. For at en statistisk stikprøve skal være repræsentativ, skal den imidlertid være stor nok til at blive betragtet som repræsentativ. For eksempel, hvis vores befolkning består af 10 millioner data, og vi vælger 10, er det svært for den at være repræsentativ. Jo større prøven er, selvfølgelig, ikke altid mere repræsentativ.
- Tilfældighed: Valget af data fra en statistisk stikprøve skal være tilfældigt. Det vil sige, det skal være helt tilfældigt. Hvis vi i stedet for at gøre det tilfældigt udfører en planlagt dataudvælgelsesproces, introducerer vi en bias til dataindsamlingen. Derfor skal vi foretage et tilfældigt valg for at undgå, at prøven er partisk, og for at gøre den til en repræsentativ prøve.
Statistisk slutning
Når vi først har opnået den repræsentative prøve, er det nødvendigt at udlede bestemte målinger. Ofte er vi interesserede i at kende et bestemt mål for en variabel. I det indledende eksempel ville variablen være lønnen for borgerne i et land. I denne forstand er metricen, som vi vil analysere, gennemsnitslønnen for borgerne i et land.
Med andre ord har vi en datapopulation bestående af alle arbejdere i Mexico. Fra denne befolkning opnår vi en variabel, dvs. årslønnen. Ved hjælp af passende teknikker opnår vi en repræsentativ prøve. Og endelig, når vi først har et datasæt, som vi kan arbejde med, bruger vi statistiske slutningsteknikker til at beregne den gennemsnitlige løn.
Når vi først har datasættet, kan vi selvfølgelig udlede andre foranstaltninger. For eksempel hvordan lønnen fordeles, hvilken procentdel af arbejdstagerne er under en bestemt løn, eller hvor stor er lønforskellen.
Eksempel på statistisk prøve
Antag, at vi ønsker at gennemføre en undersøgelse af de gennemsnitlige udgif.webpter for colombianske familier i januar måned. Til dette har vi to muligheder:
- Indtast bankkonti for alle familier i Colombia
- Spørg et repræsentativt antal personer
Den første mulighed er ikke levedygtig af flere grunde. For det første at familierne ikke vil opgive deres data og for det andet at vi heller ikke kunne gå familie for familie og se på dataene. Hovedsageligt fordi befolkningen i Colombia er tæt på 50 millioner. I mellemtiden er den anden mulighed for at indsamle en statistisk prøve.
Hvad vi vil gøre efter de ovennævnte egenskaber, er at spørge 100.000 familier. Det er noget kompliceret, men meget lettere end at spørge 50 millioner colombianere. Forskellen er betydelig. Baseret på denne stikprøve på 100.000 familier vil vi således prøve at beregne de gennemsnitlige udgif.webpter for familier i januar.
De ekstraherede data vil være mere eller mindre pålidelige i henhold til en række målinger, der tages i betragtning i statistiske undersøgelser. Naturligvis er disse typer målinger mere avancerede, og derfor vil vi ikke diskutere dem her.