Outlier - Hvad er det, definition og koncept
En outlier er en unormal og ekstrem observation i en statistisk stikprøve eller tidsserie af data, der potentielt kan påvirke estimeringen af dens parametre.
I enklere ord ville en outlier være en observation inden for en stikprøve eller en tidsserie af data, der ikke er i overensstemmelse med resten. Forestil dig for eksempel, at vi måler elevernes højde i en klasse.
Lad os forestille os en prøve på 10 studerende. Højden på hver er som følger:
Prøve 1 | |
Studerende | Højde i meter |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 1,75 |
6 | 1,85 |
7 | 1,62 |
8 | 1,79 |
9 | 1,82 |
10 | 1,69 |
Klassens gennemsnitlige højde ville være 1,73. Hvis vi tager højde for den maksimale højde (1,85) og den mindste højde (1,62) og afstanden mellem dem til gennemsnittet, ser vi, at den er henholdsvis 0,113 og 0,117. Som vi kan se, er gennemsnittet omtrent midt i intervallet og kan betragtes som et ret godt skøn.
Outlier-effekten
Lad os nu tænke på en anden prøve på 10 studerende, hvor deres højder er følgende:
Prøve 1 | |
Studerende | Højde i meter |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 2,18 |
6 | 2,20 |
7 | 1,62 |
8 | 1,79 |
9 | 1,75 |
10 | 1,69 |
I dette tilfælde vil klassens gennemsnitlige højde være 1,81. Hvis vi nu ser på den maksimale højde (2,20) og minimumshøjden (1,62) og afstanden mellem dem til middelværdien, ser vi, at den er henholdsvis 0,39 og 0,18. I dette tilfælde er middelværdien ikke længere omtrent midt i området.
Virkningen af de 2 mest ekstreme observationer (2.18 og 2.20) har fået det aritmetiske gennemsnit til at have flyttet sig mod den maksimale værdi af fordelingen.
Med dette eksempel ser vi den effekt, som outliers har, og hvordan de kan fordreje beregningen af et gennemsnit.
Hvordan opdager man outliers?Sådan korrigeres effekten af outliers
I situationer som denne, hvor der er unormale værdier, der adskiller sig væsentligt fra resten, er medianen et bedre skøn for at vide, på hvilket tidspunkt et større antal observationer er koncentreret.
I tilfælde af begge fordelinger, og da vi har et lige antal værdier, kan vi ikke tage nøjagtigt den værdi, der halverer fordelingen for at beregne medianen. Efter hvilken vi har bestilt værdierne fra laveste til højeste, tager vi den femte og sjette observation (begge efterlader 4 observationer på hver side), og vi beregner medianen som følger:
Prøve 1:
1,75+1,72/2 = 1,73
Prøve 2:
1,79+1,71/2 = 1,75
Som vi kan se, i prøve nummer 1, da der ikke er nogen outliers eller unormale observationer, er medianen 1,73 og falder sammen med gennemsnittet. Tværtimod, for prøve 2 er middelværdien 1,75. Som vi kan se, er denne værdi længere væk fra gennemsnitshøjden, som var 1,81 og giver os et højere kvalitetspointestimat for at vide omtrent på hvilket tidspunkt et større antal observationer er koncentreret.
Punktestimat