Registrer outliers ved hjælp af normalfordelingen

Indholdsfortegnelse:

Registrer outliers ved hjælp af normalfordelingen
Registrer outliers ved hjælp af normalfordelingen
Anonim

At detektere outliers gennem normalfordelingen er en proces, der involverer at definere en standardafvigelsestærskel, og som det er beregnet til at finde ekstreme værdier af en prøve.

Med andre ord er det at finde ekstreme værdier for et datasæt ved hjælp af den standardiserede normale formel at detektere outliers gennem den normale fordeling.

  • Værdierne ekstremer hedder outliers på engelsk.
  • Værdierne indre hedder insidere på engelsk.

Visuel detektering af afvigende kan være en mulighed, når du har meget få data. Når man arbejder med databaser, er det meget upraktisk at skulle finde outliers manuelt. For at løse dette problem kan vi beregne, hvilke værdier der betragtes som ekstreme ved at sammenligne med en tærskel for afvigelser.

I tilfælde af normalfordeling betragtes en værdi som ekstrem, når den er 3 standardafvigelser væk fra gennemsnittet. Da normalfordelingen har 2 haler, skal vi tage højde for, at den kan zoome ud på både den negative og den positive side.

Formel til at opdage afvigende ved hjælp af normalfordelingen

Et sæt observationer kan udtrykkes på den foregående måde, hvor x er middelværdien, over hvilken værdierne svinger og sigma dispersionen af ​​svingningen af ​​de nævnte værdier. Med andre ord er sigma afstanden fra observationer fra middelværdien.

Multiplikationsfaktoren bestemmer, om det er en outlier eller en insider. Hvis z tager værdierne 3 eller -3, vil observationen y ifølge normalfordelingen være en outlier.

At kende værdien af z vi bruger den tidligere ligning:

  • Hvis z> = 3 eller z = <-3, kan vi ifølge normalfordelingen sige det Y det er en ekstrem værdi eller outlier.
  • Hvis z <3 eller z <-3, så kan vi ifølge den normale fordeling sige det Y er en intern værdi eller insider.

Normal standard

Er ovenstående ligning kendt?

Præcis er det udtryk for en observation, der følger en normalfordeling, når den er standardiseret eller typificeret. Det kaldes på denne måde, fordi forskellen på tælleren udtrykkes i form af afvigelser, når man dividerer med standard- eller standardafvigelsen.

Af denne grund kan vi knytte afvigelsesværdier til z og dermed være i stand til at købe det med tærsklen på 3 afvigelser.

Eksempel

Find de ekstreme værdier for følgende observationer i henhold til normalfordelingen:

Vi repræsenterer observationer på en graf:

Fra starten kan vi allerede se, at den værdi, der er længst væk fra resten sandsynligvis kan være en outlier.

Først beregner vi middelværdien og standardafvigelsen:

x = gennemsnit = 5,8

sigma = standardafvigelse = 10,51

Derefter erstatter vi værdierne i formlen og beregner værdien af z for hver observation:

Ovenstående værdier er de multiplikative faktorer for sigma, det vil sige z. Alt, der er større end 3 eller mindre end -3, vil være en ekstrem værdi.

Vi kan se, at værdien af z der overstiger 3 standardafvigelser, er den, der svarer til observation 49.

Derfor ville den ekstreme eller afvigende værdi af datasættet være 49.