Kolmogorov-test - Smirnoff (K-S)

Kolmogorov-Smirnoff (KS) testen er en ikke-parametrisk test, der sigter mod at bestemme, om hyppigheden af ​​to forskellige datasæt følger den samme fordeling omkring deres gennemsnit.

Kolmogorov-Smirnoff (KS) testen er med andre ord en test, der tilpasser sig formen på dataene og bruges til at kontrollere, om to forskellige prøver følger den samme fordeling.

Hvorfor er det en ikke-parametrisk test?

Det skønne ved den "ikke-parametriske" egenskab er, at den passer til dataene og følgelig de fordelinger, der kan følge datafrekvensen. Derudover sparer denne funktion os fra at skulle antage a priori hvilken fordeling følger prøven.

Betydningen af ​​K-S-testen

Hvor mange gange har vi fået to prøver og beregnet Pearsons korrelationskoefficient uden at tænke to gange? Med andre ord, hvis vi vil se det lineære forhold mellem to datasæt, ville det være rimeligt at beregne korrelationen, ikke?

Dette fradrag ville være sandt, hvis fordelingen af ​​de to prøver følger en normalfordeling. Korrelationskoefficienten antager, at fordelingerne er normale, hvis vi springer denne antagelse over, er resultatet af korrelationskoefficienten forkert. Til hypotesetestene og konfidensintervallerne antager vi også, at populationen fordeles gennem en normalfordeling.

Som alle hypotesetest, der involverer statistik, er det vigtigt at have et stort datamængde for at have statistisk signifikante resultater. Vi kan fejlagtigt afvise en nulhypotese, fordi prøven er lille. Desuden er det også vigtigt, at denne prøve har nogle ekstreme tilfælde (outliers, på engelsk) for at give konsistens til testresultatet.

Test procedure

Fremgangsmåden i de næste trin.

Hypotese

Det første trin vil være at kontrollere, om begge prøver har samme fordeling. For at gøre dette udfører vi en hypotesetest, forudsat at begge prøver har den samme fordeling i forhold til den alternative hypotese, at de er forskellige.

Statistisk

Vi arbejder med de kumulative fordelingsfunktioner af to prøver, F1(x) og F2(x):

Ikke panikke! Vi analyserer ovenstående formel roligt:

  • Den vigtige del af formlen er forskelstegn (-). Vi leder efter lodrette forskelle i distributionerne. Så vi trækker begge kumulative fordelingsfunktioner.
  • Det operatør "max". Vi er interesserede i at finde den største eller maksimale forskel for at se, hvor forskellige de to distributioner kan være.
  • Det absolut værdi. Vi bruger den absolutte værdi, så rækkefølgen af ​​operatørerne ikke ændrer resultatet. Med andre ord betyder det ikke noget, hvilken F (x) har det negative tegn:

Kritisk værdi

For store prøver er der en tilnærmelse til den kritiske værdi for KS, der afhænger af niveauet af betydning (%):

Hvor1 og n2 er prøvestørrelsen for F-prøven1(x) og F2(x) henholdsvis.

Nogle beregnede kritiske værdier:

Afvisningsregel

App

Meget ofte ønsker vi at teste, om to distributioner er tilstrækkeligt forskellige fra hinanden, når vi ønsker at oprette forudsigelsesscenarier (vi arbejder med to prøver), eller når vi vil evaluere, hvilken distribution der bedst passer til dataene (vi arbejder kun med en prøve).