Survival bias er en bias, der forekommer i dataindsamling, når data ekskluderes fra analysen, fordi de ikke længere eksisterer i dag.
Denne skævhed opstår i en lang række sammenhænge, hvor vi kun fokuserer på de "overlevende" data. Et eksempel på dette ses, når virksomheder undersøger deres kunder om et af deres produkter. Men de efterlader deres ikke-klienter, som i dette tilfælde ville være de "ikke-overlevende", i glemsel.
I dette tilfælde ville det være forkert at drage konklusioner fra denne undersøgelse. Da resultaterne kun ville være partisk for den "overlevende" befolkning. Og de ville ikke være repræsentative resultater.
Overlevelsesforstyrrelse i praksis
Et klart eksempel på denne bias kan ses i undersøgelsen af resultaterne af investeringsfonde. Hvor de fleste databaser kun indeholder midler, der findes i dag. Uanset de midler, der eksisterede tidligere.
Årsagen til, at de ikke eksisterer i dag, er, at deres præstationer har været dårligere end de "overlevende". Eller endda flere fonde er blevet slået sammen til en. Derfor udføres analysen på de fonde, der har de bedste resultater. Og denne bias har en tendens til at overvurdere udførelsen af stikprøven af disse midler.
Det største problem med dette er ikke længere kun overvurderingen af fondens resultater. Snarere ville den valgte prøve ikke være en tilfældig stikprøve af den samlede population. Og derfor er resultaterne af undersøgelsen muligvis ikke repræsentative for befolkningen. At det i sidste ende er det, vi leder efter, når vi vælger en tilfældig stikprøve af befolkningen.
Løsning til overlevelsesforstyrrelse
Lad os forestille os, at vi vil vælge en investeringsfond at investere i, baseret på dens tidligere adfærd. For at undgå denne overlevelsesforstyrrelse og optimere dette valg skal vi udføre følgende trin:
- Vælg den tidshorisont, som vi planlægger at arbejde med. For eksempel ti, femten eller tyve års historie.
- Tag alle eksisterende midler fra begyndelsen af tidshorisonten, uanset om de eksisterer eller ikke i øjeblikket.
- Derfra skal du vælge prøven fra denne population til undersøgelse af adfærd.
Ideen med dette er i sidste ende at få den tilfældige stikprøve af befolkningen. Og derfra opnåede konklusionerne, hvis de kunne være repræsentative for denne befolkning.