En boxplot, fra engelsk, boxplot, er en repræsentation af en kvantitativ eller kategorisk variabel med det formål hurtigt at identificere kvartilene i datasættet.
Med andre ord er en boksplot en graf, der repræsenterer en kvantitativ eller kvalitativ variabel gennem kvartilerne.
I statistikker er det et nyttigt værktøj til at repræsentere både diskrete og kontinuerlige datasæt.
Det er vigtigt at huske på, at de kvalitative variabler eller som er beregnet til at repræsentere en ordre eller en kategori altid skal være knyttet til et numerisk indeks større end 0, så de kan vises på grafen, og de tilsvarende statistikker kan beregnes.
Boksplot og histogram
En kasse plot er intet andet end et histogram set ovenfra, og på samme måde er et histogram et kasse plot set fra siden. Et eksempel kan ses nedenfor.
Den første egenskab, som begge diagrammer deler, er minimum og maksimum for datasættet. Endestængerne efter bindestregerne angiver minimum (nederste bjælke) og maksimum (øvre bjælke). Outliers vil blive repræsenteret uden for området maksimum og minimum. Det vil sige ud over bjælkerne efter bindestregerne. Vi kan også finde vandrette boksplots.
Med et overblik kan du se, at de fleste data er centreret om observationer nær minimumet i begge grafer. Dette er angivet med boksplottet, hvor kassen er tættere på minimum end maksimum. Hvis vi ser på histogrammet, vil vi se, at de hyppigste observationer er de observationer, der er tæt på minimumet og langt fra det maksimale.
Box plot information
Oplysningerne i boksplottet er som følger:
- Bunden af kassen er den første kvartil (Q1).
- Linjen midt i feltet er median- eller anden kvartil (Q2).
- Den øverste del af feltet er den tredje kvartil (Q3).
- Interkvartilområdet eller IQR ville være højden på kassen, det vil sige forskellen mellem Q3 og Q1.
Box plot nøgle
Denne grafiske repræsentation kaldes et boksdiagram, fordi det ligner et felt. Derfor skulle vi kun huske en firkantet genstand eller en kasse for at huske denne graf.
For læsere, der er fortrolige med prisen på finansielle aktiver, vil de se mere lighed med et lys. De stearinlys, du ser i tilbuddet, er boksdiagrammer justeret til det valgte tidsvindue.
Fordele og ulemper ved boksplottet
Blandt fordelene og ulemperne ved dette diagram finder vi følgende:
Fordel
- Globaliseret vision af den absolutte frekvens af en kvantitativ eller kvalitativ variabel.
- Kendskab til minimums-, maksimum- og kvartilterne i datasættet uden at skulle beregne dem.
- Anerkendelse af ekstreme værdier hurtigere end med et histogram, fordi ekstreme værdier er angivet med cirkler uden for maksimum og minimum.
Ulemper
- Hvis datasættet er lille, vil det gøre det vanskeligere at forstå det at lave et feltplot til at udtrykke disse data.
Eksempel på boksplot
Vi formoder, at vi vil repræsentere antallet af cyklister, der passerer vores hus i løbet af et år. Først tæller vi cyklisterne og samler oplysningerne i en tabel.
Gennem nogle programmer som R eller Excel kan vi generere grafen vist nedenfor.
Takket være at repræsentere antallet af cyklister gennem boksplottet kan vi hurtigt intuitere, hvor medianen er, de andre kvartiler, maksimum og minimum. I dette tilfælde har vi ikke atypiske data, da ud over maksimum og minimum er der intet.
Anvendelsen af denne type graf er meget almindelig i betragtning af dens enkelhed og anvendelighed på mange områder ud over økonomi og økonomi.