Klyngeanalyse - Hvad er det, definition og koncept

Klyngeanalyse er et sæt multivariate statistiske teknikker, der sigter mod at gruppere et sæt sager eller individer i klynger eller klynger.

Klyngeanalyse er derfor en type statistisk gruppering. Målet er at gøre dataene i hver klynge så ens som muligt for hinanden og så forskellige som muligt i forhold til de andre grupper. Det kan også gøres med variabler.

Datatransformation i klyngeanalyse

Et af de problemer, vi støder på, når vi grupperer data, er at data nogle gange er i forskellige måleenheder. Af denne grund skal der udføres et analysetrin før klyngen, der tillader klyngedannelse.

Den mest almindelige metode er standardisering. Dette bruges til at transformere dataene, så de har lignende måleenheder. To regler skal tages i betragtning, binære variabler er ikke standardiserede, og hvis de er kategoriske, bliver de binære (tilstedeværelse / fravær).

Metoder i klyngeanalyse

Der er mange metoder til at udføre klyngeanalysen, men i Economy-Wiki.com følger vi det princip om enkelhed, der kendetegner os, det mest relevante på en skematisk måde.

Hierarkiske metoder

En første klassificering ville være hierarkiske eller ikke-hierarkiske metoder. Den tidligere gruppe individer i hierarkiske faser (deraf deres navn). På denne måde ændrer kun et objekt gruppe ad gangen, resten forbliver på samme sted.

Disse klassificeres igen i:

Agglomerative metoder

Den består af at gruppere enkeltpersoner i mindre klynge hver gang. Det starter fra et antal grupper svarende til antallet af sager og er faldende.

De mest kendte er:

  • Nærmeste nabometode: I dette tilfælde bruger du en algoritme til at gruppere dataene. Det du leder efter er den mindste afstand mellem de nærmeste individer. Det er meget følsomt for data, der kan forårsage såkaldt "støj". Den længste nabometode er ens.
  • Gennemsnitlig metode mellem grupper: Hvad det gør er at beregne gennemsnittet af afstanden mellem individerne i en gruppe og især en af ​​dem. Det er meget nyttigt at reducere den såkaldte "støj".
  • Ward's metode: Hvad det gør er at tilføje firkanterne for afvigelserne mellem hver enkelt og middelværdien af ​​hans klynge for at undgå tab af information. Det er en af ​​de mest kendte og har fordelene ved metoden baseret på den gennemsnitlige, men større diskriminationskraft.

Dissociative metoder

I dette tilfælde er det, du gør, at opdele. Det begynder med en enkelt klynge, og opdelinger foreslås baseret på en række krav.

De mest almindelige er:

  • Mellemgruppegennemsnit, nærmeste nabo og fjerneste nabo-metode: Disse tre metoder svarer til den foregående sag, men bruger den dissociative metode. Det vil sige, hvad vi gør, er adskilt og ikke gruppe.
  • Centroid metode: Det bruges i vid udstrækning i optimeringsproblemer for lokationer til placering. Brug denne type analyse for at finde de bedst egnede.

Ikke-hierarkiske metoder

I dette tilfælde starter de med en forudindstillet løsning. Dette er udgangspunktet for klyngeanalyse. På denne måde oprettes grupperne på forhånd, og hver sag placeres i en af ​​dem afhængigt af dens karakteristika. Til gengæld kan vi opdele dem i andre undergrupper.

  • Omfordelingsmetoder: De mest relevante er centroidmetoderne, såsom k-middel. De af medioider, som PAM. Eller dynamiske skyer.
  • Direkte metoder: Det vigtigste er blokklynger, der er meget brugt i datamining.
  • Reduktive metoder: Disse er baseret på faktoranalyse.
  • Metoder til densitetssøgning: På den ene side ville der være typografiske tilgange, såsom modal analyse. På den anden side har vi de sandsynlige, som Wolfs.

Eksempler på klyngeanalyse

Lad os endelig se nogle eksempler på klyngeanalyseapplikationer.

  • Lad os forestille os, at vi har en gruppe lande, som vi vil gruppere baseret på visse makroøkonomiske variabler, såsom inflation eller arbejdsløshed. Vi kan bruge denne type analyse til at skabe homogene grupper, for eksempel mere eller mindre udviklede lande.
  • Et andet eksempel kan være en række forbrugere med visse sociodemografiske egenskaber. Ideen er at oprette grupper med lignende individer, og som til gengæld er meget forskellige fra hinanden.
  • Men ud over økonomi er klyngeanalyse nyttig i andre videnskaber. For eksempel i biologi, for at klassificere arter eller i geologi for at gøre det samme med mineraler.

Du vil bidrage til udviklingen af ​​hjemmesiden, at dele siden med dine venner

wave wave wave wave wave