Data Mining - Hvad det er, definition og koncept

Indholdsfortegnelse:

Data Mining - Hvad det er, definition og koncept
Data Mining - Hvad det er, definition og koncept
Anonim

Data mining er processen med at søge i store databaser for at finde nyttige oplysninger, der kan bruges til beslutningstagning. Det engelske udtryk "data mining" bruges også.

Det kan forstås som den teknologi og software, der bruges til at finde adfærdsmønstre i databasen. Det grundlæggende grundlag for dette er, at disse mønstre hjælper beslutningstagningen. For eksempel kan det hjælpe virksomheder med at forstå deres kunders adfærdsmønstre. På en sådan måde, at det letter etableringen af ​​strategier for at øge salget eller reducere omkostningerne.

Fordele ved datamining

Den grundlæggende fordel ved denne dataanalyseproces er det store antal forretningsscenarier, som den kan anvendes på, som et eksempel, vi har:

  • Forudsigelse: Prognose for virksomhedens salg.
  • Sandsynlighed: Valg af de bedste klienter til direkte kontakt enten via telefon eller e-mail.
  • Sekvensanalyse: Analyse af de produkter, som kunder har købt, og kontrollere sammenhængen mellem dem.

Stadier af data mining

Inden for en dataudvindingsproces kan vi finde fem faser:

  • Mål og dataindsamling: Det første er at fokusere på, hvilken type information vi ønsker at få. Lad os forestille os eksemplet om, at et supermarked ønsker at vide, hvilket tidspunkt på dagen der er mest kundedeltagelse. Dette ville være målet og den information, som handlen ønsker at få i dette tilfælde.
  • Databehandling og styring: Når vi kender de data, vi vil indsamle, sætter vi dataene i gang. Dette er måske den vanskeligste fase af processen. Nå, det kræver valg af den repræsentative prøve, som analysen skal udføres på. Når prøven er valgt, skal den analyseres, hvilken type variabler eller regressionsmodel der skal udføres på prøven.
  • Modelvalg: Det er tæt knyttet til den foregående fase. Det handler om at skabe en model eller algoritme, der giver os det bedst mulige resultat. For at gøre dette skal der udføres en udtømmende analyse af de variabler, der skal medtages i modellen. Dette bliver en kompliceret opgave, da det afhænger af typen af ​​information, der skal analyseres. Derfor udfører databearbejdere forskellige tests af algoritmen, såsom: lineær regression, beslutningstræ, tidsserier, neuralt netværk osv.
  • Analyse og gennemgang af resultater: Grundlæggende er det at analysere resultaterne for at se, om de giver en logisk forklaring. Forklaring, der letter beslutningstagning baseret på de oplysninger, der gives i resultaterne.
  • Modelopdatering: Det sidste trin i processen er opdateringen af ​​modellen. Det er meget vigtigt, at det gøres over tid, så det ikke bliver forældet. Variablerne i modellen kan blive ubetydelige, og det er derfor nødvendigt med en periodisk kontrol af modellen.