Skip to content

Användningen av klassificering i datautvinning

12 de juli de 2021
GettyImages 609179193 5a4676eb842b170037c6e8a5

Klassificering är en gruvteknik som tilldelar kategorier till en insamling av data för att underlätta mer exakta förutsägelser och analyser. Klassificering är en av flera metoder som är avsedda att göra analysen av mycket stora datamängder effektiva.

 

Varför klassificering?

Mycket stora databaser blir normen i dagens värld av stora data. Föreställ dig en databas med terabyte data – en terabyte är en biljon byte av data. Facebook ensam knakar 600 terabyte ny data varje dag (från och med 2014, förra gången det rapporterades om dessa specifikationer). Den största utmaningen med big data är hur man kan förstå det. Och ren volym är inte det enda problemet: stora data tenderar också att vara olika, ostrukturerade och snabbt föränderliga. Tänk på ljud- och videodata, sociala medier, 3D-data eller geospatial data. Denna typ av data är inte lätt kategoriserad eller organiserad. För att möta denna utmaning har en rad automatiska metoder för att extrahera användbar information utvecklats, bland dem klassificering.

 

Hur klassificering fungerar

En analytikers mål är att skapa en uppsättning klassificeringsregler som svarar på en fråga, fattar ett beslut eller förutsäger beteende. Till att börja med utvecklas en uppsättning träningsdata som innehåller en viss uppsättning attribut samt det troliga resultatet. Klassificeringsalgoritmens uppgift är att upptäcka hur denna uppsättning attribut når sin slutsats. Tänk på ett kreditkortsföretag som försöker bestämma vilka kunder som ska få ett kreditkortserbjudande. Företagets utbildningsdata kan innehålla:

namn Ålder Kön Årlig inkomst Kreditkortserbjudande
John Doe 25 M 39 500 dollar Nej
okänd kvinna 56 F 125 000 dollar Ja

Utbildningsdata

Prediktorkolumnerna Ålder, Könoch Årlig inkomst bestämma värdet på ”prediktorattributet” Kreditkortserbjudande. I en träningssats är prediktorattributet känt. Klassificeringsalgoritmen försöker sedan bestämma hur värdet på prediktorattributet uppnåddes: vilka relationer finns mellan prediktorerna och beslutet? Det kommer att utveckla en uppsättning förutsägelsesregler, vanligtvis ett IF / THEN-uttalande. Uppenbarligen är detta ett enkelt exempel och algoritmen skulle behöva ett mycket större dataprov än de två poster som visas här. Vidare är förutsägelsesreglerna troligtvis mycket mer komplexa, inklusive delregler för att fånga attributdetaljer. Därefter ges algoritmen en ”förutsägelseuppsättning” av data att analysera, men denna uppsättning saknar förutsägelsesattribut (eller beslut):

namn Ålder Kön Årlig inkomst Kreditkortserbjudande
Jack Frost 42 M 88 000 dollar
Mary Murray 16 F $ 0

Förutsägelsedata

Denna prediktordata hjälper till att uppskatta noggrannheten i förutsägelsereglerna och reglerna justeras sedan tills utvecklaren anser att förutsägelserna är effektiva och användbara.

 

Dag till dag Exempel på klassificering

Klassificering och andra gruvtekniker ligger bakom mycket av vår dagliga upplevelse som konsumenter. Väderprognoser använder klassificeringstekniker för att rapportera om dagen blir regnig, solig eller molnig. Läkaryrket analyserar hälsotillstånd för att förutsäga sannolika medicinska resultat. En typ av klassificeringsmetod, Naive Bayesian, använder villkorlig sannolikhet för att kategorisera skräppostmeddelanden.