Vad är K-Means Clustering?

GettyImages 551986609 MontyRakusen 59f92f25aad52b0010534330 c138750622704e7ca85f701c68f56d96

De k-betyder klustringsalgoritm är ett data mining- och maskininlärningsverktyg som används för att klustera observationer i grupper med relaterade observationer utan någon tidigare kännedom om dessa relationer. Genom provtagning försöker algoritmen visa i vilken kategori eller kluster data tillhör, varvid antalet kluster definieras av värdet k.

De k-betyder algoritm är en av de enklaste klustringsteknikerna och används ofta inom medicinsk bildbehandling, biometri och relaterade områden. Fördelen med k-innebär att klustring är att den berättar om dina data (med hjälp av dess oövervakade form) snarare än att du behöver instruera algoritmen om data i början (med hjälp av algoritmens övervakade form). Det kallas ibland Lloyds algoritm, särskilt i datavetenskapscirklar eftersom standardalgoritmen först föreslogs av Stuart Lloyd 1957. Termen «k-betyder» myntades 1967 av James McQueen.

Hur K-betyder algoritmfunktioner

De k-betyder algoritm är en evolutionär algoritm som får sitt namn från sin driftsmetod. Algoritmen samlar observationer i k grupper, där k tillhandahålls som en ingångsparameter. Den tilldelar sedan varje observation till kluster baserat på observationens närhet till medelvärdet av klustret. Klusterns medelvärde beräknas sedan om och processen börjar igen. Så här fungerar algoritmen:

Algoritmen väljer godtyckligt k pekar som det initiala klustret centrerar (medel).
Varje punkt i datasetet tilldelas det slutna klustret baserat på det euklidiska avståndet mellan varje punkt och varje klustercentrum.

Varje klustercenter beräknas om som genomsnittet av poängen i det klustret.
Steg 2 och 3 upprepas tills klusterna konvergerar. Konvergens kan definieras olika beroende på implementeringen, men det betyder normalt att antingen inga observationer ändrar kluster när steg 2 och 3 upprepas, eller att ändringarna inte gör någon väsentlig skillnad i definitionen av kluster.

Välja antal kluster

En av de största nackdelarna med k-betyder klustring är det faktum att du måste ange antalet kluster som en ingång till algoritmen. Såsom utformats kan algoritmen inte bestämma lämpligt antal kluster och beror på användaren att identifiera detta i förväg. Om du till exempel hade en grupp människor som ska grupperas baserat på binär könsidentitet som man eller kvinna, ringde k-betyder algoritm som använder ingången k = 3 skulle tvinga folket i tre kluster när endast två, eller en input av k = 2, skulle ge en mer naturlig passform. På samma sätt, om en grupp individer enkelt klusterades baserat på hemstat och du ringde k-betyder algoritm med ingången k = 20, resultaten kan vara för generaliserade för att vara effektiva. Av denna anledning är det ofta en bra idé att experimentera med olika värden på k för att identifiera det värde som bäst passar dina data. Du kanske också vill utforska användningen av andra algoritmer för datautvinning i din strävan efter maskinlärd kunskap.