Klusteringsmetode: beskrywing, basiese konsepte, toepassingskenmerke

INHOUDSOPGAWE:

Klusteringsmetode: beskrywing, basiese konsepte, toepassingskenmerke
Klusteringsmetode: beskrywing, basiese konsepte, toepassingskenmerke
Anonim

Die groeperingsmetode is die taak om 'n stel voorwerpe op so 'n manier te groepeer dat hulle in dieselfde groep meer aan mekaar ooreenstem as aan voorwerpe in ander industrieë. Dit is die primêre taak van data-ontginning en 'n algemene statistiese ontledingstegniek wat in baie velde gebruik word, insluitend masjienleer, patroonherkenning, beeldherkenning, inligtingherwinning, datakompressie en rekenaargrafika.

Optimaliseringsprobleem

met behulp van die groeperingsmetode
met behulp van die groeperingsmetode

Die groeperingsmetode self is nie een spesifieke algoritme nie, maar 'n algemene taak wat opgelos moet word. Dit kan bereik word met verskeie algoritmes wat aansienlik verskil in die begrip van wat 'n groep uitmaak en hoe om dit doeltreffend te vind. Die gebruik van die groeperingsmetode vir die vorming van metasubjekte sluit die gebruik van 'n groep metklein afstande tussen lede, digte streke van ruimte, intervalle of sekere statistiese verspreidings. Daarom kan groepering as 'n multi-objektiewe optimeringsprobleem geformuleer word.

Die toepaslike metode en parameterinstellings (insluitend items soos die afstandfunksie om te gebruik, die digtheidsdrempel, of die aantal verwagte trosse) hang af van die individuele datastel en die beoogde gebruik van die resultate. Analise as sodanig is nie 'n outomatiese taak nie, maar 'n iteratiewe proses van kennisontdekking of interaktiewe multi-objektiewe optimering. Hierdie groeperingsmetode sluit proef- en foutpogings in. Dit is dikwels nodig om datavoorverwerking en modelparameters te wysig totdat die resultaat die verlangde eienskappe bereik.

Benewens die term "groepering", is daar 'n aantal woorde met soortgelyke betekenisse, insluitend outomatiese klassifikasie, numeriese taksonomie, botriologie en tipologiese analise. Subtiele verskille lê dikwels in die gebruik van die groeperingsmetode om metasubjekverhoudings te vorm. Terwyl in data-onttrekking die resulterende groepe van belang is, is dit in outomatiese klassifikasie reeds die diskriminerende krag wat hierdie funksies verrig.

Cluster-analise is gegrond op talle werke van Kroeber in 1932. Dit is in die sielkunde ingestel deur Zubin in 1938 en deur Robert Tryon in 1939. En hierdie werke word sedert 1943 deur Cattell gebruik om die klassifikasie van groeperingsmetodes in teorie aan te dui.

termyn

gebruikmetode
gebruikmetode

Die konsep van "cluster" kan nie presies gedefinieer word nie. Dit is een van die redes waarom daar soveel groeperingsmetodes is. Daar is 'n gemene deler: 'n groep data-objekte. Verskillende navorsers gebruik egter verskillende modelle. En elkeen van hierdie gebruike van groeperingsmetodes behels verskillende data. Die konsep wat deur verskeie algoritmes gevind word, verskil aansienlik in sy eienskappe.

Die gebruik van die groeperingsmetode is die sleutel om die verskille tussen die instruksies te verstaan. Tipiese trospatrone sluit in:

  • Centroid s. Dit is byvoorbeeld wanneer k-beteken groepering elke groep verteenwoordig met een gemiddelde vektor.
  • Verbindingsmodel s. Dit is byvoorbeeld hiërargiese groepering, wat modelle bou gebaseer op afstandkonnektiwiteit.
  • Verspreidingsmodel s. In hierdie geval word trosse gemodelleer deur gebruik te maak van die groeperingsmetode om metasubjek statistiese verdelings te vorm. Soos meerveranderlike normale skeiding, wat van toepassing is op die verwagtingsmaksimeringsalgoritme.
  • Digtheidsmodel s. Dit is byvoorbeeld DBSCAN (Spatial Clustering Algorithm with Noise) en OPTICS (Order Points for Structure Detection), wat trosse as gekoppelde digte streke in dataruimte definieer.
  • Subruimte-model c. In tweegroepering (ook bekend as medegroepering of twee modusse), word groepe met beide elemente en met die toepaslike eienskappe gemodelleer.
  • Model s. Sommige algoritmes doen dit nieverfynde verhouding vir hul groeperingsmetode om meta-vakresultate te genereer en bloot inligtingsgroepering te verskaf.
  • Model gebaseer op grafiek s. 'n Kliek, dit wil sê 'n subset van nodusse, sodanig dat elke twee verbindings in die randdeel as 'n prototipe van die trosvorm beskou kan word. Die verswakking van die totale vraag staan bekend as kwasi-kliek. Presies dieselfde naam word in die HCS-groeperingsalgoritme aangebied.
  • Neurale modelle s. Die bekendste netwerk sonder toesig is die selforganiserende kaart. En dit is hierdie modelle wat gewoonlik gekenmerk kan word as soortgelyk aan een of meer van die bogenoemde groeperingsmetodes vir die vorming van meta-vakresultate. Dit sluit subruimtestelsels in wanneer neurale netwerke die nodige vorm van hoof- of onafhanklike komponentanalise implementeer.

Hierdie term is in werklikheid 'n stel sulke groepe, wat gewoonlik al die voorwerpe in die stel datagroeperingsmetodes bevat. Boonop kan dit die verhouding van clusters tot mekaar aandui, soos 'n hiërargie van sisteme wat in mekaar ingebou is. Die groepering kan in die volgende aspekte verdeel word:

  • Harde sentroïedgroeperingsmetode. Hier behoort elke voorwerp aan 'n groep of is daarbuite.
  • Sagte of vaag stelsel. Op hierdie stadium behoort elke voorwerp reeds tot 'n sekere mate aan enige groepering. Dit word ook die c-beteken fuzzy clustering-metode genoem.

En meer subtiele verskille is ook moontlik. Byvoorbeeld:

  • Streng partisie-groepering. Hierelke voorwerp behoort aan presies een groep.
  • Streng partisie-groepering met uitskieters. In hierdie geval mag voorwerpe ook nie aan enige groepering behoort nie en as onnodig beskou word.
  • Overvleuelende groepering (ook alternatief, met veelvuldige aansigte). Hier kan voorwerpe aan meer as een tak behoort. Betrek tipies soliede trosse.
  • Hierargiese groeperingsmetodes. Voorwerpe wat aan 'n kindergroep behoort, behoort ook aan die ouersubstelsel.
  • Vorming van subruimte. Alhoewel soortgelyk aan oorvleuelende trosse, binne 'n uniek gedefinieerde stelsel, moet onderlinge groepe nie oorvleuel nie.

Instruksies

gebruik die groeperingsmetode om te vorm
gebruik die groeperingsmetode om te vorm

Soos hierbo genoem, kan groeperingsalgoritmes geklassifiseer word op grond van hul trosmodel. Die volgende resensie sal slegs die mees prominente voorbeelde van hierdie instruksies lys. Aangesien daar meer as 100 gepubliseerde algoritmes kan wees, verskaf nie almal modelle vir hul trosse nie en kan dus nie maklik geklassifiseer word nie.

Daar is geen objektief korrekte groeperingsalgoritme nie. Maar, soos hierbo genoem, is die instruksie altyd in die gesigsveld van die waarnemer. Die mees geskikte groeperingsalgoritme vir 'n bepaalde probleem moet dikwels eksperimenteel gekies word, tensy daar 'n wiskundige rede is om een model bo 'n ander te verkies. Daar moet kennis geneem word dat 'n algoritme wat vir 'n enkele tipe ontwerp is, gewoonlik nie mee werk nie'n datastel wat 'n radikaal ander onderwerp bevat. Byvoorbeeld, k-betekens kan nie nie-konvekse groepe vind nie.

Verbinding-gebaseerde groepering

groeperingsmetode
groeperingsmetode

Hierdie vakbond staan ook bekend onder sy naam, die hiërargiese model. Dit is gebaseer op die tipiese idee dat voorwerpe meer verbind is met naburige dele as aan dié wat baie verder weg is. Hierdie algoritmes verbind voorwerpe en vorm verskillende trosse, afhangende van hul afstand. 'n Groep kan hoofsaaklik beskryf word deur die maksimum afstand wat nodig is om die verskillende dele van die groep te verbind. Op alle moontlike afstande sal ander groepe vorm, wat met 'n dendrogram voorgestel kan word. Dit verduidelik waar die algemene naam "hiërargiese groepering" vandaan kom. Dit wil sê, hierdie algoritmes verskaf nie 'n enkele partisie van die datastel nie, maar verskaf eerder 'n uitgebreide gesagsorde. Dit is aan hom te danke dat daar op sekere afstande 'n drein met mekaar is. In 'n dendrogram dui die y-as die afstand aan waarteen die trosse bymekaar kom. En die voorwerpe is langs die X-lyn gerangskik sodat die groepe nie meng nie.

Verbindingsgebaseerde groepering is 'n hele familie metodes wat verskil in die manier waarop hulle afstande bereken. Benewens die gewone keuse van afstandsfunksies, moet die gebruiker ook besluit oor die verbindingskriterium. Aangesien 'n groepering uit verskeie voorwerpe bestaan, is daar baie opsies om dit te bereken. 'n Gewilde keuse staan bekend as enkelhefboomgroepering, dit is die metodevolledige skakel, wat UPGMA of WPGMA bevat (ongeweegde of geweegde ensemble van pare met rekenkundige gemiddelde, ook bekend as gemiddelde skakelgroepering). Daarbenewens kan die hiërargiese stelsel agglomeratief wees (begin met individuele elemente en kombineer hulle in groepe) of verdeling (begin met 'n volledige datastel en verdeel dit in afdelings).

Verspreide groepering

groeperingsmetode om te vorm
groeperingsmetode om te vorm

Hierdie modelle is die naaste verwant aan statistieke wat op verdelings gebaseer is. Klusters kan maklik gedefinieer word as voorwerpe wat heel waarskynlik aan dieselfde verspreiding behoort. 'n Handige kenmerk van hierdie benadering is dat dit baie ooreenstem met die manier waarop kunsmatige datastelle geskep word. Deur ewekansige voorwerpe uit 'n verspreiding te steekproef.

Terwyl die teoretiese basis van hierdie metodes uitstekend is, ly hulle aan een sleutelprobleem, bekend as oorpassing, tensy beperkings op die kompleksiteit van die model gestel word. 'n Groter assosiasie sal gewoonlik die data beter verduidelik, wat dit moeilik maak om die regte metode te kies.

Gaussiese mengselmodel

Hierdie metode gebruik allerhande verwagtingsmaksimeringsalgoritmes. Hier word die datastel gewoonlik gemodelleer met 'n vaste (om oorheersing te vermy) aantal Gaussiese verdelings wat lukraak geïnisialiseer word en waarvan die parameters iteratief geoptimaliseer word om beter by die datastel te pas. Hierdie stelsel sal na 'n plaaslike optimum konvergeer. Dit is hoekom verskeie lopies kan geeverskillende resultate. Om die nouste groepering te kry, word kenmerke dikwels toegewys aan die Gaussiese verspreiding waaraan hulle waarskynlik behoort. En vir sagter groepe is dit nie nodig nie.

Verspreiding-gebaseerde groepering skep komplekse modelle wat uiteindelik die korrelasie en afhanklikheid tussen eienskappe kan vasvang. Hierdie algoritmes lê egter 'n bykomende las op die gebruiker. Vir baie datastelle in die werklike wêreld is daar dalk nie 'n bondig gedefinieerde wiskundige model nie (byvoorbeeld, aanname dat 'n Gaussiese verspreiding 'n redelike sterk aanname is).

Digtheidgebaseerde groepering

groepering om te vorm
groepering om te vorm

In hierdie voorbeeld word die groepe basies gedefinieer as gebiede met hoër ondeurdringbaarheid as die res van die datastel. Voorwerpe in hierdie seldsame dele, wat nodig is om alle komponente te skei, word gewoonlik as geraas- en randpunte beskou.

Die gewildste digtheid-gebaseerde groeperingsmetode is DBSCAN (Spatial Noise Clustering Algorithm). Anders as baie nuwer metodes, het dit 'n goed gedefinieerde groeperingskomponent genaamd "digtheid bereikbaarheid". Soortgelyk aan skakelgebaseerde groepering, is dit gebaseer op verbindingspunte binne sekere afstanddrempels. Hierdie metode versamel egter slegs die items wat aan die digtheidskriterium voldoen. In die oorspronklike weergawe, gedefinieer as die minimum aantal ander voorwerpe in hierdie radius, bestaan die groep uit alledigtheidverwante items (wat 'n vryvormgroep kan vorm, anders as baie ander metodes), en alle voorwerpe wat binne die toegelate omvang is.

Nog 'n interessante eienskap van DBSCAN is dat die kompleksiteit daarvan redelik laag is - dit vereis 'n lineêre aantal reeksnavrae teen die databasis. En ook ongewoon is dat dit in wese dieselfde resultate sal vind (dit is deterministies vir kern- en geraaspunte, maar nie vir grenselemente nie) in elke lopie. Daarom is dit nie nodig om dit verskeie kere te laat loop nie.

Die grootste nadeel van DBSCAN en OPTICS is dat hulle 'n daling in digtheid verwag om groepgrense op te spoor. Byvoorbeeld, in datastelle met oorvleuelende Gaussiese verdelings - 'n algemene gebruiksgeval vir kunsmatige voorwerpe - lyk die groepgrense wat deur hierdie algoritmes gegenereer word, dikwels arbitrêr. Dit gebeur omdat die digtheid van groepe voortdurend afneem. En in 'n Gaussiese mengsel-datastel presteer hierdie algoritmes byna altyd beter as metodes soos EM-groepering, wat in staat is om hierdie tipe stelsels akkuraat te modelleer.

Gemiddelde verplasing is 'n groeperingbenadering waarin elke voorwerp na die digste area in die buurt beweeg, gebaseer op 'n skatting van die hele kern. Op die ou end konvergeer die voorwerpe na plaaslike ondeurdringbaarheidmaksima. Soortgelyk aan k-beteken groepering, kan hierdie "digtheid lokkers" dien as verteenwoordigers vir 'n datastel. Maar die gemiddelde verskuiwingkan arbitrêr gevormde trosse soortgelyk aan DBSCAN opspoor. As gevolg van die duur iteratiewe prosedure en digtheidskatting, is die gemiddelde verplasing gewoonlik stadiger as DBSCAN of k-Means. Daarbenewens is die toepaslikheid van die tipiese verskuiwingalgoritme op hoë-dimensionele data moeilik as gevolg van die nie-eenvormige gedrag van die kerndigtheidskatting, wat lei tot oormatige fragmentasie van die trossterte.

Rating

groeperingsmetode vir die vorming van metasubjek
groeperingsmetode vir die vorming van metasubjek

Om groeperingsresultate te verifieer is so moeilik soos om self saam te groepeer. Gewilde benaderings sluit in "interne" telling (waar die stelsel verminder word tot 'n enkele maatstaf van kwaliteit) en natuurlik "eksterne" telling (waar die groepering vergelyk word met 'n bestaande "grondwaarheid"-klassifikasie). En die menslike deskundige se handtelling en indirekte telling word gevind deur die bruikbaarheid van groepering in die beoogde toepassing te ondersoek.

Interne vlagmaatreëls ly onder die probleem dat hulle kenmerke verteenwoordig wat self as groepsteikens beskou kan word. Dit is byvoorbeeld moontlik om data te groepeer wat deur die Silhouette-koëffisiënt gegee word, behalwe dat daar geen bekende doeltreffende algoritme is om dit te doen nie. Deur so 'n interne maatstaf vir evaluering te gebruik, is dit beter om die ooreenkomste van optimaliseringsprobleme te vergelyk.

Die buitemerk het soortgelyke probleme. As daar sulke etikette van "grondwaarheid" is, is dit nie nodig om te groepeer nie. En in praktiese toepassings is daar gewoonlik nie sulke konsepte nie. Aan die ander kant weerspieël die etikette slegs een moontlike partisie van die datastel, wat nie beteken niedat daar geen ander (dalk selfs beter) groepering is nie.

Geen van hierdie benaderings kan dus uiteindelik die werklike kwaliteit beoordeel nie. Maar dit verg menslike evaluering, wat hoogs subjektief is. Nietemin kan sulke statistieke insiggewend wees om slegte groepe te identifiseer. Maar 'n mens moet nie die subjektiewe beoordeling van 'n persoon verontagsaam nie.

Binne merk

Wanneer die resultaat van 'n groepering geëvalueer word op grond van data wat self gegroepeer is, word daarna verwys as hierdie term. Hierdie metodes ken gewoonlik die beste resultaat toe aan 'n algoritme wat groepe met 'n hoë ooreenkoms binne en laag tussen groepe skep. Een van die nadele van die gebruik van interne kriteria in kluster-evaluering is dat hoë tellings nie noodwendig lei tot effektiewe inligtingherwinningstoepassings nie. Hierdie telling is ook bevooroordeeld teenoor algoritmes wat dieselfde model gebruik. Byvoorbeeld, k-beteken groepering optimaliseer natuurlik kenmerkafstande, en 'n interne maatstaf wat daarop gebaseer is, sal waarskynlik die gevolglike groepering oorskat.

Daarom is hierdie evalueringsmaatreëls die beste geskik om 'n idee te kry van situasies waar een algoritme beter as 'n ander presteer. Maar dit beteken nie dat elke inligting meer betroubare resultate as ander gee nie. Die geldigheidstydperk gemeet deur so 'n indeks hang af van die bewering dat die struktuur in die datastel bestaan. 'n Algoritme wat vir sommige tipes ontwikkel is, het geen kans as die stel radikaal bevat nieverskillende samestelling of as die assessering verskillende kriteria meet. Byvoorbeeld, k-beteken groepering kan slegs konvekse trosse vind, en baie telling-indekse neem dieselfde formaat aan. In 'n datastel met nie-konvekse modelle is dit onvanpas om k-gemiddeldes en tipiese evalueringskriteria te gebruik.

Eksterne evaluering

Met hierdie soort balling, word groeperingsresultate geëvalueer op grond van data wat nie vir groepering gebruik is nie. Dit wil sê, soos bekende klasetikette en eksterne toetse. Sulke vrae bestaan uit 'n stel voorafgeklassifiseerde items en word dikwels deur kundiges (mense) geskep. As sodanig kan verwysingsstelle gesien word as die goue standaard vir evaluering. Hierdie tipe puntemetodes meet hoe naby die groepering aan gegewe verwysingsklasse is. Dit is egter onlangs bespreek of dit voldoende is vir werklike data of slegs vir sintetiese stelle met werklike grondwaarheid. Aangesien klasse interne struktuur kan bevat, en die bestaande kenmerke dalk nie skeiding van groepe toelaat nie. Ook, vanuit 'n kennisontdekkingsoogpunt, sal die weergee van bekende feite dalk nie noodwendig die verwagte resultaat lewer nie. In 'n spesiale beperkte groeperingsscenario waar meta-inligting (soos klasetikette) reeds in die groeperingsproses gebruik word, is dit nie triviaal om al die inligting vir evalueringsdoeleindes te behou nie.

Nou is dit duidelik wat nie van toepassing is op groeperingsmetodes nie, en watter modelle vir hierdie doeleindes gebruik word.

Aanbeveel: