www.wikidata.uk-ua.nina.az
U statistici odnozv yazna klasterizaciya ye odnim iz metodiv iyerarhichnoyi klasterizaciyi Cej metod zasnovanij na grupuvanni klasteriv za principom znizu vgoru en aglomerativna klasterizaciya na kozhnomu kroci ob yednuyuchi dva klasteri yaki mistyat najblizhchu paru elementiv yaki she ne nalezhat do odnogo klastera Nedolikom cogo metodu ye te sho vin maye tendenciyu stvoryuvati dovgi tonki klasteri v yakih susidni elementi odnogo klastera mayut malu vidstan ale elementi na protilezhnih kincyah klastera mozhut buti nabagato dali odin vid odnogo nizh dva elementi inshih klasteriv Ce mozhe prizvesti do trudnoshiv u viznachenni klasiv yaki mogli b efektivno rozdiliti dani 1 Zmist 1 Oglyad metodiv aglomeracijnoyi klasterizaciyi 2 Nayivnij algoritm 3 Priklad 3 1 Pershij krok 3 2 Drugij krok 3 3 Zaklyuchnij krok 3 4 Odnozv yazna dendrograma 4 Inshi zv yaznosti 5 Shvidshi algoritmi 6 Div takozh 7 Primitki 8 PosilannyaOglyad metodiv aglomeracijnoyi klasterizaciyi red Na pochatku procesu aglomeracijnoyi klasterizaciyi kozhen element znahoditsya u vlasnomu klasteri Potim klasteri poslidovno ob yednuyutsya u bilshi klasteri poki vsi elementi ne opinyatsya v odnomu klasteri Na kozhnomu kroci ob yednuyutsya dva klasteri rozdileni najmenshoyu vidstannyu Funkciya yaka vikoristovuyetsya dlya viznachennya vidstani mizh dvoma klasterami vidoma yak funkciya zv yaznosti ye tim sho viriznyaye metodi aglomerativnogo klasterizuvannya U odnozv yaznij klasterizaciyi vidstan mizh dvoma klasterami viznachayetsya odniyeyu paroyu elementiv timi dvoma elementami po odnomu v kozhnomu klasteri yaki najblizhche odin do odnogo Najkorotsha z usih poparnih vidstanej sho zalishayetsya na bud yakomu kroci prizvodit do zlittya dvoh klasteriv na elementah yakih dosyagayetsya cya minimalna vidstan Metod takozh vidomij yak klasterizaciya najblizhchih susidiv Rezultat klasterizaciyi mozhna vizualizuvati yak dendrogramu en yaka pokazuye poslidovnist ob yednannya klasteriv i vidstani na yakih vidbuvalosya kozhne zlittya 2 Matematichno funkciya zv yaznosti vidstan D X Y mizh klasterami X i Y opisuyetsya virazom D X Y min x X y Y d x y displaystyle D X Y min x in X y in Y d x y nbsp de X i Y bud yaki dvi mnozhini elementiv yaki rozglyadayutsya yak klasteri a d x y poznachaye vidstan mizh dvoma elementami x i y Nayivnij algoritm red Nastupnij algoritm ce aglomerativna shema yaka viluchaye ryadki ta stovpci v matrici blizkosti koli stari klasteri ob yednuyutsya v novi Matricya rozmiru N N displaystyle N times N nbsp ye matriceyu blizkosti D displaystyle D nbsp ta mistit usi vidstani d i j displaystyle d i j nbsp Klasterizaciyam prisvoyuyutsya poryadkovi nomeri 0 1 n 1 displaystyle 0 1 ldots n 1 nbsp i L k displaystyle L k nbsp ce riven k displaystyle k nbsp yi klasterizaciyi Klaster z poryadkovim nomerom m poznachayetsya m a blizkist mizh klasterami r displaystyle r nbsp i s displaystyle s nbsp poznachayetsya yak d r s displaystyle d r s nbsp Algoritm odnozv yaznoyi klasterizaciyi skladayetsya z nastupnih krokiv Pochnit z klasterizaciyi u yakij kozhen element nalezhit okremomu klasteru Vona maye riven L 0 0 displaystyle L 0 0 nbsp i poryadkovij nomer m 0 displaystyle m 0 nbsp Znajdit najbilsh shozhu paru klasteriv u potochnij klasterizaciyi skazhimo paru r s displaystyle r s nbsp vidpovidno do funkciyi vidstani d r s min d i j displaystyle d r s min d i j nbsp de minimum beretsya po vsim param klasteriv u potochnij klasterizaciyi Zbilshiti poryadkovij nomer m m 1 displaystyle m m 1 nbsp Ob yednati klasteri r displaystyle r nbsp i s displaystyle s nbsp v odin klaster dlya formuvannya nastupnoyi klasterizaciyi m displaystyle m nbsp Vstanovit riven ciyeyi klasterizaciyi na L m d r s displaystyle L m d r s nbsp Onoviti matricyu blizkosti D displaystyle D nbsp shlyahom vidalennya ryadkiv i stovpciv sho vidpovidayut klasteram r displaystyle r nbsp i s displaystyle s nbsp i dodavannya ryadka ta stovpcya sho vidpovidayut novosformovanomu klasteru Blizkist mizh novim klasterom poznachena r s displaystyle r s nbsp i starim klasterom k displaystyle k nbsp viznachayetsya yak d r s k min d k r d k s displaystyle d r s k min d k r d k s nbsp Yaksho vsi ob yekti znahodyatsya v odnomu klasteri zupinitsya Inakshe perejdit do kroku 2 Priklad red Cej realnij priklad bazuyetsya na matrici genetichnoyi vidstani JC69 en obchislenij na osnovi porivnyannya poslidovnosti 5S ribosomnoyi RNK p yati bakterij Bacillus subtilis a displaystyle a nbsp Bacillus stearothermophilus b displaystyle b nbsp Lactobacillus viridescens en c displaystyle c nbsp Acholeplasma modicum en d displaystyle d nbsp i Micrococcus luteus e displaystyle e nbsp 3 4 Pershij krok red Persha klasterizaciyaPripustimo sho u nas p yat elementiv a b c d e displaystyle a b c d e nbsp i nastupna matricya D 1 displaystyle D 1 nbsp poparnih vidstanej mizh nimi a b c d ea 0 17 21 31 23b 17 0 30 34 21c 21 30 0 28 39d 31 34 28 0 43e 23 21 39 43 0U comu prikladi D 1 a b 17 displaystyle D 1 a b 17 nbsp ye najmenshim znachennyam D 1 displaystyle D 1 nbsp tomu mi grupuyemo elementi a i b Ocinka dovzhini pershoyi gilkiNehaj u poznachaye vuzol do yakogo teper pidyednani a i b Vstanovlennya znachen d a u d b u D 1 a b 2 displaystyle delta a u delta b u D 1 a b 2 nbsp garantuye sho elementi a i b rivnoviddaleni vid u Ce vidpovidaye ochikuvannyam gipotezi ultrametrichnosti Todi gilki sho spoluchayut a i b z u mayut dovzhini d a u d b u 17 2 8 5 displaystyle delta a u delta b u 17 2 8 5 nbsp div kincevu dendrogramu Pershe onovlennya matrici vidstanejPotim mi perehodimo do onovlennya pochatkovoyi matrici blizkosti D 1 displaystyle D 1 nbsp u novu matricyu blizkosti D 2 displaystyle D 2 nbsp div nizhche mi zmenshuyemo rozmir matrici na odin ryadok i odin stovpec cherez klasterizaciyu a z b Znachennya v D 2 displaystyle D 2 nbsp vidileni zhirnim shriftom vidpovidayut novim vidstanyam rozrahovanim shlyahom zberezhennya minimalnoyi vidstani mizh kozhnim elementom pershogo klastera a b displaystyle a b nbsp i kozhnim z elementiv sho zalishilisya D 2 a b c min D 1 a c D 1 b c min 21 30 21 D 2 a b d min D 1 a d D 1 b d min 31 34 31 D 2 a b e min D 1 a e D 1 b e min 23 21 21 displaystyle begin array lllllll D 2 a b c amp amp min D 1 a c D 1 b c amp amp min 21 30 amp amp 21 D 2 a b d amp amp min D 1 a d D 1 b d amp amp min 31 34 amp amp 31 D 2 a b e amp amp min D 1 a e D 1 b e amp amp min 23 21 amp amp 21 end array nbsp Znachennya vidileni kursivom v D 2 displaystyle D 2 nbsp zalishayutsya bez zmin pri onovlenni matrici oskilki voni vidpovidayut vidstanyam mizh elementami yaki ne berut uchast u pershomu klasteri Drugij krok red Druga klasterizaciyaTeper mi povtoryuyemo tri poperedni diyi pochinayuchi z novoyi matrici vidstani D 2 displaystyle D 2 nbsp a b c d e a b 0 21 31 21c 21 0 28 39d 31 28 0 43e 21 39 43 0Tut D 2 a b c 21 displaystyle D 2 a b c 21 nbsp i D 2 a b e 21 displaystyle D 2 a b e 21 nbsp ye najmenshimi znachennyami D 2 displaystyle D 2 nbsp tomu mi priyednuyemosya do klasteru a b displaystyle a b nbsp element c i element e Ocinka dovzhini drugoyi gilkiNehaj v poznachaye vuzol do yakogo a b displaystyle a b nbsp c i e teper priyednani Cherez nakladennya umovi ultrametrichnosti gilki sho z yednuyut a abo b z v i c z v a takozh e z v rivni ta mayut taku zagalnu dovzhinu d a v d b v d c v d e v 21 2 10 5 displaystyle delta a v delta b v delta c v delta e v 21 2 10 5 nbsp Vivodimo vidsutnyu dovzhinu gilki d u v d c v d a u d c v d b u 10 5 8 5 2 displaystyle delta u v delta c v delta a u delta c v delta b u 10 5 8 5 2 nbsp div kincevu dendrogramu Druge onovlennya matrici vidstaniPotim mi perehodimo do onovlennya matrici D 2 displaystyle D 2 nbsp u novu matricyu vidstanej D 3 displaystyle D 3 nbsp div nizhche spochatku zmenshuyemo rozmir matrici na dva ryadki ta dva stovpci cherez klasterizaciyu a b displaystyle a b nbsp z c i z e D 3 a b c e d min D 2 a b d D 2 c d D 2 e d min 31 28 43 28 displaystyle D 3 a b c e d min D 2 a b d D 2 c d D 2 e d min 31 28 43 28 nbsp Zaklyuchnij krok red Pidsumkova matricya D 3 displaystyle D 3 nbsp ce a b c e d a b c e 0 28d 28 0Tozh ob yednuyemo klasteri a b c e displaystyle a b c e nbsp i d displaystyle d nbsp Nehaj r displaystyle r nbsp poznachaye korenevij vuzol do yakogo priyednani a b c e displaystyle a b c e nbsp i d displaystyle d nbsp Z yednannya gilok a b c e displaystyle a b c e nbsp i d displaystyle d nbsp do r displaystyle r nbsp mayut taki dovzhini d a b c e r d d r 28 2 14 displaystyle delta a b c e r delta d r 28 2 14 nbsp Vivodimo dovzhinu gilki sho zalishilasya d v r d a r d a v d b r d b v d c r d c v d e r d e v 14 10 5 3 5 displaystyle delta v r delta a r delta a v delta b r delta b v delta c r delta c v delta e r delta e v 14 10 5 3 5 nbsp Odnozv yazna dendrograma red nbsp Dani odnozv yaznoyi dendrogrami 5SDendrograma gotova Vona ultrametrichna tomu sho vsi elementi a displaystyle a nbsp b displaystyle b nbsp c displaystyle c nbsp e displaystyle e nbsp i d displaystyle d nbsp znahodyatsya na odnakovij vidstani vid r displaystyle r nbsp d a r d b r d c r d e r d d r 14 displaystyle delta a r delta b r delta c r delta e r delta d r 14 nbsp Takim chinom dendrograma maye korin r displaystyle r nbsp yak najglibshij vuzol Inshi zv yaznosti red Nayivnij algoritm dlya odnozv yaznoyi klasterizaciyi po suti takij samij yak algoritm Kruskala dlya minimalnih kistyakovih derev Odnak u odnozv yaznij klasterizaciyi vazhlivij poryadok u yakomu utvoryuyutsya klasteri todi yak dlya minimalnih kistyakovih derev vazhlivim ye mnozhinoyu par tochok yaki utvoryuyut vidstani vibrani algoritmom Alternativni shemi zv yaznostej vklyuchayut povnozv yaznu klasterizaciyu en serednozv yaznu klasterizaciyu UPGMA en ta WPGMA en i metod Uorda en U prostomu algoritmi dlya aglomerativnoyi klasterizaciyi vprovadzhennya inshoyi shemi zv yaznostej mozhe buti vikonano prosto za dopomogoyu inshoyi formuli dlya obchislennya mizhklasternih vidstanej v algoritmi U navedenomu vishe opisi algoritmu formulu yaku potribno vidkoriguvati vidileno zhirnim shriftom Odnak bilsh efektivni algoritmi taki yak opisanij nizhche ne poshiryuyutsya na vsi shemi zv yaznostej odnakovo Porivnyannya dendrogram otrimanih riznimi metodami klasterizaciyi dlya odniyeyi matrici vidstanej nbsp nbsp nbsp nbsp Odnozv yazna klasterizaciyi Povnozv yazna klasterizaciya en Serednozv yazna klasterizaciyu WPGMA en Serednozv yazna klasterizaciyu UPGMA en Shvidshi algoritmi red Nayivnij algoritm odnozv yaznoyi klasterizaciyi prostij dlya rozuminnya ale povilnij i maye chasovu skladnist O n 3 displaystyle O n 3 nbsp 5 U 1973 r R Sibson zaproponuvav algoritm z chasovoyu skladnistyu O n 2 displaystyle O n 2 nbsp i skladnist prostoru O n displaystyle O n nbsp obidva optimalni vidomi yak SLINK Algoritm SLINK predstavlyaye klasterizaciyu na mnozhini n displaystyle n nbsp pronumerovanih elementiv za dvoma funkciyami Obidvi ci funkciyi viznachayutsya shlyahom poshuku najmenshogo klastera C displaystyle C nbsp yakij mistit obidva elementi i displaystyle i nbsp i prinajmni odin element iz bilshim nomerom Persha funkciya p displaystyle pi nbsp vidobrazhaye element i displaystyle i nbsp do elementa z najbilshim nomerom u klasteri C displaystyle C nbsp Druga funkciya l displaystyle lambda nbsp vidobrazhaye element i displaystyle i nbsp do vidstani pov yazanoyi zi stvorennyam klastera C displaystyle C nbsp Zberigannya cih funkcij u dvoh masivah yaki vidobrazhayut kozhen nomer elementa v jogo funkcionalnomu znachenni zajmaye u pamyati O n displaystyle O n nbsp miscya i ciyeyi informaciyi dostatno dlya viznachennya samoyi klasterizaciyi Yak pokazuye Sibson koli novij element dodayetsya do mnozhini elementiv onovleni funkciyi sho predstavlyayut novu klasterizaciyu z odnim zv yazkom dlya dopovnenoyi mnozhini predstavlenu takim zhe chinom mozhut buti pobudovani na osnovi staroyi klasterizaciyi v chasi O n displaystyle O n nbsp Algoritm SLINK potim perebiraye elementi odin za odnim dodayuchi yih do predstavlennya klasterizaciyi 6 7 Alternativnij algoritm sho pracyuye v tih samih optimalnih chasovih i prostorovih mezhah zasnovanij na ekvivalentnosti mizh nayivnim algoritmom i algoritmom Kruskala dlya minimalnih kistyakovih derev Zamist vikoristannya algoritmu Kruskala mozhna vikoristati algoritm Prima u variaciyi bez binarnih kup sho potrebuye chasu O n 2 displaystyle O n 2 nbsp i prostoru O n displaystyle O n nbsp dlya pobudovi minimalnogo kistyakovogo dereva ale ne klasterizaciyi iz zadanih elementiv i vidstanej Potim zastosuvannya algoritmu Kruskala do rozridzhenogo grafa utvorenogo rebrami minimalnogo kistyakovogo dereva stvoryuye samu klasterizaciyu za dodatkovij chas O n log n displaystyle O n log n nbsp i z vikoristannyam prostoru O n displaystyle O n nbsp 8 Div takozh red Klasternij analiz Povnozv yazna klasterizaciya en Iyerarhichna klasterizaciya Molekulyarnij godinnik Metod priyednannya susidiv UPGMA en WPGMA en Primitki red Everitt Brian 2011 Cluster analysis Chichester West Sussex U K Wiley ISBN 9780470749913 Proignorovano nevidomij parametr name list style dovidka Numerical Ecology Developments in Environmental Modelling 20 vid Second English Amsterdam Elsevier 1998 Collection of published 5S 5 8S and 4 5S ribosomal RNA sequences Nucleic Acids Research 14 Suppl Suppl r1 59 1986 PMC 341310 PMID 2422630 doi 10 1093 nar 14 suppl r1 Proignorovano nevidomij parametr vauthors dovidka Phylogenetic analysis using ribosomal RNA Methods in Enzymology 164 793 812 1988 PMID 3241556 doi 10 1016 s0076 6879 88 64084 5 Proignorovano nevidomij parametr vauthors dovidka Murtagh Fionn Contreras Pedro 2012 Algorithms for hierarchical clustering an overview Wiley Interdisciplinary Reviews Data Mining and Knowledge Discovery Wiley Online Library 2 1 86 97 doi 10 1002 widm 53 Proignorovano nevidomij parametr name list style dovidka SLINK an optimally efficient algorithm for the single link cluster method The Computer Journal British Computer Society 16 1 30 34 1973 doi 10 1093 comjnl 16 1 30 Proignorovano nevidomij parametr vauthors dovidka Gan Guojun 2007 Data clustering theory algorithms and applications Philadelphia Pa Alexandria Va SIAM Society for Industrial and Applied Mathematics American Statistical Association ISBN 9780898716238 Proignorovano nevidomij parametr name list style dovidka Minimum spanning trees and single linkage cluster analysis Journal of the Royal Statistical Society Series C 18 1 54 64 1969 JSTOR 2346439 MR 0242315 doi 10 2307 2346439 Proignorovano nevidomij parametr vauthors dovidka Posilannya red Zv yaznosti yaki vikoristovuyutsya v Matlab Otrimano z https uk wikipedia org w index php title Odnozv 27yazna klasterizaciya amp oldid 40589056