www.wikidata.uk-ua.nina.az
Tematichne modelyuvannya sposib pobudovi modeli kolekciyi tekstovih dokumentiv yaka viznachaye do yakih tem nalezhit kozhen z dokumentiv 1 Pobudova tematichnoyi modeli dokumenta p w t displaystyle p w t matricya shukanih umovnih rozpodiliv sliv za temami p t d displaystyle p t d matricya shukanih umovnih rozpodiliv tem za dokumentami d displaystyle d dokument w displaystyle w slovo d w displaystyle d w sposterezhuvani zminni t displaystyle t tema prihovana zminna Tematichna model angl topic model kolekciyi tekstovih dokumentiv viznachaye do yakih tem nalezhit kozhen dokument i yaki slova termini utvoryuyut kozhnu temu 2 Perehid z prostoru terminiv v prostir znajdenih tematik dopomagaye virishuvati sinonimiyu i polisemiyu terminiv a takozh efektivnishe virishuvati taki zavdannya yak tematichnij poshuk klasifikaciya sumarizaciya i anotaciya kolekcij dokumentiv i novinnih potokiv Tematichne modelyuvannya yak vid statistichnih modelej dlya znahodzhennya prihovanih tem sho zustrichayutsya v kolekciyi dokumentiv znajshlo svoye zastosuvannya v takih oblastyah yak mashinne navchannya i obrobka prirodnoyi movi Doslidniki vikoristovuyut rizni tematichni modeli dlya analizu tekstiv tekstovih arhiviv dokumentiv dlya analizu zmini tem u naborah dokumentiv Intuyitivno rozumiyuchi sho dokument vidnositsya do pevnoyi temi v dokumentah prisvyachenih odnij temi mozhna zustriti deyaki slova chastishe za inshi Napriklad slova sobaka i kistka zustrichayutsya chastishe v dokumentah pro sobak kishki i moloko budut zustrichatisya v dokumentah pro koshenyat prijmenniki v ta na budut zustrichatisya v oboh tematikah Zazvichaj dokument stosuyetsya kilkoh tem v riznih proporciyah Takim chinom dlya dokumentu v yakomu 10 temi skladayut kishki a 90 temi sobaki mozhna pripustiti sho sliv pro sobak v 9 raziv bilshe Tematichne modelyuvannya vidobrazhaye cyu intuyiciyu v matematichnij strukturi yaka dozvolyaye na pidstavi vivchennya kolekciyi dokumentiv i doslidzhennya chastotnih harakteristik sliv v kozhnomu dokumenti zrobiti visnovok sho kozhen dokument ce deyakij balans tem Najbilshe zastosuvannya v suchasnih dodatkah znahodyat pidhodi sho gruntuyutsya na Bayesovih merezhah imovirnisnih modelyah na oriyentovanih grafah Imovirnisni tematichni modeli ce vidnosno moloda oblast doslidzhen v teoriyi nekerovanogo navchannya Odnim z pershih buv zaproponovanij imovirnisnij latentno semantichnij analiz PLSA zasnovanij na principi maksimumu pravdopodibnosti yak alternativa klasichnim metodam klasterizaciyi zasnovanim na obchislenni funkcij vidstani Slidom za PLSA buv zaproponovanij metod prihovanogo rozpodilu Dirihle en i jogo chislenni uzagalnennya 3 Imovirnisni tematichni modeli zdijsnyuyut m yaku klasterizaciyu dozvolyayuchi dokumentu abo terminu vidnositisya vidrazu do dekilkoh tem z riznimi jmovirnostyami Imovirnisni tematichni modeli opisuyut kozhnu temu diskretnim rozpodilom na mnozhini terminiv kozhen dokument diskretnim rozpodilom na mnozhini tem Peredbachayetsya sho kolekciya dokumentiv ce poslidovnist terminiv obranih vipadkovo i nezalezhno z sumishi takih rozpodiliv i stavitsya zavdannya vidnovlennya komponentiv sumishi po vibirci 4 Hocha tematichne modelyuvannya tradicijno opisuvalosya i zastosovuvalosya v obrobci prirodnoyi movi vono znajshlo svoye zastosuvannya i v inshih oblastyah napriklad takih yak bioinformatika Zmist 1 Istoriya 1 1 Tematichni doslidzhennya 2 Algoritmi tematichnogo modelyuvannya 2 1 Imovirnisnij latentno semantichnij analiz 2 2 Latentne rozmishennya Dirihle 3 Div takozh 4 Primitki 5 Literatura 6 Posilannya 6 1 Programne zabezpechennya ta programni bibliotekiIstoriya RedaguvatiPershij opis tematichnogo modelyuvannya z yavilosya v roboti Ragavana Papadimitriu Tomaki i Vempoli 1998 roku 5 Tomas Gofman v 1999 roci 6 zaproponuvav imovirnisne prihovane semantichne indeksuvannya PLSI Odna z najposhirenishih tematichnih modelej ce latentne rozmishennya Dirihle en LDA Cya model ye uzagalnennyam imovirnisnogo semantichnogo indeksuvannya i rozroblena Devidom Bleyem en Endryu Inom i Majklom Dzhordanom en u 2002 roci 7 Inshi tematichni modeli yak pravilo ye rozshirennyam LDA napriklad rozmishennya patinko en pokrashuye LDA za rahunok vvedennya dodatkovih korelyacijnih koeficiyentiv dlya kozhnogo slova yake stanovit temu Tematichni doslidzhennya Redaguvati Templton zrobiv oglyad robit z tematichnogo modelyuvannya v gumanitarnih naukah zgrupovanih za sinhronnim i diahronichnim pidhodom 8 Sinhronni pidhodi vidilyayut temi v pevnij moment chasu napriklad Dzhokers za dopomogoyu tematichnoyi modeli doslidzhuvav pro sho pisali blogeri v Den cifrovih gumanitarnih nauk v 2010 roci 9 Diahronichni pidhodi vklyuchayuchi viznachennya Bloka ta Nyumana pro chasovu dinamiku tem u Pensilvanskij gazeti 1728 1800 roku 10 Grifits i Stejvers vikoristovuvali tematichne modelyuvannya dlya oglyadiv zhurnalu PNAS viznachali zmini populyarnosti tem z 1991 po 2001 rik 11 Blevin stvoriv tematichnu model shodennika Marti Ballads 12 Mimno vikoristovuvav tematichne modelyuvannya dlya analizu 24 zhurnaliv z klasichnoyi filologiyi ta arheologiyi za 150 rokiv shob viznachiti zmini populyarnosti tem i diznatisya naskilki silno zminilisya zhurnali za cej chas 13 Algoritmi tematichnogo modelyuvannya RedaguvatiU roboti Devida Bleya Vvedennya v tematichne modelyuvannya rozglyanuto najbilsh populyarnij algoritm Latentne rozmishennya Dirihle 14 Na praktici doslidniki vikoristovuyut odnu z evristik metodu maksimalnoyi pravdopodibnosti metodi singulyarnogo rozkladu SVD metod momentiv algoritm zasnovanij na nevid yemnij matrici faktorizaciyi NMF imovirnisni tematichni modeli imovirnisnij latentno semantichnij analiz latentne rozmishennya Dirihle U roboti Voroncova K V rozglyanuto variaciyi osnovnih algoritmiv tematichnogo modelyuvannya robastna tematichna model tematichni modeli klasifikaciyi dinamichni tematichni modeli iyerarhichni tematichni modeli bagatomovni tematichni modeli modeli tekstu yak poslidovnosti sliv bagatomodalni tematichni modeli 2 Imovirnisni tematichni modeli zasnovani na nastupnih pripushennyah 15 16 17 18 Poryadok dokumentiv u kolekciyi ne maye znachennya Poryadok sliv u dokumenti ne maye znachennya dokument mishok sliv Slova sho zustrichayutsya chasto v bilshosti dokumentiv ne vazhlivi dlya viznachennya tematiki Kolekciyu dokumentiv mozhna predstaviti yak vibirku par dokument slovo d w displaystyle d w nbsp d D displaystyle d in D nbsp w W d displaystyle w in mathit W d nbsp Kozhna tema t T displaystyle t in T nbsp opisuyetsya nevidomim rozpodilom p W t displaystyle p mathit W t nbsp na mnozhini sliv w W displaystyle w in mathit W nbsp Kozhen dokument d D displaystyle d in D nbsp opisuyetsya nevidomim rozpodilom p t d displaystyle p t d nbsp na mnozhini tem t T displaystyle t in T nbsp Gipoteza umovnoyi nezalezhnosti p w t d p w t displaystyle p w t d p w t nbsp Pobuduvati tematichnu model znachit znajti matrici F p w t displaystyle Phi p w t nbsp ta 8 p t d displaystyle Theta p t d nbsp po kolekciyi D displaystyle mathit D nbsp U bilsh skladnih imovirnisnih tematichnih modelyah deyaki z cih pripushen zaminyuyutsya bilsh realistichnimi Imovirnisnij latentno semantichnij analiz Redaguvati nbsp Imovirnisnij latentno semantichnij analiz PLSA d displaystyle d nbsp dokument w displaystyle w nbsp slovo d w displaystyle d w nbsp sposterezhuvani zminni t displaystyle t nbsp tema prihovana zminna p d displaystyle p d nbsp apriornij rozpodil na mnozhini dokumentiv p w t p t d displaystyle p w t p t d nbsp shukani umovni rozpodilu D displaystyle D nbsp kolekciya dokumentiv N displaystyle N nbsp dovzhina dokumenta v slovahImovirnisnij latentno semantichnij analiz en PLSA zaproponovanij Tomasom Gofmanom u 1999 roci Imovirnisna model poyavi pari dokument slovo mozhe buti zapisana troma ekvivalentnimi sposobami p d w t T p t p w t p d t t T p d p w t p t d t T p w p t w p d t displaystyle p d w sum t in T p t p w t p d t sum t in T p d p w t p t d sum t in T p w p t w p d t nbsp de T displaystyle T nbsp mnozhina tem p t displaystyle p t nbsp nevidomij apriornij rozpodil tem u vsij kolekciyi p d displaystyle p d nbsp apriornij rozpodil na mnozhini dokumentiv empirichna ocinka p d n d n displaystyle p d n d n nbsp de n d n d displaystyle n sum d n d nbsp sumarna dovzhina vsih dokumentiv p w displaystyle p w nbsp apriornij rozpodil na mnozhini sliv empirichna ocinka p w n w n displaystyle p w n w n nbsp de n w displaystyle n w nbsp chislo vhodzhen slova w displaystyle w nbsp v usi dokumenti Shukani umovni rozpodilu p w t p t d displaystyle p w t p t d nbsp virazhayutsya cherez p t w p d t displaystyle p t w p d t nbsp za formuloyu Bayesa p w t p t w p w w p t w p w p t d p d t p t t p d t p t displaystyle p w t frac p t w p w sum w p t w p w qquad p t d frac p d t p t sum t p d t p t nbsp Dlya identifikaciyi parametriv tematichnoyi modeli po kolekciyi dokumentiv zastosovuyetsya princip maksimumu pravdopodibnosti yakij prizvodit do zadachi maksimizaciyi funkcionalu 19 d D w d n d w ln t T f w t 8 t d max F 8 displaystyle sum d in D sum w in d n dw ln sum t in mathrm T varphi wt theta td to max Phi Theta nbsp pri obmezhennyah normuvannya w p w t 1 t p t d 1 t p t 1 displaystyle sum w p w t 1 sum t p t d 1 sum t p t 1 nbsp de n d w displaystyle n dw nbsp chislo vhodzhen slova w displaystyle w nbsp u dokument d displaystyle d nbsp Dlya virishennya danoyi optimizacijnoyi zadachi zazvichaj zastosovuyetsya EM algoritm Osnovni nedoliki PLSA Chislo parametriv zrostaye linijno po chislu dokumentiv v kolekciyi sho mozhe prizvoditi do perenavchannya modeli Pri dodavanni novogo dokumenta d displaystyle d nbsp u kolekciyu rozpodil p t d displaystyle p t d nbsp nemozhlivo obchisliti za timi zh formulami sho i dlya inshih dokumentiv ne perebudovuyuchi vsyu model zanovo Latentne rozmishennya Dirihle Redaguvati nbsp Latentne rozmishennya Dirihle LDA w displaystyle w nbsp slovo sposterezhuvana zminna t displaystyle t nbsp tema prihovana zminna D displaystyle D nbsp kolekciya dokumentiv N displaystyle N nbsp dovzhina dokumenta v slovah K displaystyle K nbsp kilkist tem v kolekciyi 8 displaystyle theta nbsp rozpodil tem u dokumenti ϕ displaystyle phi nbsp rozpodil sliv v temiMetod latentnogo rozmishennya Dirihle en LDA buv zaproponovanij Devidom Bleyem u 2003 roci U comu metodi usuneni osnovni nedoliki PLSA Metod LDA zasnovanij na tij samij imovirnisnij modeli p d w t T p d p w t p t d displaystyle p d w sum t in T p d p w t p t d nbsp pri dodatkovih pripushennyah vektori dokumentiv 8 d p t d t T displaystyle theta d bigl p t d t in T bigr nbsp porodzhuyutsya odnim i tim zhe imovirnisnim rozpodilom na normovanih T displaystyle T nbsp mirnih vektorah cej rozpodil zruchno vzyati z parametrichnogo simejstva rozpodiliv Dirihle D i r 8 a a R T displaystyle mathrm Dir theta alpha alpha in mathbb R T nbsp vektori tem ϕ t p w t w W displaystyle phi t bigl p w t w in W bigr nbsp porodzhuyutsya odnim i tim zhe imovirnisnim rozpodilom na normovanih vektorah rozmirnosti W displaystyle W nbsp cej rozpodil zruchno vzyati z parametrichnogo simejstva rozpodiliv Dirihle D i r 8 b b R W displaystyle mathrm Dir theta beta beta in mathbb R W nbsp Dlya identifikaciyi parametriv modeli LDA po kolekciyi dokumentiv zastosovuyetsya semplyuvannya Gibbsa en variacijnij bayesivskij visnovok abo metod poshirennya ochikuvannya en Div takozh RedaguvatiExplicit semantic analysis en Iyerarhichnij proces Dirihlye en Primitki Redaguvati Korshunov 2012 a b Voroncov 2013 Ali10 2010 Voroncov12 2012 Papadimitriu 1998 Hofmann 1999 Blej2003 2003 Templton 2011 Dzhokers 2010 NyumanBlok 2006 Grifits 2004 Blevin 2010 Mimno 2012 Blej2012 2012 Korshunov 2012 s 229 Voroncov 2013 s 6 Voroncov13 2013 s 5 VoroncovML 2013 s 5 K V Voroncov Veroyatnostnoe tematicheskoe modelirovanie russkij Literatura RedaguvatiKorshunov Anton Gomzin Andrej 2012 Tematicheskoe modelirovanie tekstov na estestvennom yazyke zhurnal vid Trudy Instituta sistemnogo programmirovaniya RAN Voroncov K V 2013 Veroyatnostnoe tematicheskoe modelirovanie web vid www machinelearning ru Voroncov K V Potapenko A A 2012 Regulyarizaciya robastnost i razrezhennost veroyatnostnyh tematicheskih modelej zhurnal vid Kompyuternye issledovaniya i modelirovanie s 693 706 Voroncov K V 2013 Additivnaya regulyarizaciya veroyatnostnyh tematicheskih modelej Prezentaciya web vid www machinelearning ru Voroncov K V 2013 Veroyatnostnye tematicheskie modeli kollekcii tekstovyh dokumentov Prezentaciya web vid www machinelearning ru Mark Stejvers Tom Griffiths 2007 Veroyatnostnaya tematicheskaya model Spravochnik skrytogo semanticheskogo analiza Psychology Press ISBN 978 0 8058 5418 3 Arhivovano cherven 24 2013 na sajti Wayback Machine Daud Ali Li Juanzi Zhou Lizhu Muhammad Faqir 2010 Knowledge discovery through directed probabilistic topic models a survey In Proceedings of Frontiers of Computer Science in China web vid www researchgate net Christos Papadimitriou Prabhakar Raghavan Hisao Tamaki Santosh Vempala 1998 Latent Semantic Indexing A probabilistic analysis vid Proceedings of ACM PODS Arhiv originalu za 9 travnya 2013 Thomas Hoffman 1999 Probabilistic Latent Semantic Indexing vid Proceedings of the Twenty Second Annual International SIGIR Conference on Research and Development in Information Retrieval Arhiv originalu za 14 grudnya 2010 David M Blei Andrew Y Ng Michael I Jordan 2003 Latent Dirichlet Allocation vid Journal of Machine Learning Research Arhiv originalu za 1 travnya 2012 David Blei 2012 Introduction to Probabilistic Topic Models vid Communications of the ACM s 77 84 Arhiv originalu za 15 lyutogo 2017 David Blei J D Lafferty 2009 Topic models web Arhiv originalu za 31 travnya 2013 David Blei J D Lafferty 2007 Introduction to Probabilistic Topic Models vid Annals of Applied Statistics s 17 35 doi 10 1214 07 AOAS114 Arhiv originalu za 15 lyutogo 2017 David Mimno 2012 Computational Historiography Data Mining in a Century of Classics Journals zhurnal vid Journal on Computing and Cultural Heritag doi 10 1145 2160165 2160168 Matthew L Jockers 2010 Who s your DH Blog Mate Match Making the Day of DH Bloggers with Topic Modeling web E Miks 2011 Ponimanie cifrovyh gumanitarnyh nauk web C Templton 2011 Tematicheskoe modelirovanie v gumanitarnyh naukah obzor web vid Maryland Institute for Technology in the Humanities Blog T Gifits M Stejvers 2004 Nahozhdenie nauchnyh tem zhurnal vid Proceedings of the National Academy of Sciences PMID 14872004 doi 10 1073 pnas 0307752101 T Yang A Torget R Mihalcea 2011 Tematicheskoe modelirovanie v istoricheskih gazetah zhurnal vid Proceedings of the 5th ACL HLT Workshop on Language Technology for Cultural Heritage Social Sciences and Humanities The Association for Computational Linguistics Madison s 96 104 Arhiv originalu za 27 bereznya 2014 S Blok 2006 Delaem bolshe s ocifrovkoj vvedenie v tematicheskoe modelirovanie v rannih amerikanskih istochnikah zhurnal vid Common place The Interactive Journal of Early American Life D Nyuman S Blok 2006 Veroyatnostnoe tematicheskoe razlozhenie v gazetah 18 veka zhurnal vid Journal of the American Society for Information Science and Technology doi 10 1002 asi 20342 C Blevin 2010 Tematicheskoe modelirovanie dnevnika Marty Ballards web vid historying Posilannya RedaguvatiLekciya Tematicheskoe modelirovanie K V Voroncov Shkola analizu danih video lekciyi Lekciya 2 Tematicheskoe modelirovanie K V Voroncov Shkola analizu danih video lekciyi Tematicheskoe modelirovanie Kollekcii dokumentov dlya tematicheskogo modelirovaniya Polnostyu razrezhennye tematicheskie modeli perevod Fully Sparse Topic Models Obzor po veroyatnostnym tematicheskim modelyam Tematicheskie modeli dlya kollekcii tekstov Bajesovskie metody mashinnogo obucheniya kurs lekcij D P Vetrov D A Kropotov Tepllton Klaj Tematicheskoe modelirovanie v gumanitarnyh naukah Obshij obzor vid Maryland Institute for Technology in the Humanities Primenenie tematicheskogo modelirovaniya dlya analiza novostej i revyu Video of a Google Tech Talk presentation by Alice Oh on topic modeling with Latent Dirichlet allocation Modelirovanie nauki Dinamicheskoe tematicheskoe modelirovanie nauchnyh issledovanij Video of a Google Tech Talk presentation by David M Blei Avtomatizirovannaya tematicheskaya model v politicheskoj nauke Video of a presentation by Brandon Stewart at the Tools for Text Workshop 14 June 2010 Lekciya Tematicheskoe modelirovanie Devid Blej 2009 g Video lekciya vid Prinstonskogo universitetu Regulyarizaciya veroyatnostnyh tematicheskih modelej dlya povysheniya interpretiruemosti i opredeleniya chisla tem Dialog 2014 Parsimonious Topic Models with Salient Word DiscoveryProgramne zabezpechennya ta programni biblioteki Redaguvati Malet programa Instrumentarij Stenfordskogo universitetu z tematichnogo modelyuvannya GenSim tematichne modelyuvannya dlya lyudej LDA C LDA in Infer NET Otrimano z https uk wikipedia org w index php title Tematichne modelyuvannya amp oldid 40142136