www.wikidata.uk-ua.nina.az
Ko rpusna lingvi stika rozdil movoznavstva sho vivchaye stvorennya obrobku ta vikoristannya korpusiv Rozv yazuvannya zadach pov yazanih z poshukom prikladiv sho ilyustruyut te abo inshe movne yavishe a takozh z utochnennyam vzhivannya okremih leksem privelo do poyavi novogo napryamu v prikladnij lingvistici do korpusnoyi lingvistiki tobto nauki sho vivchaye stvorennya korpusiv tekstiv i yihnye vikoristannya Za ostannye desyatilittya korpusna lingvistika shvidko prijnyala toj dosvid yakij buv nakopichenij v inshih dostatno rozvinenih galuzyah sho ob yednuyutsya terminom AOT avtomatichna obrobka tekstu abo zh ART avtomatichne rozuminnya tekstu korpusna lingvistika sogodni maye dvi liniyi rozvitku lingvistichnij analiz tekstu i informacijnij analiz tekstu Informacijnij analiz realizuyetsya v sistemah tipu IPS informacijno poshukovi sistemi a lingvistichnij analiz pragne interpretuvati viyaviti sens tekstu pri comu lingvistichnij analiz harakterizuyetsya lokalnistyu tobto prohodit v ramkah odniyeyi propoziciyi Informacijnij analiz navpaki bachit tekst yak cile Ci dva napryami rozvivalisya majzhe paralelno praktichno niyak ne stikayuchis unaslidok chogo ne otrimali dostatnogo rozvitku Lingvistichnij analiz ne dav korektnogo mashinnogo perekladu oskilki odna nepravilno interpretovana fraza mozhe v konteksti nabuvati absolyutno inshogo znachennya Zmist 1 Korpusi 2 Korpusi ukrayinskoyi movi 3 Konkordansi 4 Komp yuterna leksikografiya 5 Div takozh 6 Primitki 7 PosilannyaKorpusi RedaguvatiDokladnishe Korpus tekstivNini v naukovomu slovniku lingvistiv z yavlyayutsya duzhe blizki ponyattya elektronni biblioteki masiv tekstiv kolekciya tekstiv elektronnij arhiv povnotekstova baza danih Sered nih mozhna vidiliti lingvistichni korpusi abo movni korpusi Korpus tekstiv ce vid korpusu danih odinicyami yakogo ye teksti abo yih dostatno znachni fragmenti sho vklyuchayut napriklad yakis povni fragmenti makrostrukturi tekstiv danoyi problemnoyi oblasti Korpus tekstiv harakterizuyetsya chotirma osnovnimi parametrami po pershe vin povinen buti dostatno velikogo obsyagu po druge korpus povinen buti strukturovanim abo rozmichenim po tretye teksti skladovi pevnogo korpusu povinni buti v elektronnomu varianti po chetverte v ponyattya Elektronnij korpus vhodit yak pravilo specialne programne zabezpechennya dlya roboti z cim korpusom Cinnist korpusu vbachayetsya v nastupnomu odnogo razu zroblenij korpus mozhe bagato raziv vikoristovuvatisya korpus pokazuye movni dani v yih realnomu otochenni sho dozvolyaye doslidzhuvati leksichnu i gramatichnu strukturu movi a takozh bezperervni procesi movnih zmin sho vidbuvayutsya v movi vprodovzh pevnogo vidrizka chasu korpus harakterizuyetsya pokazovistyu abo zbalansovanim skladom tekstiv sho dozvolyaye vikoristovuvati jogo dlya testuvannya poshukovih mashin mashinnih morfologij sistem perekladu a takozh vikoristovuvati jogo v riznih lingvistichnih doslidzhennyah korpus maye vazhlive znachennya dlya vikladannya movi oskilki za dopomogoyu korpusu mozhna shvidko i efektivno pereviriti osoblivosti vzhivannya neznajomogo slova abo gramatichnoyi formi Robota z korpusami tobto z masivami tekstiv predstavlenimi v elektronnomu viglyadi stala odnim z osnovnih metodiv lingvistichnih doslidzhen Tak she v 1960 i roki stvoryuvavsya Braunivskij korpus SShA 1 yakij vklyuchaye 1 mln sliv Vidtodi vinikla cila nizka analogichno pobudovanih korpusiv LOB korpus britanska anglijska u 1960 h rokah Kolhapur indijska anglijska en Vellington novozelandska anglijska Avstralijskij korpus anglijskoyi movi avstralijska anglijska korpus Fraun na pochatku 1990 h rokiv amerikanska anglijska a takozh FLOB Korpus 1990 ti roki britanska anglijska Mizhnarodnij korpus anglijskoyi movi i Britanskij nacionalnij korpus British National Corpus Arhivovano 25 lyutogo 2011 u Wayback Machine vklyuchayut kolekciyu zi 100 mln sliv rozmovnogo ta pismovogo tekstu Napovnyuyutsya inshi nacionalni korpusi mov ugorskij italijskij horvatskij cheskij yaponskij obsyagom 100 mln sliv Na pochatku XXI st stvorili American National Corpus Arhivovano 13 travnya 2008 u Wayback Machine 100 mln sliv i Gigaword corpora anglijska arabska kitajska sho vklyuchaye 1 mlrd sliv Krim korpusu zhivih mov z kolekcij tekstiv zrobili komp yuterni korpusi starodavnih mov Napriklad z 1970 h rokiv stvoryuyetsya baza yevrejskoyi Bibliyi 2 3 U Korpusi arabskoyi movi Koranu en zibrano ponad 77 tisyach sliv 4 Pershij komp yuterizovanij lingvistichnij korpus buv rozroblenij 1971 roku Monrealskim francuzkim proektom sho mistit odin miljon sliv 5 6 Isnuvannya korpusiv tekstiv daye mozhlivist znachno rozshiriti j avtomatizuvati analiz movnogo materialu yakij ye najvazhlivishoyu bazoyu bud yakogo lingvistichnogo doslidzhennya Chim bilshe materialiv analizuyetsya tim visha znachushist visnovkiv i riven yih dostovirnosti Suchasni komp yuterni programi dozvolyayut znahoditi potribni prikladi z korpusiv tekstiv yaki zberigayutsya v elektronnomu viglyadi na komp yuteri Ce ekonomit znachnu kilkist chasu v porivnyanni z tradicijnoyu tehnologiyeyu zboru prikladiv vruchnu Vidznachimo sho same anotaciya abo rozmitka golovna harakteristika korpusu yaka i vidriznyaye jogo vid elektronnih kolekcij bibliotek enciklopedij shiroko predstavlenih v suchasnomu Interneti Rozmitka tekstu ce pripisuvannya tekstu pevnoyi informaciyi dlya zruchnishogo analizu Isnuyut rizni tipi rozmitki metatekstova rozmitka avtor nazva data stvorennya obsyag tematika tekstu i t d yaka harakterizuye tekst v cilomu strukturna rozmitka ye informaciyeyu pro strukturu tekstu yaka dozvolyaye vidokremiti odne slovo vid inshogo vidiliti mezhi slovospoluchennya rechennya tekstu lingvistichna rozmitka polyagaye v pripisuvanni odinicyam tekstu pevnoyi lingvistichnoyi informaciyi zaperechne rechennya abo pitalne sponukalne abo primikannya i t d Yak vidomo chim bagatsha i riznomanitnisha rozmitka tim vishoyu ye naukova i navchalna cinnist korpusu Korpusi ukrayinskoyi movi RedaguvatiV Ukrayini pershij dostupnij dlya poshuku v interneti korpus tekstiv ukrayinskoyi movi rozrobleno spivrobitnikami laboratoriyi komp yuternoyi lingvistiki Institutu filologiyi Kiyivskogo nacionalnogo universitetu imeni Tarasa Shevchenka pid kerivnictvom N P Darchuk u 2004 roci 7 Obsyag korpusu ponad 100 mln slovovzhivan Korpus dostupnij dlya poshuku onlajn z 2010 roku U korpusi zberigayutsya publicistichni hudozhni naukovi zakonodavchi poetichni folklorni teksti opracovani avtomatichnim lingvistichnim analizatorom Kozhnij odinici tekstu morfemi slovu slovospoluchennyu rechennyu pripisana suprovidna informaciya chastinomovna nalezhnist gramatichna forma sintaksichna funkciya kontekst tosho Korpus nadaye informaciyu dvoh tipiv Konkordansi abo zh konteksti vzhivannya shukanih odinic iz vkazivkoyu na dzherela Za dopomogoyu konkordansiv mozhlivo vivchati osoblivosti vikoristannya sliv u tekstah riznih stiliv individualno avtorski vzhivannya tih chi inshih leksem rozvitok novih znachen tosho Konkordansi vikoristovuyut takozh dlya psiholingvistichnih ta sociolingvistichnih doslidzhen vivchennya asociativnih zv yazkiv mizh slovami u literaturoznavchomu analizi dlya rozkrittya avtorskogo bachennya pevnih konceptiv chi obraziv osoblivostej movnoyi kartini svitu pevnogo avtora tosho Kilkisni harakteristiki vzhivannya u tekstah movnih odinic Chastotna informaciya rozkrivaye zakonomirnosti leksichnoyi ta statistichnoyi budovi tekstiv funkcionuvannya movi v movlenni stilistichni osoblivosti formalni risi odinic i gramatichnih kategorij 8 Z 2012 roku dostupni onlajn paralelni ukrayinsko rosijskij ta rosijsko ukrayinskij korpusi Arhivovano 20 kvitnya 2013 u Wayback Machine u skladi Nacionalnogo korpusu rosijskoyi movi Z 2014 roku aktivno rozvivayetsya Ukrayinskij vebkorpus Lejpcizkogo universitetu Nimechchina Mistit teksti z internetu bez morfologichnoyi rozmitki Z 2017 roku diye Generalnij regionalno anotovanij korpus ukrayinskoyi movi GRAK Arhivovano 1 veresnya 2018 u Wayback Machine Obsyag desyatoyi versiyi korpusu ponad 650 mln tokeniv GRAK mistit teksti 1816 2020 rokiv maye rozgaluzhenu metarozmitku Teksti korpusu datovano rokom napisannya i rokom publikaciyi rozmicheno za avtorom stilem zhanrom regionom chi krayinoyu stvorennya pravopisom tosho U GRAKu vpershe predstavleno velikij korpus tekstiv diaspori blizko 40 mln tokeniv GRAK mistit originalni ta perekladni ukrayinski teksti Morfologichnu anotaciyu korpusu zdijsneno za dopomogoyu instrumenta analizu ukrayinskoyi movi na osnovi slovnika VESUM ta rushiya LanguageTool Dlya poshuku v korpusi vikoristano korpusnij menedzher NoSketchEngine yakij daye mozhlivist shukati v cilomu korpusi abo chastini korpusu otrimuvati konkordansi chastotni spiski zavantazhuvati rezultati dlya podalshoyi roboti z nimi Na sajti GRAKa dostupni dodatkovi instrumenti taki yak instrument dlya vizualizaciyi rezultativ poshuku u viglyadi grafikiv chastotnosti za rokami instrument dlya poshuku za velikim spiskom instrument dlya analizu skladu korpusu 2018 roku bulo prezentovano ukrayinsko polskij korpusnij proyekt Laboratoriya ukrayinskoyi u mezhah yakogo ye korpus zi znyatoyu vruchnu omonimiyeyu ta sintaksichnoyu rozmitkoyu obsyagom 140 tis sliv vebkorpus obsyagom majzhe 3 mlrd sliv Ukrayina Polsha paralelni korpusi Morfologichnu rozmitku korpusiv zdijsneno za dopomogoyu sistemi Universal Dependencies Poshuk pracyuye na osnovi NoSketchEngine Braunskij ukrayinskij korpus Arhivovano 26 lipnya 2020 u Wayback Machine na stadiyi rozroblennyaLang uk Arhivovano 31 lipnya 2019 u Wayback Machine Korpusi ukrayinskih tekstiv dostupni dlya zavantazhennya novini Vikipediya hudozhni teksti veb Obsyag blizko 600 mln tokeniv Korpus biblioteki Chtivo Arhivovano 6 lipnya 2019 u Wayback Machine avtomatichno rozpiznani teksti knizhok Obsyag blizko 600 mln tokeniv Poshuk zdijsnyuyetsya doslivno bez lematizaciyi ta morfologichnogo analizu Konkordansi RedaguvatiDokladnishe KonkordansProstir elektronnih tekstovih korpusiv dav mozhlivist rezultativnogo vikoristannya elektronnih konkordansiv yaki vidkrivayut perspektivi modelyuvannya movnoyi kartini svitu Konkordans ye specializovanoyu lingvistichnoyu prikladnoyu programoyu za dopomogoyu yakoyi zdijsnyuyetsya avtomatichna vibirka zadanih movnih odinic z elektronnih tekstiv Funkciyu konkordansu mozhna porivnyati z funkciyeyu poshuku v tekstovomu redaktorovi prote mozhlivosti konkordansu shirshi vin analizuye ne odin a vidrazu dekilka tekstiv abo korpusiv elektronnih tekstiv pri comu konkordans vivodit na ekran informaciyu pro kontekst vikoristannya zadanih movnih odinic Zalezhno vid tehnichnih mozhlivostej konkordans mozhe nadavati informaciyu pro chastotnist vzhivannya i spoluchuvanosti tiyeyi abo inshoyi movnoyi odinici a takozh daye mozhlivist zvertatisya do konkretnogo tekstu v yakomu buv znajdenij priklad Isnuye elektronnij konkordans povnih tvoriv Grigoriya Skovorodi na sajti Albertskogo universitetu v Kanadi 9 a takozh onlajn konkordans romanu Ivana Franka Perehresni stezhki avtori Buk S Rovenchak A na storinci Lvivskogo universitetu 10 Komp yuterna leksikografiya RedaguvatiBezumovno korpusna lingvistika yaskravo i chitko reprezentuye sebe v odnomu z perspektivnih napryamiv komp yuternoyi leksikografiyi Elektronni slovniki i enciklopediyi rozroblyayutsya sogodni yak avtonomni i merezhevi programni produkti Ne viklikaye sumnivu toj fakt sho elektronni slovniki nadayut koristuvachevi bezlich dodatkovih mozhlivostej v porivnyanni z drukarskimi analogami dozvolyayut zberigati velikij obsyag informaciyi za rahunok vikoristannya giperposilan elektronnij slovnik maye efektivnu sistemu poshuku povnotekstovij poshuk odnochasnij poshuk v dekilkoh slovnikah shvidkist poshuku u elektronnih slovnikah mozhut zastosovuvatisya zasobi multimedia ozvuchuvannya zagolovnih sliv vvedennya ilyustrativnogo materialu z fotografiyami animaciyeyu videofragmentami mozhlivist vikoristannya slovnikiv v lokalnij i globalnij merezhah znachna ekonomiya chasu i materialnih resursiv pri stvorenni komp yuternih slovnikiv Znachnij dosvid doslidzhen v komp yuternij leksikografiyi dozvolyaye rozshiriti mozhlivosti vivchennya smislovoyi strukturi politichnogo slova Tak sogodni v naukovih proektah aktivno rozroblyayetsya ideya pov yazana z organizaciyeyu konceptualnogo prostoru movi politiki z poziciyi gipertekstovoyi yednosti Kazhuchi pro specifiku zmistu takogo slovnika vidznachimo sho slovo v elektronnomu varianti realizuyetsya v semantichnomu makropoli sho skladayetsya z dekilkoh poliv zbudovanih v pevnu sistemu pole indeksaciyi sluzhit dlya zruchnogo poshuku v bazi danih pole zagolovnogo slova pole gramatichnoyi informaciyi pragmatichne navantazhennya yakoyi pov yazane z konkretnim gramatichnim statusom v tekstah pole etimologichnih dovidok pole avtorskogo tlumachennya buduyetsya ne po vsij semantichnij paradigmi slova a lishe po yiyi osnovnij chastini tematichno pov yazanij z politichnoyu sferoyu vzhivannya pole ilyustracij pracyuye dlya verifikaciyi definiciyi tim samim viyavlyaye semantiku politichnogo slova v pevnomu kontekstualnomu otochenni Vazhlivo vidznachiti sho v slovniku ilyustraciyi z tekstiv riznih zhanriv vikoristovuyutsya i v tradicijnomu viglyadi yak vipravduvalnij kontekst ce osoblivo vazhlivo dlya metaforichnih znachen i yak leksikografichnij prijom sho dopomagaye stvoriti prostorova timchasova i socialno istorichna perspektivi pole frazeologiyi pole enciklopedichnih vidomostej vidobrazhaye osnovni etapi stanovlennya danoyi definiciyi evolyuciyu jogo dominantnih oznak Komp yuterne zabezpechennya slovnika dovidkovogo tipu skladayetsya z dvoh skladovih baza danih slovnika viznachayetsya sistemoyu keruvannya bazami danih interfejs rozroblyayetsya specialno dlya danogo slovnika Bazoyu dlya jogo realizaciyi posluzhila mova programuvannya Delphi yakij dozvolyaye zdijsnyuvati zavdannya avtomatichnogo poshuku sliv a takozh zruchnij navigaciyi useredini slovnika Navedemo leksikografichnij virtualnij portret slova eskalaciya Slovo v elektronnomu slovniku predstavlene v 4 h polyah pole 1 skladayetsya z bloku zagolovnogo slova bloku gramatichnih poslid etimona U comu zh poli obov yazkovim elementom ye blok avtorskogo tlumachennya pole 2 predstavleno ilyustrativnim materialom Korpusu rosijskoyi nacionalnoyi movi Ci ilyustraciyi dopomagayut opisati semantichnu strukturu slova i viznachiti komunikativnij status slova pole 3 mikrostruktura elektronnogo slovnika sho vklyuchaye definiciyi suchasnih tyamushih i tyamusho dovidkovih vidan pole 4 ye na nash poglyad neobhidnoyu strukturnoyu chastinoyu elektronnogo dovidkovogo vidannya i mistit enciklopedichni vidomosti pro dane ponyattya U velikomu enciklopedichnomu slovniku napriklad dane slovo viznachayetsya yak rozshirennya naroshuvannya ozbroyen tosho postupove posilennya rozpovsyudzhennya konfliktu tosho zagostrennya polozhennya tosho Same 3 i i 4 i polya mozhut opisati dinamiku rozvitku semantiki slova Napriklad slovo eskalaciya v suchasnih slovnikah politichnoyi movi predstavleno z implicitnim negativnim pragmatichnim komponentom obumovlenim kategorialnoyu semoyu diya napravlena na negativnij rezultat sho pidtverdzhuyetsya Polem ilyustracij Takim chinom slovnik ye sistematizovanij alfavitnij masiv yadernoyi politichnoyi leksiki Proponovane leksikografichne doslidzhennya daye mozhlivist viyaviti osnovni tendenciyi v rozvitku yadernoyi politichnoyi leksiki zabezpechiti dostupnist slovnika za rahunok efektivnoyi sistemi poshuku a takozh zberigati velikij obsyag informaciyi za rahunok giperposilan Div takozh RedaguvatiKorpus tekstiv TEI iniciativa koduvannya tekstu Primitki Redaguvati Brown Corpus Arhiv originalu za 10 chervnya 2008 Procitovano 5 chervnya 2008 Andersen Francis I Forbes A Dean 2003 Hebrew Grammar Visualized I Syntax Ancient Near Eastern Studies 40 pp 43 61 Eyland E Ann 1987 Revelations from Word Counts in Newing Edward G Conrad Edgar W Perspectives on Language and Text Essays and Poems in Honor of Francis I Andersen s Sixtieth Birthday July 28 1985 Winona Lake Dukes K Atwell E and Habash N Supervised Collaboration for Syntactic Annotation of Quranic Arabic Language Resources and Evaluation Journal 2011 Sankoff D amp Sankoff G Sample survey methods and computer assisted analysis in the study of grammatical variation In Darnell R ed Canadian Languages in their Social Context Edmonton Linguistic Research Incorporated 1973 7 64 Poplack S The care and handling of a mega corpus In Fasold R amp Schiffrin D eds Language Change and Variation Amsterdam Benjamins 1989 411 451 Testova versiya korpusu tekstiv ukrayinskoyi movi Arhiv originalu za 2 travnya 2022 Procitovano 19 travnya 2016 Korpus ukrayinskoyi movi Arhiv originalu za 12 chervnya 2016 Procitovano 19 travnya 2016 Arhivovana kopiya Arhiv originalu za 19 listopada 2011 Procitovano 18 travnya 2017 Arhivovana kopiya Arhiv originalu za 11 grudnya 2016 Procitovano 17 grudnya 2020 Posilannya RedaguvatiKorpus ukrayinskoyi movi Laboratoriyi komp yuternoyi lingvistiki Kiyivskogo nacionalnogo universitetu imeni Tarasa Shevchenka dostupnij dlya onlajn poshuku Arhivovano 1 travnya 2013 u Wayback Machine Generalnij regionalno anotovanij korpus ukrayinskoyi movi GRAK uacorpus org Arhiv originalu za 1 veresnya 2018 Procitovano 6 sichnya 2021 Laboratoriya ukrayinskoyi Arhivovano 6 travnya 2021 u Wayback Machine Neanotovanij korpus ukrayinskoyi movi korpus org ua Arhivovano 6 lipnya 2019 u Wayback Machine 238 Corpus Based Monolingual Dictionaries for 219 Languages zokrema korpus ukrayinskih tekstiv ponad 102 mln rechen Paralelni ukrayinsko rosijskij ta rosijsko ukrayinskij korpusi na sajti Nacionalnogo korpusu rosijskoyi movi Arhivovano 20 kvitnya 2013 u Wayback Machine Perelik posilan na lingvistichni korpusi na sajti Nacionalnogo korpusu rosijskoyi movi Arhivovano 20 kvitnya 2013 u Wayback Machine ros Demska Kulchicka O Osnovi nacionalnogo korpusu ukrayinskoyi movi K Institut ukrayinskoyi movi nacionalnoyi akademiyi nauk Ukrayini 2005 219 s Korpusna lingvistika V A Shirokov O V Bugakov T O Gryaznuhina ta in K Dovira 2005 471 s Buk S Korpus tekstiv Ivana Franka sproba viznachennya osnovnih parametriv Prikladna lingvistika ta lingvistichni tehnologiyi MegaLing 2006 Zb nauk pr NAN Ukrayini Ukr movn inform fond Tavrijsk nac un t im V I Vernadskogo za red V A Shirokova K Dovira 2007 S 72 82 Maria Shvedova The General Regionally Annotated Corpus of Ukrainian GRAC uacorpus org Architecture and Functionality Proceedings of the 4th International Conference on Computational Linguistics and Intelligent Systems COLINS 2020 Volume I Main Conference Lviv Ukraine April 23 24 2020 P 489 506 Arhivovano 9 sichnya 2021 u Wayback Machine Mariya Shvedova Generalnij regionalno anotovanij korpus ukrayinskoyi movi GRAK yak instrument doslidzhennya leksiko gramatichnoyi variativnosti Lyudina Komp yuter Komunikaciya Zbirnik naukovih prac za red prof O P Levchenko Vidavnictvo Lvivskoyi politehniki 2019 S 145 148 V Starko A Risin Velikij elektronnij slovnik ukrayinskoyi movi VESUM yak zasib NLP dlya ukrayinskoyi movi 2020 Vasyl Starko Semantic Annotation for Ukrainian Categorization Scheme Principles and Tools Arhivovano 9 sichnya 2021 u Wayback Machine Proceedings of the 4th International Conference on Computational Linguistics and Intelligent Systems COLINS 2020 Volume I Main Conference Lviv Ukraine April 23 24 2020 Boguslavskij I M i dr Annotirovannyj korpus russkih tekstov koncepciya instrumenty razmetki tipy informacii Trudy Mezhdunarodnogo seminara po kompyuternoj lingvistike i eyo prilozheniyam Dialog 2000 Protvino 2000 Zubov A V informacionnye tehnologii v lingvistike Ucheb posobie dlya stud lingv fak tov vyssh ucheb zavedenij A V Zubov I I Zubova M Izdatelskij centr Akademiya 2004 208 s Cyu stattyu treba vikifikuvati dlya vidpovidnosti standartam yakosti Vikipediyi Bud laska dopomozhit dodavannyam dorechnih vnutrishnih posilan abo vdoskonalennyam rozmitki statti Gruden 2008 nbsp Ce nezavershena stattya z movoznavstva Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi Otrimano z https uk wikipedia org w index php title Korpusna lingvistika amp oldid 37264635