www.wikidata.uk-ua.nina.az
Text Encoding Initiative TEI ce mizhnarodna naukova grupa doslidnikiv pismovoyi movi oriyentovana na spivtovaristvo praktikiv v akademichnij sferi cifrovih gumanitarnih disciplin en yaka pracyuye z 1980 roku Spilnota vede spisok rozsilki naradi ta seriyi konferencij a takozh pidtrimuye odnojmennij tehnichnij standart zhurnal viki shovishe GitHub U 2001 roci TEI staye konsorciumom ob yednuyuchi sili doslidnikiv u galuzi komp yuternoyi obrobki prirodnih mov Text Encoding InitiativeVebsajt tei c org Zmist 1 Znachennya standartu 2 Oglyad metodiv rozpiznavannya tekstu 3 Tehnichni detali 4 Div takozh 5 PrimitkiZnachennya standartu RedaguvatiDigital humanities yak samostijni napryami doslidzhen sho vinikli na mezhi gumanitarnih nauk i suchasnih IT peretvorili tekst z rukopisnogo raritetu v ob yekt elektronnoyi publikaciyi Oskilki biblioteki dedali bilshe ocifrovuyut svoyi kolekciyi Google knigi Proyekt Gutenberga proyekt Gallika vid Nacionalnoyi biblioteki Franciyi proyekt Yevropiana vid Yevropejskoyi komisiyi proyekt Open Library zrostaye kilkist vidskanovanih rukopisiv yaki suchasnim metodam rozpiznavannya tekstu skladno rozshifrovuvati Dokumenti ciyeyi kategoriyi variyuyutsya vid serednovichnih rukopisiv do rannih drukovanih tvoriv bilshist iz nih ne mayut elektronnih transkripcij bo potochni metodi OCR ne pracyuyut yih vmist zalishayetsya neprozorim dlya poshuku Koristuyuchis isnuyuchimi metodami rozpiznavannya simvoliv novih scenariyiv doslidnik inodi povinen vruchnu segmentuvati ta poznachati ekzemplyari kozhnogo glifa Inshi metodi peredbachayut rozmitku cilih ryadkiv tekstu zamist okremih simvoliv en Oglyad metodiv rozpiznavannya tekstu RedaguvatiOsnovnij sposib analizu ob yektiv tekstu teoretikami obrobki tekstu ta rozrobnikami standartiv pochatku 1980 h rokiv spilnota SGML v yihnomu rozuminni dokumenti mogli buti predstavleni za pravilami rozmitki yedinoyi logichnoyi iyerarhichnoyi fizichnoyi strukturi principovo vidriznyayetsya vid sposobu analizu ob yektiv literaturno lingvistichnim koduvalnim spivtovaristvom kincya 1980 h spilnota TEI viyavila bagato iyerarhichnih pravdopodibno logichnih struktur 1 Upershe osnovni principi sistemi koduvannya tekstiv TEI opublikovano u 1994 roci pislya shesti lit rozrobok z koduvannya ta rozpiznavannya rukopisnih tekstiv vchenimi Oksfordskogo universitetu Lu Bernardom en ta Shperberg Mak Kvinom en 2 V 2002 vinik standart LMNL 3 sho dozvolyaye rozmichati ta obroblyati tekst ne vstanovlyuyuchi iyerarhiyi vzagali Sintaksis cogo metodu koduvannya pid nazvoyu HORSE dozvolyaye povnistyu predstaviti bud yakij dokument LMNL u XML Zgodom nazva metodu bula zminena na OSIS XML shema CLIX duzhe shozha na shemu iniciativi koduvannya tekstu TEI 4 Spochatku TEI bazuvalasya na elektronnomu korpusi tekstiv klasikiv anglijskoyi literaturi Oxford Text Archive en Zaraz do skladu mizhnarodnoyi naukovoyi grupi yaka adaptuye sistemu TEI dlya koduvannya dokumentiv nacionalnih literaturnih korpusiv uvijshli ponad 100 vchenih riznih specialnostej z riznih krayin svitu proyekti nacionalnogo rivnya British National Corpus New Zealand Electronic Text Collection en ta mensh vidomi University of Michigan Humanities Text Initiative HTI University of Virginia Electronic Text Center tosho 5 Tematika koduvannya tekstovih dokumentiv u sviti postijno i poslidovno rozvivayetsya z 1980 h rokiv V danij chas v sviti pracyuye kilka spilnot yaki rozroblyayut problemno oriyentovani shemi koduvanni tekstovih dokumentiv napriklad EpiDoc en Music Encoding Initiative en Charter Encoding Initiative de Medieval Nordic Text Archive en Manuscripts Special Interest Group 6 koduvannya rukopisnih dzherel Voni vikoristovuyut format TEI proponuyuchi vlasni rozshirennya Do teperishnogo chasu yih rozrobki nosyat metodichnij harakter rozroblyayetsya bagatocilova shema koduvannya rukopisiv ale ne obgovoryuyetsya avtomatizaciya procesu koduvannya Populyarni proyekti po rozmitci rukopisnih dzherel oriyentovani na pidtrimku kolektivnoyi rozmitki vruchnu napriklad FromThePage 7 T PEN Transcription for Paleographical and Editorial Notation 8 Tehnichni detali RedaguvatiYak pravilo v kolekciyah elektronnih bibliotek dokumenti zberigayutsya u formati rastrovih grafichnih fajliv Transkripciya pervinnih tekstiv u mashinochitanu formu skladayetsya z nizki aktiv perekladu z odniyeyi semiotichnoyi sistemi sistemi pervinnogo dzherela na inshu semiotichnu sistemu sistemu komp yutera Yak i vsi akti perekladu cej akt tezh nepovnij ta interpretacijnij Adzhe pervinnij tekst isnuye tilki v odnij formi Biblij bagato a Codex Siniaticus lishe odin Rozpiznavannya tekstu vklyuchaye etapi peredobrobki binarizacii zobrazhen segmentaciyi vidilennya tekstovih oblastej ryadkiv sliv simvoliv analizu binarnih zobrazhen simvoliv abo sliv vstanovlennya znachen oznak porivnyannya z etalonami i viboru vidpovidnih slovoform zi slovnika vidpovidno do pevnoyi modeli movi Rozpiznavannya rukopisnih istorichnih dokumentiv v ostanni roki stalo odnim z najaktualnishih naukovih napryamkiv aktivnoyu rozrobkoyu metodiv usunennya defektiv i pokrashennyam yakosti cifrovih zobrazhen rukopisiv 9 a takozh segmentaciyi ryadkiv 10 oskilki segmentaciya simvoliv v rukopisnih tekstah chasto viyavlyayetsya skladnoyu proponuyutsya specialni algoritmi rozpiznavannya nezrozumilih sliv 11 i cilih ryadkiv zasnovani na prihovanih markovskih modelyah 12 i vipadkovih polyah 13 velika uvaga pridilyayetsya rozpiznavannyu davnogreckih tekstiv 14 i arabskih rukopisiv 15 Prikladi praktiki transkripciyi vidobutku danih ta redaguvannya tekstu na osnovi takih programi yak T PEN 16 byuro transkripcij Transcribe Bentham en TEI teksti 17 zrobili serjoznij vnesok v ocinyuvannya riznomanitnih formativ knig dlya provedennya doslidzhen Yih cinnist ne obov yazkovo polyagaye v tomu sho programi polegshuyut tekstovi eksperimenti a v tomu sho stvoryuyetsya virazno insha paradigma 18 Div takozh RedaguvatiKorpusna lingvistika Mova rozmitki danih Inkunabula Paleografiya Index Thomisticus en Transcribe Bentham en Biblical software en Voyant Tools en VisColl 19 Mapping the Republic of Letters 20 Yevropejska abetka VojnichaPrimitki Redaguvati Refining Our Notion of What Text Really Is cds library brown edu Arhiv originalu za 23 bereznya 2021 Procitovano 24 bereznya 2021 Formalizaciya rukopisnogo teksta textolog rgali ru Arhiv originalu za 21 chervnya 2021 Procitovano 24 bereznya 2021 Balisage Hierarchies within range space www balisage net angl Arhiv originalu za 27 serpnya 2020 Procitovano 24 bereznya 2021 http dspace nbuv gov ua bitstream handle 123456789 1863 57 2520 2520Demska Kulchytska pdf nedostupne posilannya Projects Using the TEI TEI Text Encoding Initiative tei c org Arhiv originalu za 13 kvitnya 2021 Procitovano 24 bereznya 2021 SIG MSS TEIWiki wiki tei c org Arhiv originalu za 15 kvitnya 2021 Procitovano 24 bereznya 2021 FromThePage TEIWiki wiki tei c org Arhiv originalu za 31 lipnya 2016 Procitovano 24 bereznya 2021 T Pen The Digital Classicist Wiki wiki digitalclassicist org Arhiv originalu za 27 bereznya 2019 Procitovano 24 bereznya 2021 Moghaddam R F Cheriet M Low quality document image modelling and enhancement Int J on Document Analysis and Recognition 2009 V 11 No 4 P 183 201 Malleron V et al Text lines and snippets extraction for 19th century handwriting documents layout analysis Int Conf on Document Analysis and Recognition Barcelone 2009 P 1001 1005 Adamek T O Connor N E Smeaton A F Word matching using single closed contours for indexing handwritten historical documents Int J on Document Analysis and Recognition 2007 V 9 No 2 4 P 153 165 Plotz T Fink G A Markov models for offline handwriting recognition a survey Int J on Document Analysis and Recognition 2009 V 12 No 4 P 269 298 Feng S Manmatha R Mccallum A Exploring the use of conditional random field models and HMMs for historical handwritten document recognition 2nd Int Conf on Document Image Analysis for Libraries DIAL 2006 P 8 37 Ntzios K et al An old Greek handwritten OCR system based on an efficient segmentation free approach Int J on Document Analysis and Recognition 2007 V 9 No 2 4 P 179 192 Lorigo L M Govindaraju V Offline Arabic handwriting recognition a survey IEEE Transactions on Pattern Analysis and Machine Intelligence 2006 V 28 No 5 P 712 724 Arhivovana kopiya Arhiv originalu za 16 travnya 2021 Procitovano 24 bereznya 2021 Arhivovana kopiya Arhiv originalu za 25 travnya 2018 Procitovano 24 bereznya 2021 Original Transcription Guidelines Canterbury Tales Project 2 Wiki wiki usask ca Arhiv originalu za 25 zhovtnya 2021 Procitovano 24 bereznya 2021 KislakCenter VisColl KislakCenter 21 bereznya 2021 Arhiv originalu za 1 listopada 2020 Procitovano 24 bereznya 2021 Mapping the Republic of Letters The National Endowment for the Humanities angl Arhiv originalu za 24 bereznya 2021 Procitovano 24 bereznya 2021 Otrimano z https uk wikipedia org w index php title Text Encoding Initiative amp oldid 39695141