hledat:    
 

Korpus SYN

Korpus SYN je nereferenční spojení textů všech referenčních synchronních psaných korpusů řady SYN, tj. SYN2000, SYN2005, SYN2006PUB, SYN2009PUB a SYN2010. Díky tomu, že jsou všechny tyto korpusy navzájem disjunktní, je celková velikost korpusu SYN daná součtem velikostí jednotlivých korpusů, a činí tedy v současné době 1,3 miliardy textových slov (tokens). Korpus SYN není reprezentativní, v jeho složení výrazně převažuje publicistika, což je samozřejmě dané především začleněním korpusů SYN2006PUB a SYN2009PUB.

Každý z korpusů řady SYN je před zveřejněním zpracováván pomocí nejlepších nástrojů dostupných v době jeho vzniku: tokenizace (rozdělení textu na slova), segmentace (rozpoznávání konců vět), morfologické analýzy i desambiguace. Jak již ale bylo zmíněno výše, všechny korpusy řady SYN jsou zároveň referenční entity, které zůstávají po celou dobu neměnné. Z toho vyplývá, že jsou ve zveřejněných korpusech zakonzervovány výsledky zpracování staršími verzemi jednotlivých nástrojů, které dále zastarávají. Protože se samozřejmě liší i zpracování jednotlivých korpusů navzájem, ztěžuje se tím i srovnávání jakýchkoli na nich založených údajů. Vylepšení, kterými zpracování korpusů prošlo od roku 2000, přitom vůbec nejsou zanedbatelná: mnoho nově rozpoznaných slovních tvarů, spolehlivější desambiguace s pravidlovým komponentem, odlišné zpracování některých jazykových jevů, doplnění a sjednocení bibliografických údajů (strukturní značky a zdroje) atd. Všechna tato vylepšení přitom nebylo možné promítnout do již zveřejněných korpusů bez porušení referenčnosti nebo zavedení verzování, které by ale bylo pro většinu uživatelů nepřehledné. Proto byl vytvořen korpus SYN, který je možné si představit jako jakýsi "obal" všech synchronních psaných korpusů, které ovšem byly před zařazením do korpusu SYN jednotně zpracovány nejnovějšími nástroji včetně tokenizace, segmentace, morfologické analýzy a desambiguace, která je tak na úrovni korpusu SYN2010.

Hledání v nově přepracovaných textech všech korpusů řady SYN je doplněno také možností vytváření subkorpusů, které svým složením odpovídají původním korpusům. To je možné pomocí atributu opus.syn, takže například subkorpus odpovídající korpusu SYN2005 lze v Bonitu 1 vytvořit zadáním podmínky syn="2005" na značku opus. Tuto podmínku lze samozřejmě dále kombinovat s dalšími podmínkami na typ textu, rok vydání apod., jak je popsáno v manuálu. Korpus SYN je tedy možné používat také pro práci se staršími reprezentativními korpusy, ovšem zpracovanými nejnovějšími nástroji. Je přirozené, že při srovnání původních korpusů s jim odpovídajícími novými subkorpusy mohou být patrné někdy podstatné změny způsobené rozdíly ve zpracování. Tyto změny se mohou projevovat nejenom odlišnou lemmatizací, ale i rozdílnou frekvencí slovních tvarů nebo rozdílným počtem pozic, což je dáno tokenizací.

Korpus SYN může být jako nereferenční korpus v budoucnu změněn. Důvody přitom mohou být různé, od zjištění závažných chyb ve stávajícím korpusu, přes výrazné vylepšení morfologické analýzy a/nebo desambiguace, až po zahrnutí budoucích, prozatím pouze plánovaných synchronních psaných korpusů. Tato aktualizace bude tedy nepravidelná, nebude k ní však docházet častěji než jednou ročně. Korpus SYN tak stále bude možné charakterizovat jako nereferenční spojení všech korpusů řady SYN zpracované nejnovějšími verzemi dostupných nástrojů, které přináší uživatelům ČNK především tyto výhody: