S radostí oznamujeme, že se projekt Český národní korpus stal oficiálně uznaným K-centrem CLARIN v oblasti korpusové lingvistiky se zaměřením na empirický výzkum češtiny.
S radostí oznamujeme, že se projekt Český národní korpus stal oficiálně uznaným K-centrem CLARIN v oblasti korpusové lingvistiky se zaměřením na empirický výzkum češtiny.
V nakladatelství Springer právě vyšla nová kniha Taming the Corpus: From Inflection and Lexis to Interpretation zabývající se empirickým výzkumem, která je založena na českých datech.
V listopadu 2018 byly v ČNK zpřístupněny dva nové korpusy: specializovaný korpus Koditex vytvořený pro účely multidimenzionální analýzy češtiny a nkjp_1m, ručně označkovaný milionový vzorek Národního korpusu polského jazyka.
Byla zveřejněna další verze rozhraní KonText s novými funkcemi; zejména jde o zobrazování překladových ekvivalentů z Trequ přímo v KonTextu (pro paralelní korpusy) a zvýraznění syntaxe při psaní dotazů v CQL.
Konference SlaviCorp 2018 proběhla úspěšně. Pro případné zájemce jsou k dispozici prezentace jednotlivých přednášejících na webu konference.
Dne 18. 12. 2017 byla zveřejněna verze 6 korpusu SYN, jehož velikost po zahrnutí dosud nezveřejněné publicistiky přesáhla 4 mld. slov.
Od července 2017 jsou aktivity ČNK podporovány také projektem OP VVV zaměřeným na technologickou modernizaci infrastruktury a výzkum jazykové variability češtiny.
Začátkem června 2017 byla zveřejněna trojice nových mluvených korpusů: ORTOFON a nářeční DIALEKT, oba s dvouúrovňovou transkripcí, a dále sjednocení korpusů řady ORAL. Všechny korpusy jsou lemmatizovány a morfologicky označkovány.
Nástroj Treq na vyhledání překladových ekvivalentů na základě paralelního korpusu InterCorp se dočkal nové verze, v níž lze vyhledávat i víceslovné jednotky nebo pomocí regulárních výrazů, a to nejen v překladech z/do češtiny, ale nově i z/do angličtiny.
V lednu 2017 byl zveřejněn korpus LINDSEI_CZ, žákovský korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1. Korpus byl sestaven Tomášem Gráfem jako součást projektu LINDSEI.