ČNK zveřejňuje diachronní korpus OnomOs sestavený badateli Katedry českého jazyka FF OU. Korpus obsahuje texty z vybraných čísel (Rudého) Práva od 20. let 20. stol. do současnosti a zahrnuje také anotaci jmenných entit.
ČNK zveřejňuje diachronní korpus OnomOs sestavený badateli Katedry českého jazyka FF OU. Korpus obsahuje texty z vybraných čísel (Rudého) Práva od 20. let 20. stol. do současnosti a zahrnuje také anotaci jmenných entit.
Gratulujeme kolegům k zisku standardních projektů GAČR: Jiří Milička uspěl s grantem Velké jazykové modely prizmatem korpusové lingvistiky a tým Hany Skoumalové bude řešit projekt Česká frazeologie a proměny jejího užívání v dobových a žánrových kontextech.
Vydali jsme novou verzi aplikace KWords. Mezi hlavní novinky patří to, že s její pomocí můžete analyzovat texty ve více než 30 jazycích a při identifikaci prominentních jednotek lze využívat lemmatizaci a tagování (tzv. keymorph analýza). Nově lze k aplikaci přistupovat také pomocí API.
Od září můžeme díky podpoře TA ČR pracovat na projektu HiČKoK – Historie češtiny v korpusovém kontinuu. Ve spolupráci s ÚJČ AV ČR, NK ČR a ÚFAL MFF UK se hodláme vytvořit jednotně značkovaný korpus, který bude zahrnovat texty pokrývající 8 staletí vývoje češtiny.
Byla zveřejněna verze 16 paralelního korpusu InterCorp. Díky aktualizaci balíčku OpenSubtitles se korpus zvětšil téměř trojnásobně a přibylo 20 dalších jazyků. Přehled všech změn a vylepšení oproti předchozí verzi najdete v historii verzí.
Zveřejnili jsme verzi 2.0 aplikace Mapka pro práci s mluvenými a nářečními korpusy. Má vylepšený vzhled, intuitivnější ovládání a doplněný obsah: množství ukázek z mluvených korpusů a popisy nářečních rysů všech oblastí, podskupin, úseků a typů.
Naši kolegové byli úspěšní v soutěži programu TA ČR SIGMA a získali dva projekty: Historie češtiny v korpusovém kontinuu (hlavní řešitel dr. Martin Stluka) a Víceslovné jednotky pro digitální vzdělávání (hlavní řešitelka dr. Marie Kopřivová).
Zpřístupnili jsme korpus Totalita, diachronní korpus psané češtiny z období komunistického režimu (1948–1989). Korpus vznikl jako materiálové báze slovníku zveřejněného již v roce 2010.
Na začátku roku jsme s kolegy z JÚĽŠ spustili seriál Česko-slovenské slovo týdne. Nový díl se objeví vždy v pondělí ráno, sloupky pak v pátečním vydání přetiskuje jak český Deník N, tak slovenský Denník N.