ČNK zveřejňuje hostovaný diachronní korpus italštiny, který sestavila Maria Silvia Micheli. Korpus CODIT pokrývá šesti hlavními typy textů celé období vývoje italštiny od 13. století do roku 1947.
ČNK zveřejňuje hostovaný diachronní korpus italštiny, který sestavila Maria Silvia Micheli. Korpus CODIT pokrývá šesti hlavními typy textů celé období vývoje italštiny od 13. století do roku 1947.
Byla zveřejněna nová verze korpusu česky psané polooficiální internetové komunikace NET. Korpus je ve verzi 2 třikrát větší a zahrnuje internetové diskuse a blogy z více než 120 domén.
ČNK zveřejňuje Old Bailey Corpus se záznamy soudních procesů konaných v Londýně v letech 1720–1913. OBC se tak vedle EEBO stává dalším diachronním korpusem angličtiny přístupným přes KonText, pro oba je k dispozici podrobný kurz.
Ke konci roku 2020 byly zveřejněny nové verze mluvených korpusů ORTOFON a ORATOR. Celkový objem jazykového materiálu zahrnutého do korpusů ORTOFON v2 a ORATOR v2 se oproti jejich původním verzím přibližně zdvojnásobil.
S hrdostí oznamujeme zveřejnění monitorovacích korpusů ONLINE mapujících český web, tj. internetovou žurnalistiku, diskuse a sociální sítě, a to od roku 2017 do současnosti. Korpusy vznikají ve spolupráci se společností Dataweps, mají více než 6 mld. tokenů a jsou pravidelně každý den aktualizovány!
V aplikaci Slovo v kostce přibyl zcela nový srovnávací mód, který umožňuje srovnávání slovních profilů dvou a více zadaných slov podobně, jako to dělá SyD.
Nástroj Treq na vyhledávání překladových ekvivalentů se dočkal aktualizace podkladových dat, která nyní odpovídají verzi 12 paralelního korpusu InterCorp. Dále byly doplněny slovníky, takže nyní je možné vyhledávat nejenom v překladech z/do češtiny a angličtiny, ale také z/do španělštiny.
Mapka je interaktivní mapová aplikace určená pro práci s korpusy mluvené češtiny, zejména s korpusem nářečním. Spojuje v sobě několik různých funkcí, jednou z nich je prezentace charakteristických rysů nářečních oblastí ČR v podobě ukázek autentických projevů mluvčích.
Nová kolektivní monografie Registry v češtině v řadě Studie z korpusové lingvistiky shrnuje výsledky projektu Jazyková variabilita v CNC, jehož cílem bylo vytvořit empirický model variability textů v češtině. Kniha podrobně zachycuje celý projekt, zejména pak proces ustavení textových registrů.