Co je korpus?

Korpus je soubor počítačově uložených textů (v případě mluveného jazyka - přepisů záznamu mluvy), který primárně slouží k jazykovému výzkumu. K práci s korpusy slouží speciální vyhledávací program KonText . S jeho pomocí je možné vyhledávat slova a slovní spojení v kontextu a zjistit jejich frekvenci v korpuse i původní textový zdroj. Umožňuje i další zpracování nalezeného (např. abecední třídění apod.). U některých korpusů lze vyhledávat i podle slovních druhů.

Všechny nástroje pro práci s korpusovými daty jsou umístěny na portále www.korpus.cz. Zde je k dispozici zejména korpusový vyhledávač KonText, nástroj pro vyhodnocování variant SyD a další, ale také manuál ve formě Wiki a poradnu pro uživatele.

Český národní korpus (ČNK) je akademický projekt zaměřený na budování rozsáhlého počítačového korpusu především psané češtiny. Pracuje na něm Ústav Českého národního korpusu na Filozofické fakultě Univerzity Karlovy (ÚČNK). Od svého založení roku 1994 má ÚČNK na starosti budování ČNK, jeho rozvoj a rovněž činnosti související, zvláště v oblasti výuky a pěstování oboru korpusová lingvistika.

Aktuality

SYN verze 4
16. září 2016 byla zveřejněna verze 4 korpusu SYN, jehož velikost po zahrnutí textů SYN2015 a dosud nezveřejněné publicistiky převážně z let 2010–2014 přesáhla 3,6 mld. slov.

KOLT 2016
ČNK zve na kolokvium Korpusy v kontrastivní lingvistice a translatologii, které se koná 25. 11. 2016. Vítáme příspěvky z oblasti kontrastivního a translatologického výzkumu ze všech oblastí popisu jazyka. Abstrakty zasílejte e-mailem do 2. 10. 2016. Více informací.

InterCorp verze 9
Dne 9. 9. 2016 byla zveřejněna verze 9 paralelního korpusu InterCorp. Podrobnosti najdete na wiki ČNK.