Portál ČNK

Od začátku roku 2014 funguje nový portál pro práci s korpusy na adrese www.korpus.cz. V rámci této stránky najdete nejen všechny naše nástroje pro práci s korpusovými daty, zejména pak korpusový vyhledávač KonText, nástroj pro vyhodnocování variant SyD a další, ale také manuál ve formě Wiki a poradnu pro uživatele.


Co je korpus?

Korpus je soubor počítačově uložených textů (v případě mluveného jazyka - přepisů záznamu mluvy), který primárně slouží k jazykovému výzkumu. K práci s korpusy slouží speciální vyhledávací program. S jeho pomocí je možné vyhledávat slova a slovní spojení v kontextu a zjistit jejich frekvenci v korpuse i původní textový zdroj. Umožňuje i další zpracování nalezeného (např. abecední třídění apod.). U některých korpusů lze vyhledávat i podle slovních druhů.

Český národní korpus (ČNK) je akademický projekt zaměřený na budování rozsáhlého počítačového korpusu především psané češtiny. Pracuje na něm Ústav Českého národního korpusu na Filozofické fakultě Univerzity Karlovy v Praze (ÚČNK). Od svého založení roku 1994 má ÚČNK na starosti budování ČNK, jeho rozvoj a rovněž činnosti související, zvláště v oblasti výuky a pěstování oboru korpusová lingvistika.

Aktuality

Přednášky Wolfganga Teuberta
Srdečně zveme všechny zájemce na přednášky Wolfganga Teuberta, které se uskuteční 24. a 25. listopadu 2014. Více zde.

Periferie jazyka
Koncem října vyšla publikace Františka Čermáka Periferie jazyka – Slovník monokolokabilních slov. Více informací o knize najdete zde.

Korpusy Aranea
V květnu 2014 byla v ČNK zveřejněna rodina nereferenčních srovnatelných webových korpusů Aranea sestavených Vladimírem Benkem. V současné době pokrývá celkem 7 jazyků (de, en, fr, nl, pl, ru, sk), další informace zde.

Proverbs: Their Lexical and Semantic Features
Nedávno vyšla v USA anglicky psaná kniha Františka Čermáka o paremiologii (příslovnictví) pojednávající o různých, hlavně však lexikálních aspektech více jazyků včetně jejich pragmatiky, paremiologických minim (češtiny, angličtiny a němčiny). Je založená na rozsáhlé analýze dat, většinou korpusových. Knihu, u nás nedostupnou, lze v omezeném rozsahu pro vážné zájemce získat přímo od autora. Více zde.

Aktualizace korpusu SYN
Koncem ledna 2014 byl aktualizován korpus SYN, který nyní ve verzi 3 obsahuje více než 2 mld. slov.

Nové publikace
Na konci prosince 2013 vyšly v řadě Studie z korpusové lingvistiky dvě nové publikace: Václav Cvrček: Kvantitativní analýza kontextu a Michal Křen: Odraz jazykových změn v synchronních korpusech.

Nové korpusy
Od konce prosince 2013 jsou k dispozici tyto nové korpusy: korpus neformální mluvené češtiny ORAL2013; korpus psané publicistiky SYN2013PUB; srovnatelný korpus JEROME sestavený pro zkoumání překladové češtiny v porovnání s češtinou nepřekladovou a korpus lEstRepublicain složený ze 3 ročníků francouzského regionálního deníku L'Est Republicain.