Nový portál ČNK

Vážení uživatelé ČNK,
dne 28. 1. 2014 byl spuštěn portál pro práci s korpusovými daty. Je umístěn na adrese www.korpus.cz a jeho smyslem je inkorporovat všechny nástroje a informace pro práci s našimi korpusy. Hlavní novinkou je zcela nové rozhraní pro práci s korpusy, které jsme pojmenovali KonText.

Tým projektu ČNK

Co je korpus?

Korpus je soubor počítačově uložených textů (v případě mluveného jazyka - přepisů záznamu mluvy), který primárně slouží k jazykovému výzkumu. K práci s korpusy slouží speciální vyhledávací program. S jeho pomocí je možné vyhledávat slova a slovní spojení v kontextu a zjistit jejich frekvenci v korpuse i původní textový zdroj. Umožňuje i další zpracování nalezeného (např. abecední třídění apod.). U některých korpusů lze vyhledávat i podle slovních druhů.

Český národní korpus (ČNK) je akademický projekt zaměřený na budování rozsáhlého počítačového korpusu především psané češtiny. Pracuje na něm Ústav Českého národního korpusu na Filozofické fakultě Univerzity Karlovy v Praze (ÚČNK). Od svého založení roku 1994 má ÚČNK na starosti budování ČNK, jeho rozvoj a rovněž činnosti související, zvláště v oblasti výuky a pěstování oboru korpusová lingvistika.

Aktuality

Proverbs: Their Lexical and Semantic Features
Nedávno vyšla v USA anglicky psaná kniha Františka Čermáka o paremiologii (příslovnictví) pojednávající o různých, hlavně však lexikálních aspektech více jazyků včetně jejich pragmatiky, paremiologických minim (češtiny, angličtiny a němčiny). Je založená na rozsáhlé analýze dat, většinou korpusových. Knihu, u nás nedostupnou, lze v omezeném rozsahu pro vážné zájemce získat přímo od autora. Více zde.

Aktualizace korpusu SYN
Koncem ledna 2014 byl aktualizován korpus SYN, který nyní ve verzi 3 obsahuje více než 2 mld. slov.

Nové publikace
Na konci prosince 2013 vyšly v řadě Studie z korpusové lingvistiky dvě nové publikace: Václav Cvrček: Kvantitativní analýza kontextu a Michal Křen: Odraz jazykových změn v synchronních korpusech.

Nové korpusy
Od konce prosince 2013 jsou k dispozici tyto nové korpusy: korpus neformální mluvené češtiny ORAL2013; korpus psané publicistiky SYN2013PUB; srovnatelný korpus JEROME sestavený pro zkoumání překladové češtiny v porovnání s češtinou nepřekladovou a korpus lEstRepublicain složený ze 3 ročníků francouzského regionálního deníku L'Est Republicain.

Vkládání abstraktů na KL2014
Od 1. října 2013 je možné vkládat abstrakty na webových stránkách připravované konference Korpusová lingvistika 2014.

Vyzkoušejte si nové webové rozhraní
Začátkem dubna 2013 byla spuštěna další vylepšená verze webového rozhraní pro vyhledávání v korpusech, která mj. umožňuje plnohodnotnou práci s paralelními korpusy. Současně bylo zveřejněno několik velkých webových korpusů a nová verze InterCorpu, v níž přibylo velké množství textů i další jazyky. Podrobnosti najdete zde.

Poděkování
Pracovníci ÚČNK by chtěli touto cestou ocenit zásluhy prof. Františka Čermáka a poděkovat mu za vše, co pro ústav od jeho založení ve funkci ředitele vykonal. Svým úsilím přispěl nejen k budování a rozvoji Českého národního korpusu, ale také k pozvednutí jeho významu v rámci lingvistické obce. Za dosavadní vědeckou práci poděkoval prof. Čermákovi i děkan FF UK doc. Michal Stehlík.

Aplikace KWords
Na začátku ledna 2013 byla zpřístupněna aplikace umožňující analýzu textu pomocí klíčových slov v češtině - KWords. Program je schopen analyzovat vložený text a zjistit, která slova jsou v něm prominentně užívána a jaké jsou jejich vzájemné vztahy. Výsledky získané pomocí tohoto nástroje mohou sloužit jako základ pro další lingvistickou, literární, historickou nebo sociologickou analýzu textu.