Co je korpus?

Korpus je soubor počítačově uložených textů (v případě mluveného jazyka - přepisů záznamu mluvy), který primárně slouží k jazykovému výzkumu. K práci s korpusy slouží speciální vyhledávací program KonText . S jeho pomocí je možné vyhledávat slova a slovní spojení v kontextu a zjistit jejich frekvenci v korpuse i původní textový zdroj. Umožňuje i další zpracování nalezeného (např. abecední třídění apod.). U některých korpusů lze vyhledávat i podle slovních druhů.

Všechny nástroje pro práci s korpusovými daty jsou umístěny na portále www.korpus.cz. Zde je k dispozici zejména korpusový vyhledávač KonText, nástroj pro vyhodnocování variant SyD a další, ale také manuál ve formě Wiki a poradnu pro uživatele.

Český národní korpus (ČNK) je akademický projekt zaměřený na budování rozsáhlého počítačového korpusu především psané češtiny. Pracuje na něm Ústav Českého národního korpusu na Filozofické fakultě Univerzity Karlovy v Praze (ÚČNK). Od svého založení roku 1994 má ÚČNK na starosti budování ČNK, jeho rozvoj a rovněž činnosti související, zvláště v oblasti výuky a pěstování oboru korpusová lingvistika.


Výběrové řízení na pozici odborného asistenta

Ústav Českého národního korpusu FF UK vyhlašuje výběrové řízení na pozici odborného asistenta v oboru korpusová lingvistika se zaměřením na češtinu.

Řízení je otevřeno všem absolventům filologických oborů s ukončeným magisterským studiem (kandidáti s titulem Ph.D. jsou preferováni). Podmínkou pro přijetí je velmi dobrá znalost češtiny (pasivní, aktivní i teoretická).

Zájemcům nabízíme juniorní vědeckou pozici (celý úvazek) v oblasti korpusového výzkumu češtiny a dalších jazyků (ve srovnání s ní). Pracovní povinnosti zahrnují samostatnou vědeckou a publikační činnost, participaci na projektu ČNK a příp. také výuku (není obligatorní složkou náplně práce).

Předpokládaný nástup do pracovního poměru je 1. červenec, smlouva se bude uzavírat na dobu určitou (konkrétně do 31. 12. 2016, tj. na 1,5 roku) s možností dalšího prodloužení.

Více informací naleznete zde.

Aktuality

Radost z jazyků
U příležitosti významného životního jubilea prof. Františka Čermáka, kterému tímto upřímně přejeme vše nejlepší, vyšel 20. svazek z řady Studie z korpusové lingvistiky pod názvem Radost z jazyků. Více zde.

InterCorp verze 7
Koncem roku 2014 byla zveřejněna nová verze paralelního korpusu InterCorp, jehož celkový rozsah tak překročil 1 miliardu slov. Podrobnosti zde.

Ukončení provozu starších rozhraní
Upozorňujeme uživatele ČNK, že na konci března 2015 dojde k ukončení provozu rozhraní Bonito, Park a NoSketch Engine. Podrobnosti zde.

Hledáme externí spolupracovníky
Hledáme externí spolupracovníky pro kontrolu a přepis digitalizovaných verzí starších českých textů. Více informací zde.

Periferie jazyka
Koncem října vyšla publikace Františka Čermáka Periferie jazyka – Slovník monokolokabilních slov. Více informací o knize najdete zde.

Korpusy Aranea
V květnu 2014 byla v ČNK zveřejněna rodina nereferenčních srovnatelných webových korpusů Aranea sestavených Vladimírem Benkem. V současné době pokrývá celkem 7 jazyků (de, en, fr, nl, pl, ru, sk), další informace zde.