hledat:    
 

Co je korpus?

Korpus je soubor počítačově uložených textů (v případě mluveného jazyka - přepisů záznamu mluvy), který primárně slouží k jazykovému výzkumu. K práci s korpusy slouží speciální vyhledávací program. S jeho pomocí je možné vyhledávat slova a slovní spojení v kontextu a zjistit jejich frekvenci v korpuse i původní textový zdroj. Umožňuje i další zpracování nalezeného (např. abecední třídění apod.). U některých korpusů lze vyhledávat i podle slovních druhů.

Český národní korpus (ČNK) je akademický projekt zaměřený na budování rozsáhlého počítačového korpusu především psané češtiny. Pracuje na něm Ústav Českého národního korpusu na Filozofické fakultě Univerzity Karlovy v Praze (ÚČNK). Od svého založení roku 1994 má ÚČNK na starosti budování ČNK, jeho rozvoj a rovněž činnosti související, zvláště v oblasti výuky a pěstování oboru korpusová lingvistika.



Aktuality

Zveme na přednášky Andrewa Hardieho
Srdečně zveme všechny zájemce na dvě přednášky korpusového lingvisty Dr Andrewa Hardieho z University of Lancaster. Více zde.

Vyzkoušejte si nové webové rozhraní
Začátkem dubna 2013 byla spuštěna další vylepšená verze webového rozhraní pro vyhledávání v korpusech, která mj. umožňuje plnohodnotnou práci s paralelními korpusy. Současně bylo zveřejněno několik velkých webových korpusů a nová verze InterCorpu, v níž přibylo velké množství textů i další jazyky. Podrobnosti najdete zde.

Paralelní korpus InterCorp
Zveme všechny zájemce na jednodenní workshop zaměřený na práci s paralelním korpusem InterCorp. Workshop se uskuteční v budově Filozofické fakultě Univerzity Karlovy v Praze na nám. Jana Palacha v pátek 6. září 2013. Registrační formulář je k dispozici zde.

Poděkování
Pracovníci ÚČNK by chtěli touto cestou ocenit zásluhy prof. Františka Čermáka a poděkovat mu za vše, co pro ústav od jeho založení ve funkci ředitele vykonal. Svým úsilím přispěl nejen k budování a rozvoji Českého národního korpusu, ale také k pozvednutí jeho významu v rámci lingvistické obce. Za dosavadní vědeckou práci poděkoval prof. Čermákovi i děkan FF UK doc. Michal Stehlík.

Aplikace KWords
Na začátku ledna 2013 byla zpřístupněna aplikace umožňující analýzu textu pomocí klíčových slov v češtině - KWords. Program je schopen analyzovat vložený text a zjistit, která slova jsou v něm prominentně užívána a jaké jsou jejich vzájemné vztahy. Výsledky získané pomocí tohoto nástroje mohou sloužit jako základ pro další lingvistickou, literární, historickou nebo sociologickou analýzu textu.

Program Morfio
Od prosince 2012 je k dispozici program Morfio, který slouží k odhadování rozsahu a produktivity slovotvorných modelů v češtině na základě korpusových dat. Pracuje s reprezentativními synchronními korpusy psané češtiny SYN2010 a SYN2005 a jeho výstupem jsou všechny dvojice, příp. trojice slov, které odpovídají zadanému slovtvornému modelu. Program Morfio je dostupný pro všechny zájemce zde.

Korpusový průzkum variant - SyD
Od konce září 2011 je k dispozici program SyD, který umožňuje srovnávání jazykových variant. SyD je dostupný pro všechny zájemce zde.