Co je korpus?
Korpus je soubor počítačově uložených textů (v případě mluveného jazyka - přepisů záznamu mluvy), který primárně slouží k jazykovému výzkumu. K práci s korpusy slouží speciální vyhledávací program. S jeho pomocí je možné vyhledávat slova a slovní spojení v kontextu a zjistit jejich frekvenci v korpuse i původní textový zdroj. Umožňuje i další zpracování nalezeného (např. abecední třídění apod.). U některých korpusů lze vyhledávat i podle slovních druhů.
Český národní korpus (ČNK) je akademický projekt zaměřený na budování
rozsáhlého počítačového korpusu především psané češtiny. Pracuje na něm
Ústav Českého národního korpusu na Filozofické fakultě Univerzity Karlovy v
Praze (ÚČNK). Od svého založení roku 1994 má ÚČNK na starosti budování ČNK,
jeho rozvoj a rovněž činnosti související, zvláště v oblasti výuky a
pěstování oboru korpusová lingvistika.
Zapojte se do studentského hodnocení výuky kurzů letního semestru! Do 16. června můžete hodnotit a komentovat kurzy, které jste na fakultě navštěvovali.
 |
Zveme na přednášky Andrewa Hardieho |
|
|
Srdečně zveme všechny zájemce na dvě přednášky korpusového lingvisty
Dr Andrewa Hardieho z University of Lancaster. Více
zde.
|
 |
Vyzkoušejte si nové webové rozhraní |
|
|
Začátkem dubna 2013 byla spuštěna další vylepšená verze webového rozhraní
pro vyhledávání v korpusech, která mj. umožňuje plnohodnotnou práci s paralelními
korpusy. Současně bylo zveřejněno několik velkých webových korpusů a nová
verze InterCorpu, v níž přibylo velké množství textů i další jazyky.
Podrobnosti najdete zde.
|
 |
Paralelní korpus InterCorp |
|
|
Zveme všechny zájemce na jednodenní workshop zaměřený na práci s paralelním
korpusem InterCorp. Workshop se uskuteční v budově Filozofické fakultě
Univerzity Karlovy v Praze na nám. Jana Palacha v pátek 6. září 2013.
Registrační formulář je k dispozici
zde.
|
 |
Poděkování |
|
|
Pracovníci ÚČNK by chtěli touto cestou ocenit zásluhy prof. Františka Čermáka a poděkovat mu za vše, co pro ústav od jeho založení ve funkci ředitele vykonal. Svým úsilím přispěl nejen k budování a rozvoji Českého národního korpusu, ale také k pozvednutí jeho významu v rámci lingvistické obce. Za dosavadní vědeckou práci poděkoval prof. Čermákovi i děkan FF UK doc. Michal Stehlík.
|
 |
Aplikace KWords |
|
|
Na začátku ledna 2013 byla zpřístupněna aplikace umožňující
analýzu textu pomocí klíčových slov v češtině - KWords.
Program je schopen
analyzovat vložený text a zjistit, která slova jsou v něm prominentně užívána
a jaké jsou jejich vzájemné vztahy. Výsledky získané pomocí tohoto nástroje
mohou sloužit jako základ pro další lingvistickou, literární, historickou
nebo sociologickou analýzu textu.
|
 |
Program Morfio |
|
| Od prosince 2012 je k dispozici program
Morfio, který slouží k odhadování rozsahu a produktivity slovotvorných modelů v češtině na základě korpusových dat. Pracuje s reprezentativními synchronními korpusy psané češtiny SYN2010 a SYN2005 a jeho výstupem jsou všechny dvojice, příp. trojice slov, které odpovídají zadanému slovtvornému modelu.
Program Morfio je dostupný pro
všechny zájemce zde. |
 |
Korpusový průzkum variant - SyD |
|
| Od konce září 2011 je k dispozici program
SyD, který umožňuje srovnávání jazykových variant. SyD je dostupný pro
všechny zájemce zde. |