Krátké zprávy
Staňte se našimi doktorandy!
Máte dokončené magisterské studium lingvistického zaměření? Přemýšlíte, kam dál? Staňte se našimi doktorandy! Perspektivní obor Korpusová lingvistika nabízí možnost zajímavého výzkumu založeného na autentických datech za pomoci moderních metod a vedení zkušených odborníků. Více informací najdete zde:
http://www.ff.cuni.cz/FF-8586-version1-MATEMATICKA_LINGVISTIKA_P_REA_III.pdf
Přihlášky do doktorandského studia je možné podávat do 30. dubna 2012.
Sketch Engine
Dne 14. prosince 2011 byla na adresách http://www.korpus.cz/corpora/ a http://www.korpus.cz/corpora/intercorp/ spuštěna nová verze Sketch Engine, webového rozhraní pro vyhledávání v korpusech. Toto nové rozhraní je výrazně vylepšenou verzí původního webového Bonita, které tak bylo po 5 letech provozu plně nahrazeno novějším rozhraním. Stále však platí, že přístup k Word Sketches má pouze omezený okruh uživatelů, důvodem jsou vysoké finanční požadavky na licence ze strany Lexical Computing Ltd.
Korpusový průzkum variant
Od konce září 2011 je k dispozici program SyD, který je určen pro všestranný průzkum variant jak v současném jazyce - synchronní část, tak v průběhu jeho vývoje - diachronní část. K analýze využívá data mluvených a psaných korpusů projektu Českého národního korpusu. Stačí zadat dvě varianty (nebo víc) jednoho jevu, které si vzájemně konkurují (např. ačkoli × ačkoliv, už × již, mimoto × mimo to apod.). SyD je dostupný všem zájemcům bez nutnosti registrace.
Sborníky z konference Korpusová lingvistika Praha 2011
V Nakladatelství Lidové noviny vyšly sborníky z konference Korpusová lingvistika Praha
2011 konané ve dnech 22. - 24. září 2011. Příspěvky jsou
rozděleny do tří svazků:
1 InterCorp
2 Výzkum a výstavba korpusů
3 Gramatika a značkování korpusů.
Aktualizace dat paralelního korpusu InterCorp
V září 2011 byl aktualizován paralelní korpus InterCorp. Aktualizace se týká jak paralelních dat přístupných přes Park, tak i jejich jednojazyčných částí - obě možnosti přístupu ke korpusu najdete zde. Změny spočívají především ve zpřístupnění dalších textů, zejména publicistických textů z Project Syndicate a Presseurop, což znamená nárůst na celkový rozsah přibližně 92 milionů slov. Historii verzí korpusu InterCorp s podrobnějšími informacemi najdete zde.
Přednášky Michaela Rundella
Dovolujeme si Vás pozvat na přednášky Michaela Rundella:
- Automating the creation of dictionaries: how far have we come, and what are the prospects for the future?
pondělí 16. května 2011 v 15 hodin
v budově FF UK, náměstí Jana Palacha 2, Praha 1, místnost 104 - Affecting collocations dictionaries
úterý 17. května 2011 ve 13 hodin
Ústav českého národního korpusu, Národní 37 - Platýz, Praha 1, 1. patro
Další informace o přednáškách naleznete zde (PDF).
Prezentace použité na přednáškách jsou s laskavým svolením autora k dispozici ke stažení (ve formátu PDF):
Přednášky profesora Jean-Pierre Colsona
Dovolujeme si Vás pozvat na přednášky Jean-Pierre Colsona (Université catholique de Louvain, Belgique):
- Finding evidence for contrastive phraseology: examples of collocations with sea terms in French, Dutch and English
pondělí 18. dubna 2011 v 18 hodin
v budově FF UK, náměstí Jana Palacha 2, Praha 1, místnost 104 - Automatic extraction of collocations from large corpora: alternative techniques for trigrams and higher grams
úterý 19. dubna 2011 ve 13 hodin
Ústav českého národního korpusu, Národní 37 - Platýz, Praha 1, 1. patro
Další informace o přednáškách naleznete zde (PDF).
Aktualizace dat paralelního korpusu InterCorp
V únoru 2011 byl aktualizován paralelní korpus InterCorp. Aktualizace se týká jak paralelních dat přístupných přes Park, tak i jejich jednojazyčných částí - obě možnosti přístupu ke korpusu najdete zde. Změny spočívají kromě interního přechodu na oddělené zarovnání (stand-off alignment) především ve zpřístupnění dalších textů, což znamená nárůst na celkový rozsah přibližně 72 milionů slov. Mezi jazyky přibyla norština, nově jsou lemmatizovány a morfologicky označkovány litevština, norština a slovenština. Ve vyhledávacím rozhraní přibyla možnost přechodu na vybranou stránku a jednoúrovňový filtr výsledků dotazu.
Rozšíření korpusu DIAKORP
Začátkem roku 2011 byl korpus DIAKORP rozšířen na 1,95 milionu slovních tvarů.
A Frequency Dictionary of Czech: Core Vocabulary for Learners
Na začátku ledna 2011 vyšel v řadě frekvenčních slovníků nakladatelství Routledge slovník A Frequency Dictionary of Czech: Core Vocabulary for Learners. Podrobnosti najdete zde...
Slovník komunistické totality
Dne 22. 12. 2010 vyšel Slovník komunistické totality jako třetí svazek řady Korpusová lexikografie. Více informací naleznete zde...
Nové korpusy
Dne 20. prosince 2010 se nabídka dostupných korpusů rozrostla o následujících pět korpusů:
- SYN - spojení všech korpusů řady SYN zpracované nejnovějšími verzemi dostupných nástrojů; velikost korpusu SYN tak činí 1,3 miliardy textových slov
- SYN2010 - synchronní reprezentativní korpus současné psané češtiny obsahující 100 milionů textových slov a navazující na korpusy SYN2000 a SYN2005
- LINK - korpus sestavený z odborných lingvistických textů
- SCHOLA2010 - korpus přepisů nahrávek vyučovacích hodin
- DOTKO - korpus dolní lužické srbštiny.
Perfektum v současné češtině
20. 9. 2010 vyšla v řadě Studie z korpusové lingvistiky publikace Perfektum v současné češtině. Autorkou knihy je Mira Načeva-Marvanová. Více zde...
Pozvánka na přednášky
Dovolujeme si Vás pozvat na přednášky, které přednesou polští kolegové:
6. 9. 2010 ve 14 hodin
Adam Przepiórkowski
(Institute of Computer Science, Polish Academy of Sciences Warsaw)
National Corpus of Polish
7. 9. 2010 ve 14 hodin
Marek Łaziński
(University of Warsaw)
Words of the day project
Obě přednášky se budou konat v pracovně Ústavu Českého národního korpusu (Národní 37, Praha 1).
Přednášky budou proneseny anglicky.
Korpus SYN2009PUB
Dne 7. května 2010 byl zveřejněn korpus SYN2009PUB. Jedná se o dosud největší korpus české publicistiky o velikosti 700 milionů textových slov, který v mnoha ohledech navazuje na svého předchůdce, korpus SYN2006PUB.
Přednáška Petera Grzybka
Ústav Českého národního korpusu zve na přednášku předního odborníka v oblasti statistického popisu jazyka, slavisty prof. Petera Grzybka (Univerzita v Štýrském Hradci) na téma:
A Revision of the Sentence Length. Word Length Relation: Intra-textual and inter-textual perspectives,
která se uskuteční 3. května od 18.00 (hlavní budova FF UK, m. č. 104). Všichni zájemci jsou srdečně zváni.
Mluvnice současné češtiny
8. dubna vyšla Mluvnice současné češtiny. Jedná se o kolektivní dílo autorů z FF UK a MFF UK pod vedením Václava Cvrčka. Další informace najdete v sekci naše publikace. Rozhovor s Václavem Cvrčkem na stanici Vltava si můžete poslechnout zde
Omezení přístupu k WordSketches
S politováním oznamujeme, že jsme byli nuceni od prosince 2009 z licenčních důvodů zrušit většině uživatelů přístup k WordSketches na adrese http://www.korpus.cz/corpora/. WordSketches mohou nadále používat pouze naši interní zaměstnanci a studenti. Důvodem jsou vysoké finanční požadavky na licenci, která by umožňovala poskytovat WordSketches jako dosud, tj. neomezenému počtu externích uživatelů.
Nominace na funci ředitele ÚČNK
Dne 26. ledna 2010 v 15 hodin se bude konat nominace na funkci ředitele Ústavu Českého národního korpusu.
Nový přístup k paralelnímu korpusu InterCorp
Dne 16. října 2009 byl spuštěn veřejný provoz nového rozhraní pro vyhledávání v paralelních korpusech vytvořených v rámci projektu InterCorp. Na původní adrese nyní najdete jednojazyčné verze všech paralelních korpusů zpřístupněné pomocí webového Bonita, které umožňuje používání standardních nástrojů (filtry, třídění, kolokace, frekvenční distribuce, náhodné vzorky atd.) i na korpusy jednotlivých jazyků. Zároveň došlo k dalšímu nárůstu zpřístupněných dat, nově je k dispozici také rozsáhlý výběr publicistických článků z projektu Syndicate v pěti jazycích (en, es, fr, de, ru) automaticky zarovnaných s češtinou. Celková velikost korpusu InterCorp se tak již blíží k 50 milionům slov.
On-line registrace
Od 12. června 2009 je možné pro získání plného přístupu ke korpusům ÚČNK použít elektronický formulář.
Aktualizace dat paralelního korpusu InterCorp
Dne 29. dubna 2009 byl aktualizován paralelní korpus InterCorp. Změny spočívají především ve zpřístupnění dalších textů, což znamená nárůst na přibližně 31 milionů slov. Vyhledávací rozhraní také nyní zobrazuje přesnou velikost každého vybraného subkorpusu. Další významnou změnou je možnost využívat automatické lemmatizace a morfologického značkování nejenom pro češtinu, ale také pro dalších 10 jazyků (bg, de, en, es, fr, hu, it, nl, pl, ru).
Nové webové stránky
Dne 24. dubna 2009 byly spuštěny nové webové stránky ÚČNK, kromě nové grafické podoby jsou změny hlavně technického rázu.
Náhodné vzorky
V manuálu korpusového manažeru Bonito byla zveřejněna kapitola, zabývající se určením spolehlivosti měření metodou náhodných vzorků. Uvedené postupy jsou vhodné v případě, že výsledek vyhledávání v Bonitu obsahuje velké množství výskytů, které není možné zpracovat všechny a je tedy potřeba přistoupit k měření na náhodných vzorcích. K textu je přizena i kalkulačka, která umožňuje výpočet spolehlivosti získaných výsledků.
Korpus ORAL2008
Dne 5. prosince 2008 se nabídka dostupných korpusů rozrostla o korpus mluvené češtiny ORAL2008. Korpus obsahuje přepisy výhradně neformálních situací, jeho velikost je 1 milion slov. Na rozdíl od předchozího mluveného korpusu ORAL2006 je však plně vyvážený v základních sociolingvistických kategoriích mluvčích (pohlaví, věk, vzdělání a oblast pobytu v dětství) tak, že hodnoty každé z nich jsou zastoupeny téměř stejným počtem slov.
Paralelní korpus InterCorp
Od listopadu 2008 je součástí Českého národního korpusu paralelní korpus InterCorp budovaný v rámci stejnojmenného projektu. Tento korpus je přístupný všem registrovaným uživatelům Českého národního korpusu přes vyhledávací rozhraní na adrese: http://www.korpus.cz/corpora/intercorp/.
Abecední a retrográdní slovníky
Od listopadu 2008 jsou na stránkách ÚČNK k dispozici Abecední a retrográdní slovníky lemmat a tvarů.
Omezení provozu...
Od čtvrtka 27. listopadu do pátku 28. listopadu 2008
bude z technických důvodů omezen provoz na našem
hlavním serveru. V tomto období nebudeme schopni
poskytnout přístup k našim korpusům ani webovým
stránkám. Rádi bychom Vás proto
požádali, abyste v těchto dnech nepracovali s korpusovým
manažerem Bonito.
Děkujeme za pochopení.
Konference projektu InterCorp
Ve
dnech 17.-19. září 2009 pořádá
Ústav Českého národního korpusu v
hlavní budově Filozofické fakulty UK (Praha 1,
nám. J. Palacha 2) konferenci založenou na datech projektu
InterCorp. Příspěvky, založené na
česko-jinojazyčných korpusech v tomto projektu, budou
primárně lingvistické povahy, a budou se
zabývat nejrůznějšími aspekty jazykového
srovnání češtiny a jednoho nebo více ze
zapojené dvacítky jazyků, většinou
evropských. Předpokládá se jen omezená
účast, především zástupců a
spolupracovníků InterCorpu. Předběžné
přihlášky (názvy příspěvků, do 20 minut) se
přijímají do konce prosince 2008, abstrakty v rozsahu
300-400 slov do konce března. Po posouzení programovou
komisí budou účastníci vyrozuměni o
případném přijetí do konce května.
Korespondence na adrese:

František Čermák
Britský národní korpus
Od
dubna 2008 přibyla pro zájemce z řad studentů a zaměstnanců
Univerzity Karlovy v Praze možnost přístupu k Britskému
národnímu korpusu (BNC). Velice podrobné informace
o tomto korpusu včetně např. popisu použitého tagsetu můžete
najít na domovských stránkách BNC.
K získání přístupu k BNC přes Bonito
prostřednictvím ÚČNK je třeba vyplnit standardní Prohlášení uživatele korpusů ÚČNK,
ze kterého bude patrná vazba na UK. Pokud ho již
vyplněné máte, stačí poslatjenom e-mailovou
žádost o rozšíření
stávající nabídky korpusů o BNC na adresu:
Statistiky 2006-2007
Na našich stránkách uveřejňujeme přehled využívání korpusů. Statistiky uvádějí počty dotazů zadaných vkorpusovém manažeru Bonito v období od 9. 5. 2006 do 31. 12. 2007.
Starší krátké zprávy...


