Mluvené korpusy

Aktuální sběr dat pro mluvené korpusy je součástí projektu velké infrastruktury Český národní korpus LM2011023, který probíhá v letech 2012–2016. Mluvené korpusy však v Ústavu Českého národního korpusu vznikají už od začátku tohoto století.

Kromě sběru dat a vytváření mluvených korpusů češtiny se sekce mluvených korpusů věnuje i lemmatizaci, značkování mluvených korpusů a výzkumu mluveného jazyka.

Sběr probíhá ve dvou hlavních liniích. První je zaměřena na nahrávky spontánních dialogů v neformálních komunikačních situacích mezi rodinnými příslušníky a přáteli, hlavním cílem je tedy zachycení reprezentativního materiálu prototypického mluveného jazyka. Tato linie má v ÚČNK dlouholetou tradici a je zachycena v korpusech řady ORAL, která je následníkem prvního mluveného korpusu češtiny PMK. Současným pokračováním této linie je připravovaný korpus ORTOFON. Ten se odlišuje víceúrovňovým přepisem: kromě primárního, ortografického přepisu se pro podrobnější zachycení některých rysů mluvenosti užívá ještě upravený přepis fonetický.

Druhá linie se orientuje na zachycení tradičních dialektů, odtud i název korpusu DIALEKT. Sběr je zaměřen především na monologická vyprávění, v nichž je aktivně užíváno nářečí. Pro nahrávky do tohoto korpusu jsou mluvčí pečlivě vybíráni – jedná se vždy o osoby starší 60 let, kteří jsou trvale usazeni v jedné z nářečních oblastí, pokud možno ve venkovské lokalitě. Přepis nahrávek je také dvouúrovňový: základní je dialektologický přepis a ten je doplněn o přepis ortografický, aby byla přepsaná data kompatibilní s ostatními mluvenými korpusy.

Máte zájem o spolupráci?

Pro obě tyto linie sběru je zásadní pestrý výběr mluvčích. Pokud byste měli možnost a byli ochotni nahrávky pro oba vznikající korpusy pořizovat a přepisovat, ozvěte se nám! Stále hledáme nové spolupracovníky!

Informace o spolupráci
Úvod > Ústav > Projekty > Mluvené korpusy