Mluvené korpusy

Aktuální sběr dat pro mluvené korpusy je součástí projektu velké infrastruktury Český národní korpus LM2011023, který probíhá v letech 2012–2016. Mluvené korpusy však v Ústavu Českého národního korpusu vznikají už od začátku tohoto století.

Kromě sběru dat a vytváření mluvených korpusů češtiny se sekce mluvených korpusů věnuje i lemmatizaci, značkování mluvených korpusů a výzkumu mluveného jazyka.

Sběr probíhá ve dvou hlavních liniích. První je zaměřena na nahrávky spontánních dialogů v neformálních komunikačních situacích mezi rodinnými příslušníky a přáteli, hlavním cílem je tedy zachycení reprezentativního materiálu prototypického mluveného jazyka. Tato linie má v ÚČNK dlouholetou tradici a je zachycena v korpusech řady ORAL, která je následníkem prvního mluveného korpusu češtiny PMK. Současným pokračováním této linie je připravovaný korpus ORTOFON. Ten se odlišuje víceúrovňovým přepisem: kromě primárního, ortografického přepisu se pro podrobnější zachycení některých rysů mluvenosti užívá ještě upravený přepis fonetický.

Druhá linie se orientuje na zachycení tradičních dialektů, odtud i název korpusu DIALEKT. Sběr je zaměřen především na monologická vyprávění, v nichž je aktivně užíváno nářečí. Pro nahrávky do tohoto korpusu jsou mluvčí pečlivě vybíráni – jedná se vždy o osoby starší 60 let, kteří jsou trvale usazeni v jedné z nářečních oblastí, pokud možno ve venkovské lokalitě. Přepis nahrávek je také dvouúrovňový: základní je dialektologický přepis a ten je doplněn o přepis ortografický, aby byla přepsaná data kompatibilní s ostatními mluvenými korpusy.

Máte zájem o spolupráci?

Pro obě tyto linie sběru je zásadní pestrý výběr mluvčích. Pokud byste měli možnost a byli ochotni nahrávky pro oba vznikající korpusy pořizovat a přepisovat, ozvěte se nám! Stále hledáme nové spolupracovníky!

Informace o spolupráci

Práce na korpusu ORTOFON probíhá v několika krocích:

  • krok č. 1 Zájemci si zapůjčí diktafon.
  • krok č. 2 Nahrají neformální spontánní rozhovor (ideálně 20–30 minut).
  • krok č. 3 Před samotným přepisem si nahrávku poslechnou, zda je kvalitní, případně ji oříznou pomocí programu Audacity.
  • krok č. 4 Nahrávku přepíšou v programu ELAN podle přepisovacích pravidel. Přepis se provádí ve dvou etapách: první je přepis ortografický, kterou pořizuje nahrávající, pak následuje přepis fonetický, který již provádí specialista. Zároveň je s přepisem stopy ort prováděn přepis stopy meta (doprovodné zvuky vydávané mluvčím), META (doprovodné zvuky související například s místem nahrávky) a anom (anonymizace citlivých údajů). Hotový přepis je po vložení do databáze dvakrát zkontrolován a poté proplacen.
  • krok č. 5 Po schválení, proplacení a uzavření přepisu stopy ort je sonda přesunuta ke specialistovi na přepis stopy fon. Pro usnadnění přepisu vzniká stopa fon automatickým překlopením stopy ort s dílčími úpravami (např. ypsilon je vždy nahrazen měkkým i apod.), specialista tedy provádí úpravy na této rovině v již předpřipraveném transkriptu. S hotovým přepisem stopy fon je nakládáno stejně jako s přepisem stopy ort.

Práce na korpusu DIALEKT probíhá v několika krocích:

  • krok č. 1 Zájemci si zapůjčí diktafon.
  • krok č. 2 Nahrají neformální spontánní monolog nářečního mluvčího.
  • krok č. 3 Nahrávku zašlou do ÚČNK, kde je vybrán vhodný úsek k přepisu.
  • krok č. 4 Ořízlou nahrávku přepíšou v programu ELAN podle přepisovacích pravidel. Přepis se provádí ve dvou etapách: první je přepis dialektický, následuje přepis ortografický. Zároveň je s přepisem stopy dial prováděn přepis stopy meta (doprovodné zvuky vydávané mluvčím), META (doprovodné zvuky související například s místem nahrávky) a anom (anonymizace citlivých údajů). Hotový přepis je po vložení do databáze dvakrát zkontrolován a poté proplacen.
  • krok č. 5 Po schválení, proplacení a uzavření přepisu stopy dial je sonda přesunuta ke specialistovi na přepis stopy ort. S hotovým přepisem stopy ort je nakládáno stejně jako s přepisem stopy dial.

Možná Vás bude zajímat, že:

  • spolupráce probíhá formou dohody o provedení práce;
  • odměna za pořízení nahrávky a vyplnění údajů o mluvčích a celé nahrávce se pohybuje od 300 do 500 Kč;
  • odměna za přepis stopy ort pro korpus ORTOFON se počítá podle počtu slov v celé nahrávce, přibližně 90 haléřů za slovo;
  • odměna za přepis pro korpus DIALEKT se počítá hodinovou sazbou

KONTAKT: mluveny@korpus.cz

Neváhejte nás kontaktovat!

Úvod > Ústav > Projekty > Mluvené korpusy