hledat:    
 

Dostupné korpusy

Korpusy psaného jazyka (synchronní)

korpus velikost
(počet slov)
lemmatizace morfologické
značky
rok
zveřejnění
charakteristika korpusu
SYN 1 300 mil. ANO ANO 2010 nereferenčníNápověda spojení všech synchronních psaných korpusů řady SYN
SYNSYN2010 100 mil. ANO ANO 2010 žánrově vyvážený korpus, převažují texty z let 2005 - 2009
SYNSYN2009PUB 700 mil. ANO ANO 2010 korpus publicistických textů z let 1995 - 2007
SYNSYN2006PUB 300 mil. ANO ANO 2006 korpus publicistických textů z let 1989 - 2004
SYNSYN2005 100 mil. ANO ANO 2005 žánrově vyvážený korpus, převažují texty z let 2000 - 2004 
SYNSYN2000 100 mil. ANO ANO 2000 žánrově vyvážený korpus, převažují texty z let 1990 - 1999 
FSC2000 100 mil. ANO NE 2004 upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny
CZESL-PLAIN 2 mil.
NE NE 2012
nereferenčníNápověda žákovský korpus češtiny nerodilých mluvčích
LINK 1,8 mil. ANO ANO 2010 nereferenčníNápověda korpus sestavený z odborných lingvistických textů
KSK-DOPISY 800 000 NE NE 2006 přepisy ručně psané korespondence z let 1990 - 2004
ORWELL 80 000 ANO ANO 2003 ručně označkovaný korpus Orwellova románu "1984"

Korpusy mluveného jazyka (synchronní)

korpus velikost
(počet slov)
lemmatizace morfologické
značky
rok
zveřejnění
charakteristika korpusu
ORAL2008 1 mil NE NE 2008 sociolingvisticky vyvážený korpus neformální mluvené češtiny
ORAL2006 1 mil. NE NE 2006 korpus neformální mluvené češtiny
SCHOLA2010 790 000 NE NE 2010 korpus vyučovacích hodin
PMK 675 000 NE NE 2001 Pražský mluvený korpus
BMK 490 000 NE NE 2002 Brněnský mluvený korpus

Diachronní korpusy

korpus velikost
(počet slov)
lemmatizace morfologické
značky
rok
zveřejnění
charakteristika korpusu
DIAKORP  1,95 mil. NE NE 2005 nereferenčníNápověda korpus diachronní složky ČNK

Cizojazyčné korpusy

korpus velikost
(počet slov)
lemmatizace morfologické
značky
rok
zveřejnění
charakteristika korpusu
DOTKO 12 mil. NE NE 2010 nereferenčníNápověda korpus dolní lužické srbštiny, převažují texty z let 1848 - 1933
HOTKO 36 mil. NE NE 2013 nereferenčníNápověda korpus horní lužické srbštiny
deWaC 1 350 mil. ANO ANO 2013 webový korpus němčiny
frWaC 1 350 mil. ANO ANO 2013 webový korpus francouzštiny
itWaC 1 600 mil. ANO ANO 2013 webový korpus italštiny
ukWaC 1 900 mil. ANO ANO 2013 webový korpus britské angličtiny

Paralelní korpus

korpus velikost
(počet slov)
lemmatizace morfologické
značky
rok
zveřejnění
charakteristika korpusu
InterCorp 92 mil. ANO
(částečně)
ANO
(částečně)
2008 nereferenčníNápověda paralelní korpus vznikající v rámci projektu InterCorp