Dostupné korpusy
Korpusy psaného jazyka (synchronní) |
|||||
| korpus | velikost (počet slov) |
lemmatizace | morfologické značky |
rok zveřejnění |
charakteristika korpusu |
| SYN | 1 300 mil. | ANO | ANO | 2010 | nereferenční |
| 100 mil. | ANO | ANO | 2010 | žánrově vyvážený korpus, převažují texty z let 2005 - 2009 | |
| 700 mil. | ANO | ANO | 2010 | korpus publicistických textů z let 1995 - 2007 | |
| 300 mil. | ANO | ANO | 2006 | korpus publicistických textů z let 1989 - 2004 | |
| 100 mil. | ANO | ANO | 2005 | žánrově vyvážený korpus, převažují texty z let 2000 - 2004 | |
| 100 mil. | ANO | ANO | 2000 | žánrově vyvážený korpus, převažují texty z let 1990 - 1999 | |
| FSC2000 | 100 mil. | ANO | NE | 2004 | upravený SYN2000, referenční zdroj Frekvenčního slovníku češtiny |
| CZESL-PLAIN | 2 mil. |
NE | NE | 2012 |
nereferenční |
| LINK | 1,8 mil. | ANO | ANO | 2010 | nereferenční |
| KSK-DOPISY | 800 000 | NE | NE | 2006 | přepisy ručně psané korespondence z let 1990 - 2004 |
| ORWELL | 80 000 | ANO | ANO | 2003 | ručně označkovaný korpus Orwellova románu "1984" |
Korpusy mluveného jazyka (synchronní) |
|||||
| korpus | velikost (počet slov) |
lemmatizace | morfologické značky |
rok zveřejnění |
charakteristika korpusu |
| ORAL2008 | 1 mil | NE | NE | 2008 | sociolingvisticky vyvážený korpus neformální mluvené češtiny |
| ORAL2006 | 1 mil. | NE | NE | 2006 | korpus neformální mluvené češtiny |
| SCHOLA2010 | 790 000 | NE | NE | 2010 | korpus vyučovacích hodin |
| PMK | 675 000 | NE | NE | 2001 | Pražský mluvený korpus |
| BMK | 490 000 | NE | NE | 2002 | Brněnský mluvený korpus |
Diachronní korpusy |
|||||
| korpus | velikost (počet slov) |
lemmatizace | morfologické značky |
rok zveřejnění |
charakteristika korpusu |
| DIAKORP | 1,95 mil. | NE | NE | 2005 | nereferenční |
Cizojazyčné korpusy
|
|||||
| korpus | velikost (počet slov) |
lemmatizace | morfologické značky |
rok zveřejnění |
charakteristika korpusu |
| DOTKO | 12 mil. | NE | NE | 2010 | nereferenční |
| HOTKO | 36 mil. | NE | NE | 2013 | nereferenční |
| deWaC | 1 350 mil. | ANO | ANO | 2013 | webový korpus němčiny |
| frWaC | 1 350 mil. | ANO | ANO | 2013 | webový korpus francouzštiny |
| itWaC | 1 600 mil. | ANO | ANO | 2013 | webový korpus italštiny |
| ukWaC | 1 900 mil. | ANO | ANO | 2013 | webový korpus britské angličtiny |
Paralelní korpus |
|||||
| korpus | velikost (počet slov) |
lemmatizace | morfologické značky |
rok zveřejnění |
charakteristika korpusu |
| InterCorp | 92 mil. | ANO (částečně) |
ANO (částečně) |
2008 | nereferenční |


