Aktuální číslo:

2017/12

Téma měsíce:

Kontakty

Jazyková databanka neboli korpus

Co všechno lze vyčíst z frekvence slov
 |  5. 12. 1997
 |  Vesmír 76, 670, 1997/12

Zakládají se databanky nejrůznějšího typu, například informační, krevní, dále manažerů, podnikatelů, nakladatelů, transplantátů, zcizených památek, bytů, ochranných známek, neplatičů, potenciálních dárců, firem, rodin, institucí aj. Jsou to tedy databanky osob, společenských skupin a jevů konkrétních. Přestože i jazyk existuje v konkrétní podobě, buď psané, nebo mluvené, asi málokdo bude mít při vyslovení sousloví „jazyková databanka“ přesnou představu, o co jde. Ale proč by databanka nemohla vzniknout také v lingvistice? Vždyť informace, které se ukrývají uvnitř jazyka, mohou být přínosné nejen pro lingvisty, ale i pro vědce z mnoha dalších oborů.

Zní to možná až neuvěřitelně – průměrná jazyková databanka, pro kterou se už tradičně ve světě užívá označení textový korpus, obsahuje 100 milionů slovních tvarů. Je samozřejmé, že takové množství slov bylo možné začít shromažďovat až se zavedením počítačů. Ruční sběr a zápis tak rozsáhlého jazykového materiálu by vyžadoval obrovský tým pracovníků a tisíce hodin mravenčí práce. Touto pracnou formou se dříve sbíral materiál pro výkladové slovníky, tj. slovníky jednoho, mateřského jazyka. Dřívější ruční výpisky obsahovaly nadepsaná slova a k nim vypsané kontexty (nejčastěji věty) z novin, beletrie apod. s udáním přesného zdroje, tj. knihy, jejího autora, vydavatele, stránky apod., a odborně se nazývaly excerpta. Lingvisté si je buď zajišťovali sami, nebo jim s nimi pomáhali studenti a různí externí pracovníci. Excerpce se dělala buď úplná, nebo částečná, výběrová. Při úplné excerpci se vypisovalo každé slovo s příslušným kontextem, např. věta Tak nám zabili Ferdinanda byla vypsána na čtyřech lístcích pod tak, my, zabít, Ferdinand. Ten, kdo potom s takovými lístky pracoval, si je musel utřídit podle vlastních kritérií (podle toho, zda hledal např. vlastní jména typu Ferdinand, slovesa s předponou za-, osobní zájmena apod.).

Byli to právě slovníkáři, kteří trávili dlouhé hodiny vypisováním jazykových dokladů a kteří dali podnět k jejich ukládání do počítače. Textový korpus je totiž zpracováván na podobném principu, pouze s využitím počítačové techniky. Je to soubor nejrůznějších počítačově čitelných textů (elektronicky uložených knih, novin, časopisů apod.), které pokrývají co nejširší užití jazyka. Rozdíl je jen v tom, že jednotlivé slovní tvary se netřídí ručně, ale pomocí tzv. konkordančního programu. Konkordancemi se potom nazývají hledaná slova se svým textovým okolím. Každý řádek, který nám textový korpus na obrazovce počítače nabídne, je vlastně jeden excerpční lístek.

Textové korpusy už byly vytvořeny pro řadu evropských jazyků. Největší z nich je britský, zvaný The Bank of English, který obsahuje 350 milionů slovních tvarů a zahrnuje jak psaný, tak mluvený jazyk. V roce 1991 vznikly i u nás zárodky týmu, který začal připravovat textový korpus pro češtinu. Jeho úsilí našlo odezvu u řady sponzorů a přispěvatelů. Od loňského října funguje na Filozofické fakultě Univerzity Karlovy nové pracoviště Ústav Českého národního korpusu, které vede prof. František Čermák.

Český národní korpus už dostal svou konkrétní podobu. Kdo si chce ověřit užívání určitého slova, tvaru, termínu aj., zjistit frekvenci jeho výskytu apod., může se připojit k internetu, zadat adresu ucnk.ff.cuni.cz/cnc a nahlédnout tak do veřejně přístupného Českého národního korpusu. Ten má přes 20 milionů slov, zatím jen z publicistiky let 1991–1995 (Mladá fronta Dnes, Lidové noviny, Reflex; čtenáře bude jistě zajímat, že ve své elektronické verzi byl do Českého národního korpusu začleněn i Vesmír). Po zadání dotazu se na obrazovce objeví prvních dvacet dokladů hledaného slova, tvaru apod. a údaj o počtu výskytů. Ten, kdo má o práci s korpusem hlubší zájem, může požádat o přístup do celého Českého národního korpusu, který dnes obsahuje přes 40 milionů slovních tvarů. Například v tomto neveřejném korpusu jsem objevila tyto humorné kontexty slova Vesmír:

  • K vědeckému bádání si astronauti do vesmíru vzali dvě ryby, čtyři žáby, 180 sršňů, 7600 much a 30 vajíček, z nichž se mají vyklubat kuřata.
  • Kdyby pražský útulek pro psy viděly anglické dámy, co psaly práce proti vyslání sovětské výzkumnice Lajky do vesmíru, asi by to vůbec nepřežily.
  • Protože pamatuji, že mi jednou PNS svěřila, že Vesmír redakce změnila na Říši hvězd, což mně přišlo dost divné, neboť jsem byl sám redaktorem Vesmíru a nic jsem nezměnil ani ve hvězdném snu, obrátil jsem se na redakci Lidových novin, kde mne jeden z pánů redaktorů ubezpečil, že oni nic nezměnili a že on si raději kupuje tisk v trafice.

Cílem je stomilionový reprezentativní korpus, který bude co do zastoupení jednotlivých žánrů i vědních oborů vyvážený. Vedle tzv. hlavního korpusu, tj. korpusu současného psaného českého jazyka, se pracuje na korpusu staré češtiny a korpusu jazyka mluveného.

Co může Český národní korpus, projekt na první pohled ryze lingvistický, přinést nelingvistům? Něco již bylo naznačeno. Lze na něm dobře ověřit užívání terminologie jak odborníky, tak laiky. Dále je možné ověřit užívání stejného termínu v různých oborech. Tak např. přídavné jméno iontový je v ČNK na internetu zachyceno celkem 6krát, a to v následujících slovních spojeních:

1krát iontové selektivní membrány

1krát iontový cyklotronový ohřev

1krát iontové dělo

3krát iontový nápoj

Z toho vyplývá, že iontové nápoje jsou věc známá i mezi laiky, zatímco další spojení jsou specializovaná. Je však možné zjišťovat i jiné věci. Podíváme-li se na zastoupení jednotlivých chemických prvků v korpusu, je zajímavé, že určité prvky mají jako jediný kontext položku v křížovkách, tj. značka astatu, nebo dusík, ten má v publicistice stabilní kontext oxid dusíku. Tyto kontexty, které se v tisku dostávají do popředí (viz např. obr. obrázek), svědčí o typu jakési čtenářské informační poptávky a v některých případech také o stavu našeho životního prostředí.

Z tabulky se dá nepochybně mnohé vyčíst, mimo jiné to, že v popředí našeho zájmu jsou spíše prvky škodlivé (dusík, olovo, síra aj.). Nenechme se mýlit poměrně vysokým výskytem slova kyslík, jeho nejčastější kontexty jsou totiž deficit/nedostatek/úbytek aj. kyslíku. Nebudeme však prozrazovat, jaká tajemství nám může Český národní korpus, doposud největší jazyková databanka českého jazyka, odhalit. Věříme, že zájemci si svá témata najdou sami. Vždyť jazyk je zrcadlem života a myšlení celé naší společnosti. 1)

Obrázky

Poznámky

1) Český národní korpus vznikl za podpory komplexního projektu GA ČR č. 405/96/K214

Ke stažení

OBORY A KLÍČOVÁ SLOVA: Lingvistika

O autorovi

Renata Blatná

PhDr. Renata Blatná, CSc., (*1959) vystudovala Filozofickou fakultu Masarykovy univerzity v Brně. Vyučuje na Filozofické fakultě UK v Praze. Zaměřuje se na popis české slovní zásoby, spolupracuje na tvorbě frazeologického slovníku.

Doporučujeme

Přemýšlej, než začneš kreslit

Přemýšlej, než začneš kreslit

Ondřej Vrtiška  |  4. 12. 2017
Nástup počítačů, geografických informačních systémů a velkých dat proměnil tvorbu map k nepoznání. Přesto stále platí, že bez znalosti základů...
Tajemná „Boží země“ Punt

Tajemná „Boží země“ Punt uzamčeno

Břetislav Vachala  |  4. 12. 2017
Mnoho vzácného zboží starověkého Egypta pocházelo z tajemného Puntu, kam Egypťané pořádali časté obchodní výpravy. Odkud jejich expedice...
Hmyz jako dokonalý létací stroj

Hmyz jako dokonalý létací stroj

Rudolf Dvořák  |  4. 12. 2017
Hmyz patří k nejdokonalejším a nejstarším letcům naší planety. Jeho letové schopnosti se vyvíjely přes 300 milionů let a předčí dovednosti všech...

Předplatným pomůžete zajistit budoucnost Vesmíru

Tištěná i elektronická
verze časopisu
Digitální archiv
od roku 1994
Speciální nabídka
pro školy a studenty

 

Objednat předplatné