Aktuální číslo:

Informace, korpusy a lingvistika

Jazyk a jazykověda na přelomu století

| 5. 11. 2001

| Vesmír 80, 648, 2001/11

Lze najít oblasti lidské činnosti, které jsou víceméně založeny na komunikaci beze slov (hudba), či vědní obory používající kromě slov i mimoverbální symboly (matematika, chemie). Přesto se žádná lidská aktivita bez jazyka neobejde. Je proto s podivem, že společnost nevěnovala výzkumu jazyka větší péči a nevydává místo tradičních příruček (pravidel) smysluplnější publikace (slovníky). Pro 21. století se vžívá název „informační společnost“. Potřeba dostupnosti a výměny informací mezi lidmi je zjevná a zůstane s jazykem spjata i nadále. V globálním pohledu ovšem nejde jen o soudobé informace v daném jazyce, nýbrž také o informace napříč časem a napříč jazyky. Na své si přijdou tvůrci zdokonalených strojových překladů a vyhledávači paralelních informací v cizojazyčných textech (paralelních korpusech).

Vzhledem k počtu jazyků (asi sedm tisíc) a omezenému množství dat se lingvistické teorie neustále vyvíjejí. Ještě před pár lety v různých zemích platila za prestižní lingvistická generativní větev Noama Chomského, ¹⁾ která svými matematickými přístupy oslovovala zejména odborníky mimo jazykovědu. I ta však trpěla nedostatkem dat. Často se uváděly vymyšlené příklady bez kontextu. Potíž je v tom, nakolik „bezkontextové“ příklady vystihují složitý a bohatý jazyk a nakolik jsou jevy a vztahy, které z nich vyplývají, zobecnitelné. A udržování tradičních jazykových archivů v podobě ručně psaných výpisků je již neúnosné, tuto roli můžou převzít počítače. ²⁾ Minulost lingvistiky je poznamenána především nedostatkem dat.

Situaci začíná měnit korpusová lingvistika. Ve statistickém pohledu je úhrn (psaných) jazykových dat daného období pro danou komunitu (např. pro uživatele češtiny) ohraničený a lze ho teoreticky vyčerpat. Můžeme si však představit další etapu, kdy se budou do zmapovaného stavu doplňovat další změny (pokud na to bude dost peněz). Jen jejich srovnáváním s předchozími stavy češtiny je možno pochopit kontinuitu jazykového vývoje. Zatím jazykový korpus obsahuje většinou jen psaný jazyk, v němž některé typy informací chybějí (mluvená data dosud počítače masově nezpracovávají), ale díky velmi rozsáhlým souborům mohou být závěry soudů přesto poměrně spolehlivé.

Korpus a korpusová lingvistika

Dnes se korpusem míní velmi rozsáhlý strukturovaný soubor textů různého druhu, který je obhospodařován počítačem. Rozsahy ukládaných dat u nejvýznamnějších korpusů dosahují až stamilionů slovních textových tvarů. Přestože byl zprvu vůči korpusům odpor, výhrady jsou postupně vyvraceny. Podstatné je, že člověk za celý život nezpracuje tolik dat, kolik jich zpracuje počítač v krátké době.

Špičkou korpusové lingvistiky jsou národní jazykové korpusy. Po úspěchu Velké Británie se dnes k tomuto proudu přiklání většina Evropy, nověji i Litva, Bulharsko, Slovinsko a další země. Neméně úspěšný Český národní korpus se buduje od r. 1995 (viz Vesmír 76, 670, 1997/12) a má již sto milionů slov. Jako naše vůbec největší informační báze je veřejně přístupný na adrese ucnk.ff.cuni.cz. Na jaře 1998 byl též ohlášen projekt Amerického národního korpusu.

Vztahy mezi korpusovými daty

Souvztažnosti v jazykovém korpusu lze rozdělit na tři skupiny vztahů:

Korpus a jazyk. Pro tento vztah je rozhodující míra uplatnění nových poznatků, často získávaných mimo tradiční lingvistiku (v matematice, informatice, kognitivních vědách).

Korpus a oblasti jeho využití. Je třeba uvažovat nejen fyzické možnosti, dostupnost a proveditelnost zadaného úkolu (pro slovník je dán časový limit a počet lidí, které musí někdo financovat), ale i potřeby budoucích uživatelů. Vyspělá korpusová pracoviště upozorňují na to, že uživatelé nejrůznějšího druhu korpus potřebují, i když o tom nevědí. Rozšiřování korpusu ani vzrůst jeho využívání se nesmějí zastavit, dosavadní investice by přišly vniveč. Znamenalo by to rezignaci na potřebu zachytit vývoj společnosti.

Korpus a vlastní lingvistika. Postoje budoucí lingvistiky budou korpusovými daty ovlivňovány tím významněji, čím větší bude jejich rozsah a kvalita. Už dnes se korpusová data kvantitativně i kvalitativně liší od toho, nač byli lingvisté zvyklí.

Povaha informace v korpusových datech

Povaha a kvalita informace souvisí s povahou a kvalitou vložených dat.

Z korpusu lze získat jen informaci, která do něj byla vložena, nicméně ze zjištěných konfigurací slov a statistického vyhodnocení jejich struktury lze vyvodit řadu dalších souvislostí.

Data a informace lze do korupsu vkládat jen postupně a jen automatickým způsobem. Proto se počítá s chybami, jejichž množství se minimalizuje postupným nalézáním typů chyb, vylepšováním algoritmů a dolaďováním anotačních programů.

Informace dodatečné, zvláště lingvistické, je nutno do korpusu vkládat odděleně od dat. Už samo vkládání se do značné míry opírá o vkladatelovu interpretaci, s níž nemusí každý souhlasit. Teorie jazyka se mění, data však zůstávají a musejí zůstat nedotknutelná i pro následující generace.

Typů informace proti tradičním přístupům přibývá. Nestačí už všímat si jednotlivých slov, je třeba zabývat se i víceslovnými lexikálními jednotkami – frazémy a víceslovnými termíny. Např. nechat někoho na holičkách není prostý sled čtyř slov, ale funkčně i sémanticky nedělitelná jednotka. Dosud se zkoumal výlučně směr od formy k významu – pro postup od významu k formě chybí počítačové zpracování sémantiky jazyka (slovník).

Většina jazykových informací je škálovité povahy, na kterou lze uplatnit spíše statistické a fuzzy přístupy než tradiční černobílé škatulkování (namísto zjištění typu „ano-ne“ jde spíš o „více-méně“ nebo „spíš to než ono“).

Co lze od korpusu čekat

Záleží jednak na tom, jakým způsobem bude korpus zpracováván a rozvíjen, jednak na potřebách uživatelů. Těmi rozhodně nebudou pouze lingvisté ani pouze oboroví profesionálové. Jako informační zdroj představuje korpus širokou nabídku jdoucí napříč různými obory. Záleží jen na uživatelích, aby se jí chopili. Jednou z významných možností je zpřístupnění korpusu školám a studentům, a především vytvoření velmi potřebného slovníku dnešní češtiny.

Z množství lingvistických námětů a témat zmiňme aspoň ta zásadní. Korpus nabízí možnost studovat do větší hloubky pravidla jazykového systému. K formálnímu vymezení pravidel bude možné doplnit pravděpodobnost výskytu a distribuce jednotek. Lze se tak dočkat zpřesnění hranic systému a lepšího poznání pomezních jevů.

Nabízí se možnost studovat proměnlivost systému, což je důležité z hlediska historického i pro studium dlouhodobých vývojových tendencí. Je také možné zkoumat vztahy gramatiky a lexikonu (tradiční hranice mezi nimi mizí a objevuje se kontinuum).

Studium korpusu patrně přinese i poznání nových jevů. S ústupem od ostrého vymezování gramatiky (pravidel) od lexikonu (prostředků) se ukazuje potřeba studovat i jevy přechodné. Patří k nim frazémy a idiomy, různé stereotypy, které se při produkci textu netvoří znovu, ale zapojují se jako hotové, role gramatiky je oslabena. Tato skutečnost je zároveň výzvou dosavadní gramatické teorii, která se s takovými jevy dosud nedokázala srovnat. Pro poznání těchto jevů nabízí korpus možnost hlubšího studia kontextu a nejrůznějších faktorů komunikačních. I když je už delší dobu k dispozici poznatek, že některé funkce lexikálních jednotek jsou dány jen v určitých kontextech a mimo ně se nevyskytují, dosavadní přístup si s ním neví rady. Ještě závažnější je zjištění, že určité významy jsou dány společnou existencí jistých forem v konkrétní kombinaci textu. Ani jeden z případů tohoto typu nelze pochopitelně zobecnit. Zatím se jen otevírá možnost studovat i periferii jazykové kombinatoriky. Korpusy nám o jazyce neřeknou vše, co bychom chtěli vědět, řeknou však řádově více, než jsme věděli dosud. ¨

Literatura

Čermák F.: Jazykový korpus: Prostředek a zdroj poznání, Slovo a slovesnost 56, 119–140, 1995
Čermák F.: Jazyk a jazykověda, Přehled a slovníky, Pražská imaginace, Praha 1997

Poznámky

1) Generativní mluvnice se na jazyk dívá jako na tvůrčí proces, v němž se jednotlivé věty vytvářejí (generují) podle předem daných pravidel.

2) Náš největší, vícegenerační archiv Ústavu pro jazyk český AV ČR dosáhl za více než sto let jenom dvanácti až patnácti milionů excerpt.

3) Otto Jaspersen odhaduje, že za celý život nashromáždil 400 000 (manuálně psaných) výpisků.

Citát

Eric J. Hobsbawn: Národy a nacionalismus od roku 1780, CDK, Brno 2000, s. 54

Národní jazyky tudíž téměř vždy jsou z poloviny umělými konstrukty a tu a tam, jako tomu je u moderní hebrejštiny, jsou vlastně vymyšleny celé. Jsou opakem toho, čím mají být podle předpokladů nacionalistické mytologie – tedy konkrétně prapůvodními základy národní kultury a matricemi národního ducha. Obvykle jde o pokusy z velkého množství skutečně mluvených jazyků, které jsou posléze degradovány na dialekty, vytvořit jeden standardizovaný jazyk; hlavním problémem při vytváření tohoto standardizovaného a homogenizovaného jazyka je obvykle otázka, který jazyk vybrat jako jeho základ. Následné problémy spojené se standardizací a homogenizací celonárodní gramatiky a pravopisu – plus přidání nových prvků do slovní zásoby – jsou druhotné. Dějiny prakticky všech evropských jazyků u tohoto regionálního základu tvrdošíjně setrvávají: spisovná bulharština se opírá o západobulharský dialekt, spisovná ukrajinština o své dialekty jihovýchodní, v šestnáctém století se spojením různých dialektů vynořuje spisovná maďarština, spisovná lotyština se opírá o prostřední ze tří variant, litevština o jednu ze dvou a tak dále. Tam, kde jsou známa jména tvůrců jazyka – obvykle tomu tak je u jazyků, které spisovné podoby dosáhly v osmnáctém nebo devatenáctém až dvacátém století – mohla tato volba být zcela nahodilá (i když podepřená určitou argumentací).

Korpusová data ve vztahu k jazyku jako celku jsou:

typická: frekvenčně zpracovaný korpus ukazuje, co je ústřední a co okrajové, je potlačen vliv náhody,

aktuální, synchronní a věrná: při rychlých proměnách jazyka data v nepokřivené podobě odrážejí jeho současný stav,

neselektivní: neprocházejí předběžným filtrem, který vytřiďuje a odhazuje nepotřebné (selekce při manuálním excerpování dat vyvolávala omyly),

objektivní a realistická: odrážejí texty skutečně zapsané, nic není vymyšleno,

dostatečně rozsáhlá: díky rozsahu umožňují hlubší poznání a popis studovaného jevu v dostatečném kontextu,

nenáhodně získaná: množství začleněných zdrojů snižuje roli náhody na minimum,

získatelná snadno a rychle. ³⁾

Ke stažení

Článek ve formátu PDF [180,68 kB]

OBORY A KLÍČOVÁ SLOVA: Lingvistika

O autorovi

František Čermák

* *

články autora

Aktuální číslo:

2026/7

Téma měsíce:

Mapy

Informace, korpusy a lingvistika

Korpus a korpusová lingvistika

Vztahy mezi korpusovými daty

Povaha informace v korpusových datech

Co lze od korpusu čekat

Literatura

Poznámky

Citát

Eric J. Hobsbawn: Národy a nacionalismus od roku 1780, CDK, Brno 2000, s. 54

Korpusová data ve vztahu k jazyku jako celku jsou:

Ke stažení

O autorovi

František Čermák

Doporučujeme

Když bahno teče jako ledovec

Ideologie v mapách, mapy v rukách ideologů

Když mapa mluví

Aktuální číslo:

2026/7

Téma měsíce:

Mapy

Informace, korpusy a lingvistika

Korpus a korpusová lingvistika

Vztahy mezi korpusovými daty

Povaha informace v korpusových datech

Co lze od korpusu čekat

Literatura

Poznámky

Citát

Eric J. Hobsbawn: Národy a nacionalismus od roku 1780, CDK, Brno 2000, s. 54

Korpusová data ve vztahu k jazyku jako celku jsou:

Ke stažení

O autorovi

František Čermák

Doporučujeme

Když bahno teče jako ledovec

Ideologie v mapách, mapy v rukách ideologů

Když mapa mluví

Nastavení cookies