O jazyce, jeho exaktním popisu
Veronika Maxová: Obor, ve kterém pracujete, změnil během let několikrát název – hovořilo se o něm jako o matematické lingvistice, aplikované lingvistice, strojovém překladu… Proč?
Eva Hajičová: Když se v začátcích oboru, a to bylo u nás i ve světě v padesátých a šedesátých letech, přemýšlelo o tom, jak mu anglicky říkat, volilo se mezi komputační lingvistikou, matematickou lingvistikou, a dokonce mechanolingvistikou. Ta brzo vypadla ze hry a začalo se hovořit o komputační lingvistice. Tehdy to tolik nenavozovalo počítač, ale spíš výpočty, tedy matematickou lingvistiku. Pro teoretickou disciplínu se u nás nejdřív zvolil název algebraická lingvistika. Matematická lingvistika jsme nechtěli říkat proto, že v tradicích české lingvistiky, přesněji v tradicích Pražského lingvistického kroužku, bylo dívat se na jazyk i matematicky, a to z hlediska kvantitativního. Profesor Bohumil Trnka, jeden ze zakladatelů PLK, se například zabýval frekvencí slov a písmen a my jsme nechtěli, abychom byli považováni za pokračovatele jen této tradice. Dnes se pro teoretický i aplikační výzkum užívá termín lingvistika komputační, v češtině počítačová.
Říkám my, ale já jsem u toho v úplných začátcích nebyla. První pracoviště, které u nás v roce 1959 vzniklo, se jmenovalo Oddělení algebraické lingvistiky a teorie strojového překladu. Já jsem tam nastoupila v roce 1962.
V. M.: A jak se do názvu laboratoře dostal strojový překlad?
E. H.: Určitě tam nebyl proto, že bychom byli takoví fantasti a mysleli si, že budeme brzo překládat počítačem kdeco. Mluvili jsme o teorii strojového překladu, ale zabývali jsme se jím i prakticky. První větu jsme nechali počítač SAPO v pražském Výzkumném ústavu matematických strojů přeložit už koncem roku 1959, počátkem roku 1960 se o tom dokonce psalo v novinách. Samozřejmě šlo jen o malý slovník a několik gramatických pravidel.
V. M.: Ta věta zněla The consonants have not by far been investigated to the same extent as the vowels. A počítač správně přeložil Souhlásky zdaleka nebyly do stejné míry prozkoumány jako samohlásky. Bylo to jen pět let po prvním strojovém překladu v USA. Kolik jazyků to stihlo tak rychle?
E. H.: Z malých zemí máme rozhodně primát. V Evropě se strojovým překladem začali velmi brzo po USA zabývat na univerzitě v Grenoblu. V Rusku byli na výši teoreticky. A pak už jsme přišli my v Praze.
Nezaměřovali jsme se na něj slepě a rozvíjeli jsme také nové teoretické směry v lingvistice. Američan Noam Chomsky v roce 1957 publikoval nové zásady teoretického, plně explicitního (formálního) popisu jazyka v knize Syntaktické struktury. Získat knihy z ciziny bylo tenkrát moc těžké, ale hledali jsme je, byli jsme otevření novým věcem a už v roce 1963 Petr Sgall vydal první práci, kde vymezil svůj přístup k formální gramatice v tradicích pražské školy a s přihlédnutím k novému paradigmatu lingvistiky, na kterém se v USA tehdy pracovalo. Byl to přístup originální. Tvrdil, že kvůli víceznačnosti jazyka není možné zůstat na povrchové rovině. V době, kdy pro americký deskriptivismus v Chomského pojetí byl význam skoro neslušné slovo, rozvíjel Sgall původní Mathesiovy úvahy a mluvil o tom, že forma má význam i na hloubkové, tedy tektogramatické rovině.
Ten dech jsme opravdu chytli strašně brzo.
V. M.: Čím se vlastně liší počítačový lingvista od lingvisty zaměřeného tradičně?
E. H.: Společného mají hodně. Pro nás je skoro zákonem, že počítačový lingvista nesmí ignorovat to, co dělá tradiční lingvista. Vůbec zkušenost široké lingvistické obce je pro naši práci hrozně důležitá. My se ale musíme vypořádat s jazykovými složitostmi tak, aby tomu obrazně řečeno rozuměl počítač. Počítač nemá intuici, a proto potřebuje dostat exaktní popis.
Tohle platí od začátku. Druhá věc, ve které se lišíme, je novějšího data. Komputační lingvisté si dříve uvědomili, v čem jim může počítač pomoct. Lingvistika je empirická věda a tradiční lingvista věděl, že musí zpracovávat obrovské množství dat a že výpisky na kartotéčních lístcích nikdy dobře neutřídí. I když o dánském lingvistovi Otto Jespersenovi se říká, že jich měl miliony, a já se pamatuju na syntaktika profesora Vladimíra Šmilauera, který vždycky věděl, odkud ze své skříňky se šuplátky k určitému jevu výpisek vytáhnout. Tohle je v lidských silách, ale v silách počítače je mnohem, mnohem víc.
S počítačovým způsobem zpracováním textových údajů přišla už koncem šedesátých letech korpusová lingvistika. V osmdesátých letech, u nás v devadesátých, se pak plně soustředila na sbírání dat pro textové korpusy, a jakmile byla sebrána, na jejich třídění, značkování, zpracování. Tady musí tradiční lingvista někdy překonávat ostych před počítačem, zatímco komputační lingvista ho nemá, protože ho už dávno ztratil. V tom má navrch.
V. M.: V čem je při popisu přirozeného jazyka největší obtíž? Ve víceznačnosti, o které už jste se zmínila?
E. H.: Ano. Studentům říkám, že úžasná výhoda přirozeného jazyka je v tom, že je univerzální – umíme jím všechno popsat, všechno říct. Ale má i hroznou nevýhodu, a to právě víceznačnost. Mezi lidmi může občas způsobit nedorozumění, ale na druhé straně ji využívají k vtipům a slovním hříčkám a v ní je i krása přirozeného jazyka.
Z věty Nemocnice obviňuje ministerstvo z toho, že… nevyplývá, kdo koho obviňuje, protože obě podstatná jména mají v prvním i čtvrtém pádě stejný tvar. Člověk s tím ale nemá potíže, protože zná kontext i situaci. Největší složitost tedy je nějakým způsobem modelovat kontext. Určité úspěchy už máme, pokud je ta informace v kontextu, v předcházejícím textu, pak můžeme počítač naučit se tam podívat a říct mu, na co se má podívat. Ale pokud jde o situaci, tak bychom potřebovali, aby počítač měl v sobě model té situace, k tomu je třeba kognitivní věda, něco, co by nám dalo jakousi znalost světa. To není zpracované a budeme na to asi dlouho čekat.
Proto se říká, že strojový překlad nebo komunikace s počítačem v přirozeném jazyce je reálná, pokud vymezíme odbornou oblast, ve které se komunikuje, a namodelujeme mu ji. A nejde jen o jednotlivá slova jako třeba kohoutek, který kokrhá, a kohoutek u umyvadla, ale o konstrukce celých vět.
V. M.: Při překladu už ale stroje dokážou i dnes hodně.
E. H.: S tím souhlasím. Počítačem podporovaný překlad je jedna z cest, jak můžou komputační lingvisté překladu pomoct. V tom vidím jeden ze směrů, kterými je možné se ubírat. Otázka je, k čemu ten překlad chceme. Někdy stačí překlad jen pro orientaci, aby si člověk udělal obrázek, co má před sebou. Někdy se takovému překladu říká robustní – jsou v něm gramatické chyby, neznámá slova zůstanou nepřeložená, program upozorní, že neví jak dál, ale poskytuje základní orientaci.
Samozřejmě nikdy nemůže jít o překlad krásné literatury, kde záleží na kráse a bohatství slova. Ale to je jen zlomek toho, co se dnes musí přeložit.
V. M.: Pražský lingvistický kroužek představuje slavnou éru české lingvistiky. V čem na něj navazujete?
E. H.: Já bych skoro řekla, že slavná éra české lingvistiky jím začala. Tenkrát upozornil na pražskou lingvistiku v kontextu světové lingvistiky směr strukturální, začínající s Ferdinandem de Saussurem, věnovali se mu také v USA a Dánsku. Pražská lingvistika ale měla kromě toho ještě něco, čím si získala pozornost, a to funkcionalismus. Každá jazyková forma má nějakou funkci, je tu stratifikace jazyka, formy mají různé komunikativní funkce, užívají se v různých stylech – odborném, spisovném, hovorovém.
A třetí, v čem vystupuje do popředí jako dědictví, je komunikační funkce jazyka v tom smyslu, že věta se člení na dvě části: o něčem se ve větě vypovídá a něco se o tom vypovídá. To je takzvané aktuální členění, na které jako první systematicky zaměřil pozornost Vilém Mathesius a začlenil ho do celkového systému. Měl pokračovatele i v komputační lingvistice. Petr Sgall v šedesátých letech upozorňoval, že to je jeden ze základů větné stavby, na který je třeba se kromě vlastní struktury, jak ji známe ze školy, zaměřit. Nechci říct, že by to zajímalo jen lingvisty počítačově orientované. V Brně byl Jan Firbas, v Praze František Daneš, ale to, co Chomského nové paradigma přineslo, exaktní pohled na věc, o to jsme se tady v Praze snažili i z hlediska aktuálního členění větného, aby v celkovém formálním popisu jazyka bylo začleněno, a snad jsme i nalezli způsob, jak na hloubkové, významové struktuře věty oba aspekty – ten, co se učí ve škole (sloveso, jeho podmět, předmět atd.), i aktuální členění větné – zařadit.
Už od začátku jsme trvali na tom, že to je součást významové stavby věty a že je to důležité pro význam věty. Na Moravě se mluví česky, Česky se mluví na Moravě, Na Slapy jezdí Pražané, Pražané jezdí na Slapy jsou jasně významově rozdílné věty. To se dlouho neuznávalo. Hledala se jiná vysvětlení, že jsou tam takzvané kvantifikátory – všechno, všichni, někteří, že pořadí je v predikátové logice důležité a podobně. Lingvisti měli zase pocit, že aktuální členění větné má důležitost jen pro stylistiku, že musím navazovat na to, co jsem už řekla, pak přidám něco nového, ale my jsme tvrdili, že je tu aspekt významový a systémový.
S tím jsme pořád bojovali, hledali jsme příklady a nacházeli jsme je v různých textech a pomalu přesvědčovali českou lingvistickou obec. Pronikli jsme s tímto názorem taky do zahraničí, i když i tam to z počátku přijímali s jistými rozpaky. Už v osmdesátých letech se však i v pracích zahraničních autorů začalo mluvit o rozdílu mezi větami jako John introduced Bill only to Sue a John introduced only Bill to Sue. Ledy se hnuly a ve světovém kontextu se ví, že to byl pražský funkční přístup k jazyku, který jako první tento aspekt prosazoval i ve formálním popisu jazyka.
V. M.: Pražská škola tedy stále existuje.
E. H.: Ano. Pořád ještě žijí představitelé druhé nebo třetí generace Pražského lingvistického kroužku.
V. M.: Existuje také pražská škola v komputační lingvistice?
E. H.: To určitě. A je velmi respektovaná nejen v tom, že dává systematicky důraz na věci, o kterých přemýšlela ta první, předválečná generace, ale i v tom, že v nové orientaci komputační lingvistiky dává podněty, které jsou dnes ve světě dost populární.
To bych chtěla doložit na příkladě Pražského závislostního korpusu. Začali jsme s ním téměř s předstihem, inspirovali jsme se americkým přístupem – Pensylvánskou stromovou bankou – a něco jsme k tomu dodali. Je dnes velmi příjemné sedět na prestižní konferenci komputační lingvistiky a slyšet od Švéda, Američana, Němce: Ano, pracovali jsme s Pražským závislostním korpusem. Teď například jsem byla na kongresu v USA, kde bylo půl dne věnováno porovnání, jak na větách z různých korpusů fungují počítačové analyzátory jazyků. Jedním z těch korpusů byl Pražský závislostní korpus pro češtinu.
Byl to dobrý nápad a vyplatil se.
V. M.: To znamená, že se nezabýváte pouze popisem češtiny.
E. H.: Jen s ním bychom neprorazili. Ten za nás přirozeně nikdo neudělá, ale my jsme ho navíc konfrontovali s popisem angličtiny a ukazovali, že je důležitý i pro ni. Nebo naopak jsme ukazovali, proč je například pro češtinu důležitý volný slovosled, a říkali jsme, tohle v angličtině skoro nemáte, a jestli chcete, aby se váš popis prosadil jako univerzální, pak musíte vzít v úvahu i to, co je specifické pro menší jazyky. S angličtinou jsme na druhé straně pracovali jako s plnoprávným partnerem češtiny. Jsem anglistka a snažila jsem se ukazovat, jak se funkční generativní popis, což je naše forma popisu, dá aplikovat na angličtinu bez jakýchkoli omezení.
V. M.: To jsou samé úspěchy. Je vůbec něco, co vás trápí?
E. H.: Jako komputační lingvistku mě, řekla bych, znepokojuje, jak se stále málo daří posunout náš obor jako celek, nebo alespoň v jedné jeho větvi, nějakým výrazným způsobem dopředu a sblížit obě metodologie, tu jednu založenou na lingvisticky zdůvodněných pravidlech a tu druhou založenou na statistických modelech. V té první je třeba se vyrovnat s popisem jazyka, a to je složitý úkol, je to dlouhá cesta a řešení jsou jen postupná, dílčí. V té druhé se spoléhá „na učení z dat“, tedy z rozlehlých korpusů textů v daném jazyce, ale těch, i když jdou do stovek milionů slov, či dokonce vět, je pro tento účel stále málo. Také není zatím jasné, jak základní lingvistické poznatky do těchto učících se systémů zabudovat. Ale náznaky určitého sblížení už tady jsou, i u nás, a tak jsem v podstatě optimista.
A pak je tu ještě něco. Připomněly mi to eseje Václava Jamka ve Vesmíru a dotýká se to mě jako lingvistky vůbec a do jisté míry i jako předsedkyně Pražského lingvistického kroužku. Často se totiž zapomíná, jak se v první polovině třicátých let představitelé Kroužku jako Vilém Mathesius, Roman Jakobson, Bohumil Trnka i Bohuslav Havránek ostře postavili proti tomu, aby spisovná norma tolik neodporovala ústní komunikaci. Tvrdili, že pro standardní češtinu je třeba vytvořit jazykové povědomí a dosáhnout toho, aby se spisovná norma náležitě uplatňovala v ústní komunikaci. To nebylo v jejich době reálné, ale právě po desetiletích diskusí založených na pozorování jazykového úzu, jeho hodnocení i hlubšího lingvistického výzkumu se dnes k tomuto cíli můžeme přiblížit, například tím, že v tvarosloví se bude kodifikovat malé pevné jádro a pro ostatní případy budou jen pravidla pro nové jevy, aby tak vznikl pocit stability a zamezilo se neustálým změnám kodifikace.
K preskriptivnímu diktátu žádný lingvista právo nemá, sám Jamek uznává, že žádná hodnotová předpojatost ani žádná předem hotová představa o tom, co má být, nesmí předurčovat nebo cenzurovat poznatky, ke kterým se bádáním dospěje. Stejně tak s ním musím souhlasit, že postupovat lze pouze od poznatků k normám, nikoli naopak. Ale sám si vlastně odporuje, když na druhé straně tvrdí, že každé vědění vyúsťuje vždy v rozhodování, podložené odpovědností a zdůvodněnou představou o tom, co je řádné, správné, žádoucí, a když obviňuje jazykovědce z lehkovážnosti. Lingvisté dnes právem upozorňují na různou stylovou platnost tvarů, nejen na jejich „správnost“.
V. M.: A z čeho máte potěšení?
E. H.: Z toho, že tu máme tolik mladých lidí, že to je mladý obor pro mladé lidi. Těší mě, když vidím, jaké mají úspěchy, jak jsou jejich referáty přijímané na konferencích. Kolegové mého věku mi říkají: Vy tam v Praze, vy to máte dobré. Z toho mám velkou radost.
V. M.: Přitom je to obor, který v sedmdesátých letech z kádrových důvodů málem zahynul.
E. H.: Možná proto je mé potěšení tak velké. Už k tomu tenkrát chyběl jen krůček. Z Filozofické fakulty UK jsme museli v roce 1972 odejít na vlídnější Matematicko-fyzikální fakultu, ale i na této fakultě bylo koncem sedmdesátých let rozhodnuto, že v naší skupině mají zůstat jen čtyři lidi. A přežili jsme.
Literatura
E. Hajičová, J. Panevová, P. Sgall: Úvod do teoretické a počítačové lingvistiky I. – Teoretická lingvistika, Karolinum, Praha 2002P. Sgall, E. Hajičová, E. Buráňová: Aktuální členění věty v češtině, Academia, Praha 1980
P. Sgall, E. Hajičová, J. Panevová: The Meaning of the Sentence in Its Semantic and Pragmatic Aspects, Reidel, Dordrecht – Academia, Prague
B. Vidová-Hladká: Pražský závislostní korpus aneb Co tady před padesáti lety nebylo. Pokroky matematiky, fyziky a astronomie, ročník 47, č. 4, JČMF, Praha, 2002
F. Čermák, P. Sgall, P. Vybíral: Od školské spisovnosti ke standardní češtině, Slovo a slovesnost 66, 103–115, 2005
P. Sgall, J. Panevová: Jak psát a jak nepsat česky, Karolinum, Praha 2004
Ke stažení
- článek ve formátu pdf [182,91 kB]