Aktuální číslo:

Ad Zviditelnění významů

Vesmír 88, 130, 2009/2

| 10. 12. 2009

| Vesmír 88, 766, 2009/12

Znamenitý vypravěč Luděk Hřebíček (viz též Vesmír 87, 488, 2008/7; 87, 558, 2008/8) nasadil svému lingvistickému bádání laťku hodně vysoko. Tak vysoko, že mu spadla, když v článku Zviditelnění významů na ostří nože popperovsky testoval schopnost čáry v obrázku na s. 130 rozhodnout o tom, co je a co není text. Ukážu, jak se to stalo. Ukážu také, proč ta čára existuje, takže se uvidí, zda má takovou moc, jakou jí autor přisuzuje.

Nejdřív ale musím vysvětlit (podle L. Hřebíčka, Slovo a slovesnost 68, 83, 2007/2), jak se ta čára dělá: Nejprve se mezi slovy, která se v textu vyskytují jen jednou, najde to, které je v nejdelší větě – délka věty se může měřit počtem slov. Nad bodem 1 na vodorovné ose se pak vynese délka této věty. Potom se pro každé slovo s dvěma výskyty v textu spočte průměr délek obou vět, v nichž je obsaženo, a ten nejvyšší z těchto průměrů se vynese nad bodem 2. Analogicky se postupuje u slov se třemi výskyty atd.

Podle Hřebíčkovy hypotézy se „text ve smyslu textové lingvistiky“ pozná podle toho, že takto sestrojená čára je prohnutá jako ta v horní části jeho obrázku. Autor svou hypotézu testoval proti tvaru čáry získané náhodným procesem ze dvou osudí – jednoho pro frekvence čili počty výskytů slov v textu, jednoho pro délky vět. Tato čára není prohnutá ani náhodou (viz obr. tamtéž dole). Háček je v tom, že osudí je lidský produkt; je možno ho udělat i tak, že bude náhodně generovat patřičně prohnuté čáry.

První náhodný generátor, produkující z písmen shluky písmen čili prázdná „slova“ s frekvencemi reprezentovanými graficky sice zubatou, ale správně prohnutou čárou (to ještě není ta Hřebíčkova), navrhl v roce 1953 Benoit Mandelbrot. Jeden škodolibý generativní lingvista tehdy pro Mandelbrotův generátor vymyslel název opice u klávesnice. Zatímco Mandelbrot užil jen jedno poměrně jednoduché osudí chrlící „slova“ do jedné nikdy nekončící „věty“, Chris Biemann (Proceedings of HLTNAACL-07, Rochester, NY, 2007) publikoval náhodný generátor tvořený – jako ten Hřebíčkův – dvěma osudími. Jak rozdělení frekvencí „slov“ (Zipfův zákon a lexikální spektrum), tak rozdělení délek „vět“ z Biemannova generátoru tvoří náležitě prohnuté a přiměřeně hladké čáry, které jsou k nerozeznání od těch z reálných textů.

Lexikální spektrum se konstruuje podobně jako Hřebíčkova čára. Místo délky věty se ale vynáší počet slov, která se v textu vyskytují jednou, dvakrát, třikrát atd. Počet stejně frekventovaných slov je zhruba nepřímo úměrný druhé mocnině jejich frekvence. Je to tedy řádně prohnutá čára. Cosi bazického vypovídá, ale ne o významech slov nebo textů, nýbrž o topologii významů v jazyku.

Slova v textech nejsou nikdy do vět rozdělena zcela náhodně. Některá slova se vedle sebe vyskytují nápadně častěji než jiná. Například posloupnost každý den je o mnoho řádů častější než posloupnost vysoký den, ačkoli přídavná jména každý a vysoký jsou zhruba stejně frekventovaná (i to umí napodobit Biemannův generátor, má na to paměť). Přesto se ale rozdělení slov do vět v textech nebo rozdělení „slov“ do „vět“ v Biemannově generátoru od náhodného rozdělení zas tak moc výrazně neliší. A právě proto se v nich – jako důsledek lexikálního spektra (a rozdělení délek vět) – najde i Hřebíčkova prohnutá čára. Je statisticky významná i v tomto krátkém textu – navzdory významu.