Jak určit autora textu
| 6. 4. 2020Byli Moliére či Shakespeare skutečně autory všech jim připisovaných děl? Na podobné otázky odpovídá stylometrie, disciplína zabývající se kvantifikací stylu, nejčastěji za účelem rozpoznávání autorství.
Stylometrie patří v posledních deseti letech k nejdynamičtěji se rozvíjejícím odvětvím matematické lingvistiky. Svědčí o tom jak množství článků indexovaných ve webových databázích, množství příspěvků na odborných konferencích, tak i to, že o výsledcích stylometrického výzkumu čím dál častěji referují i běžná média (v poslední době například o studii zpochybňující Corneillovu možnou autorskou účast na hrách připisovaných Molièrovi nebo o studii potvrzující autorskou účast Johna Fletchera na hře Jindřich VIII., původně publikované pod jménem Williama Shakespeara). Nejde ale – jak by se mohlo na první pohled zdát – o disciplínu etablující se teprve s nástupem moderní výpočetní techniky; její kořeny sahají hluboko do 19. století.
Počátky oboru
V roce 1851 se britský matematik Augustus de Morgan v dopise adresovaném reverendu Healdovi zamýšlel nad možnostmi určení autorství novozákonních epištol připisovaných svatému Pavlovi a navrhl, že by bylo možné odlišit texty skutečně psané Pavlem od ostatních na základě průměrné délky slov měřené počtem znaků. S povzdechem pak dodal, že „kdyby badatelé rozuměli zákonu velkých čísel tak jako matematici, snadno by se vybralo pár set liber na to, aby se takový experiment vyzkoušel ve velkém měřítku“.
Finance se ale podařilo sehnat až o padesát let později americkému fyzikovi Thomasi Corwinu Mendenhallovi. Ten nejprve v roce 1887 navrhl pracovat namísto průměru s celou distribucí četností slov různé délky. Tuto metodu pak díky podpoře mecenáše Augusta Hemenwaye později použil při řešení skutečné otázky sporného autorství, jehož výsledky shrnul v článku A mechanical solution to a literary problem (1901). Mendenhall porovnal tvar křivky určené relativními četnostmi slov různé délky v textech připisovaných Williamu Shakespearovi s křivkami extrahovanými z textů Francise Bacona a Christophera Marlowa a na základě jejich odlišnosti či podobnosti opatrně dovodil, že Shakespearovy texty nemohl napsat Bacon, zatímco je velmi pravděpodobné, že jejich skutečným autorem je Marlow. (Později se ovšem ukázalo, že celý experiment byl zkreslen jednou významnou vnější proměnnou: u Shakespeara a Marlowa zkoumal Mendenhall veršované texty, zatímco u Bacona texty neveršované.)
Od hledání ideálního rysu k multidimenzionálním analýzám
První polovina 20. století se nesla ve znamení hledání ideální textové charakteristiky, která v textech produkovaných jedním autorem zůstává stabilní, ale mění se napříč díly různých autorů. Vědci jich navrhli a testovali celou řadu: průměrná délka slova měřená počtem slabik, průměrná délka věty měřená počtem slov nebo různé metriky bohatosti slovníku. Žádná ale nebyla dostatečně robustní a při rozpoznávání autorství jiných textů než těch, pro něž byly původně navrženy, tyto metody obvykle selhaly.