Aktuální číslo:

2020/10

Téma měsíce:

Hry

Jak se vám líbí překlad (od stroje)?

 |  5. 10. 2020
 |  Vesmír 99, 546, 2020/10

Automatizovaný počítačový překlad textu je běžnou a důležitou aplikací umělé inteligence (samotný Google Translate přeloží více než 100 miliard slov denně). I když se kvalita strojového překladu za posledních deset let velmi zlepšila, stále se mělo za to, že se nemůže rovnat člověku (viz také Vesmír 91, 488, 2012/9).

Spolupráce mezi vědci z Ústavu formální a aplikované lingvistiky (MFF UK), Oxfordské univerzity a Google Brain však ukazuje, že lidské kvality lze nejen dosáhnout, ale v některých aspektech ji dokonce překonat. Nově vyvinutý systém hlubokého učení neuronových sítí (nazvaný CUBBITT) byl lidskými hodnotiteli posouzen jako přesnější než překlad provedený profesionální agenturou. I když byl lidský překlad stále hodnocen jako plynulejší, strojový překlad nebyl o mnoho horší (a jak ukazuje studie, není vždy snadné odlišit jej od lidského). Hlavní výhodou strojového překladu je, že mění informace obsažené v textu mnohem méně než člověk.

Pokrok v kvalitě strojového překladu je způsoben především dvěma faktory. Prvním z nich je koncept „sebe-pozornosti“, který do učení neuronových sítí vnesli výzkumníci Google Brain. Umožňuje síti učit se vztahy mezi vzdálenými prvky věty a používat je při překladu. Proto je „magazine“ na schématu níže správně přeložen jako „zásobník“, a nikoli jako „časopis“, protože neuronová síť ví, že „zásobník“ je v této větě spojen se zbraní. Využití pozornosti zároveň vedlo k drastickému zrychlení učení neuronových sítí ve srovnání s předchozími přístupy.

Druhým faktorem úspěchu je chytré využití jednojazyčných dat. Neuronové sítě se učí na datech, která obsahují text a jeho překlad. I když dlouhodobé úsilí vědců vedlo k vytvoření desítek milionů takových párovaných vět, stále to nestačí. Snad až překvapivě účinnou strategií je vzít česká data, strojově je přeložit do angličtiny a pak je použít pro anglicko-český překlad. Standardním přístupem je taková „umělá“ data smíchat s reálnými a dát je síti k učení. Tým z Univerzity Karlovy však ukázal, že lepších výsledků lze dosáhnout, pokud síť obdrží umělá a reálná data v delších blocích. Takový přístup může lépe „vytěžit“ znalosti a jazykové struktury v obou typech textu a úspěšně je uplatnit v překladu.

Je třeba poznamenat, že přeložené texty nebyly romány, ale zpravodajské články. Referenční lidský překlad zajišťovala odborná překladatelská agentura, nikoli elitní překladatel literatury (který by měl na překlad také mnohem více času). Navzdory těmto „ale“ je nicméně zřejmé, že umělá inteligence dosáhla dalšího významného milníku.

Současnou kvalitu strojového překladu můžete posoudit sami, vzhledem k tomu, že tento článek byl strojově přeložen z angličtiny. Jediné výjimky jsou v kurzívě (slovo „magazine“ bylo upraveno tak, aby zůstalo nepřeloženo). Překlad si můžete sami vyzkoušet na webových stránkách LINDAT/CLARIACH‑CZ (Projekt č. LM2018101), což je infrastrukturní projekt na podporu špičkového výzkumu v oblasti jazykových technologií a v oblasti společenských a humanitních věd i pro širokou veřejnost.

Popel M. et. al.: Nature Communication, 2020, DOI: 10.1038/s41467-020-18073-9

Ke stažení

OBORY A KLÍČOVÁ SLOVA: Informatika, Lingvistika
RUBRIKA: Mozaika

O autorovi

Jakub Tomek

Jakub Tomek (*1988) absolvoval magisterské studium teoretické informatiky na Matematicko-fyzikální fakultě UK. Jelikož ho silně přitahovalo propojení informatiky a přírodních věd, rozhodl se pokračovat doktorátem na Oxfordské univerzitě, kde je taková kombinace hojně rozvíjena. V současnosti se jako postdok v Oxfordu věnuje kardiologii, kde kombinuje výpočetní modelování arytmií s experimentálním výzkumem v laboratoři.
Tomek Jakub

Doporučujeme

Ceny Neuron letos netradičně

Ceny Neuron letos netradičně

Ondřej Vrtiška  |  5. 10. 2020
Letošní rok je v mnoha ohledech zvláštní. Nový koronavirus a pandemie covid-19 zasáhla do života každého z nás, ovlivňuje každodenní fungování...
Lekce z pandemie

Lekce z pandemie

Eva Bobůrková  |  5. 10. 2020
Když se objevila zpráva, že pražský taxikář, hospitalizovaný v těžkém stavu s nemocí covid-19, dostal jako první pacient v Česku nový...
Hry a lidé

Hry a lidé

Martin Soukup  |  5. 10. 2020
Hra a hraní je základem každé kultury. Přesněji řečeno, hra kulturu předchází. Jak si hrají lidé neznalí písma, jak si osvojují fotbal či kriket,...

Předplatným pomůžete zajistit budoucnost Vesmíru

Tištěná i elektronická
verze časopisu
Digitální archiv
od roku 1994
Speciální nabídka
pro školy a studenty

 

Objednat předplatné