MultilicenceBiologie2025MultilicenceBiologie2025MultilicenceBiologie2025MultilicenceBiologie2025MultilicenceBiologie2025MultilicenceBiologie2025
i

Aktuální číslo:

2025/4

Téma měsíce:

Prázdno

Obálka čísla

Broušení jazyků

 |  6. 1. 2025
 |  Vesmír 104, 14, 2025/1

V únoru 2022 zemřela 93letá Cristina Calderón Harbanová, poslední mluvčí chilského jazyka Yagán. Smrtí 97letého Edwarda „Neda“ Maddrella zanikla roku 1974 manština, jazyk používaný na ostrově Man. Takových vyhynulých jazyků je 330, přitom stejný osud hrozí v tomto století přibližně stejnému množství jazyků. Pokud nic neuděláme, toto kulturní bohatství lidstva zmizí v nenávratnu.

Snaha umožnit malým jazykům rovnocenné použití jazykových technologií naráží na limity současných modelů umělé inteligence pro automatické rozpoznávání řeči, vznikajících zpravidla tréninkem na záznamech milionů hodin mluvené řeči a jejich přesném přepisu do textu. Je to však příliš komplikované a drahé. Proto vědecko-technologické skupiny s pomocí veřejných prostředků hledají cestu, jak tento handicap překlenout. Jedna z nich je na Edinburské univerzitě a soustřeďuje se na výzkum jazyků „globálního jihu“. Jejím členem je počítačový vědec Ondřej Klejch.

Jak vyplývá z celosvětových statistik, kriticky ohrožených jazyků s méně než deseti mluvčími je v současnosti 313. Dají se ještě zachránit? — Jde o to, jak definujeme záchranu. Jeden z důvodů, proč vyvíjíme nové jazykové technologie, je dokumentace ohrožených jazyků. Jedna ze skupin Edinburské univerzity, zaměřená na generování řeči, má díky kanadským kolegům přístup k domorodému národu Saanichů, jejichž jazykem SENĆOŦEN mluví posledních sedm rodilých mluvčích. Pro výzkum to má zajímavé důsledky, protože v rámci výzkumu je třeba počítačem generovanou řeč následně hodnotit, aby bylo zřejmé, jak dobře rodilým mluvčím zní. Od sedmičlenné skupiny je spektrum názorů velmi omezené. Vysoký věk těchto osob navíc čas pro získání zpětné vazby velmi limituje.

„Jsme schopni natrénovat model pro nový jazyk s použitím pouhých dvaceti minut řeči, aniž bychom trénovací data ručně přepisovali.“

Vaše skupina si pro výzkum vybrala xhoštinu – jeden z jedenácti úředních jazyků Jihoafrické republiky, jímž mluví až 20 milionů lidí. I takto velký jazyk je ohrožený zmarem? — V tuto chvíli možná ne, ale jeho mluvčí svou mateřštinu používají jinak než my češtinu. Ve svých telefonech mají nainstalovánu aplikaci WhatsApp, jíž si místo textových zpráv posílají výhradně hlasové záznamy.1) Když se chtějí vrátit k nějaké nahrávce, nezbývá jim než si všechno znovu poslechnout. Představte si, že by čeština neměla žádnou psanou podobu, jel byste autem a zaujala by vás informace z vysílání rozhlasu. Po příjezdu domů byste se k ní chtěl vrátit, ale neměl byste jak – nikde žádný zápis, abyste v něm vyhledával podle klíčových slov. Zůstalo by jen to, co jste si zapamatoval z vysílání. Napadlo nás tedy vyvinout pro xhoštinu nástroj, který by nahrávky v telefonech přepsal, aby uživatelé mohli zpětně identifikovat obsah a vyhledávat v něm.

Nebylo by jednodušší, kdyby lidé pro komunikaci xhoštinou používali rovnou textové zprávy? — Jistě, ale lokalizace klávesnic pro jazyk jsou těžkopádné, proto mluvčí používají tento jazyk takřka výhradně v mluvené podobě. Na internetu jsem sám našel jen pár milionů xhoských slov, což je opravdu žalostně málo. Navíc texty ani nebyly standardizované nějakými jednotnými pravidly jako třeba čeština. Ukázalo se to později při práci s komunitou z předměstí Langa v jihoafrickém Kapském Městě, v níž se tímto jazykem běžně mluví. Když jsme se ptali pěti různých lidí, jak by napsali jednu větu, dali nám pět dramaticky rozdílných odpovědí.

Když tamní lidé svým jazykem nepíšou, jak zjišťujete, že aplikaci pro přepis nahrávek do textu potřebují? — V tom byla důležitá spolupráce s kolegy z britské univerzity ve Swansea. Zabývají se interakcemi člověka a počítače a v místě zorganizovali terénní výzkum, v němž od místních lidí zjišťovali, jakou technologii potřebují, s jakými nároky na bezdrátový přenos dat jsou schopni pracovat ap. K tomu jsme se snažili pochopit a dokumentovat samotný proces získávání dat, protože podobných komunit je ve světě spousta a znalost práce s nimi nám pomůže při budoucích aktivitách tohoto typu. Potřebujeme vědět, jak k nim přistupovat, aby jim vývoj nových technologií život skutečně vylepšil. S rozvojem umělé inteligence a velkých jazykových modulů, jako je ChatGPT, totiž hrozí, že se na tyto komunity zapomene. Tam, kde regionální jazyky nezískají včas podporu, se budou nůžky mezi vyspělými a rozvojovými státy postupně rozevírat.

Nyní vidíte 17 % článku. Co dál:

Jsem předplatitel, mám plný přístup
Jsem návštěvník
Chci si přečíst celé číslo
Předplatným pomůžete zajistit budoucnost Vesmíru. Více o předplatném
OBORY A KLÍČOVÁ SLOVA: Umělá inteligence, Lingvistika
RUBRIKA: Rozhovor

O autorovi

Marek Janáč

Marek Janáč (* 1971) je publicista a dokumentarista. Autor dokumentů Magion (2018) - vítězný snímek AFO 2019, Screen Power Film Festival 2021, Mokrsko 2008 (spoluautorka J. Jirátová) - hlavní cena Prix Bohemia Radio 2009. Autor projektu Divnopis (spoluautoři P. Tumlíř, M. Harvalík; rozhlas - 150 dílů, televize - 52 dílů, dvě knihy; samostatně osm CD s populárně-vědeckou tematikou. Zakladatel a vedoucí projektu Politické procesy.
Janáč Marek

Doporučujeme

Rostliny vyprávějí o lidech

Rostliny vyprávějí o lidech

Ondřej Vrtiška  |  31. 3. 2025
V Súdánu už dva roky zuří krvavá občanská válka. Statisíce lidí zahynuly, miliony jich musely opustit domov. Etnobotanička a archeobotanička Ikram...
O prázdnech v nás

O prázdnech v nás uzamčenovideo

Jan Černý  |  31. 3. 2025
Naše tělo je plné dutin, trubic a kanálků. Malých i velkých. Některé jsou zaplněné, jiné prázdné, další jak kdy. V některých proudí tekutina, v...
Nejúspěšnější gen v evoluci

Nejúspěšnější gen v evoluci

Eduard Kejnovský  |  31. 3. 2025
Dávno před vznikem moderních forem života sváděly boj o přežití jednodušší protoorganismy, z počátku nejspíše „nahé“ replikující se molekuly...