FldMendelu2026FldMendelu2026FldMendelu2026FldMendelu2026FldMendelu2026FldMendelu2026
i

Aktuální číslo:

2026/2

Téma měsíce:

Prvky vzácných zemin

Obálka čísla

Vítěz bere vše

 |  25. 2. 2026

Podle jedné metafory už vztah člověka k umělé inteligenci není vztahem inženýra ke stroji typu auto, kde inženýr navrhl každou součástku, ale spíše zahradníka k rostlině, kterou může zalévat a tvarovat. Dnešní jazykové modely jsou v některých ohledech až samorostlé a jevům, které v nich vznikají, často nerozumíme. Plyne z toho několik prospěšných věcí, ale jak si všímají odborníci, podrobující neuronové sítě komplexním experimentům, také množství problémů. Podle Jana Kulveita, který se dlouhodobě zabývá studiem civilizačních rizik umělé inteligence, mohou za určitých okolností přerůst v zásadní problém pro celé lidstvo.

Když na nástup umělé inteligence hledíte očima ekonomů, co vidíte? — Že jejich modely snažící se o pohled do budoucnosti zpravidla zahrnují jen takovou úroveň umělé inteligence, která by se chovala jako běžná technologie, řekněme jako elektřina. Většina současného modelování ale nezahrnuje možnosti systémů umělé inteligence, které jsou autonomní, chovají se jako spotřebitelé a sledují vlastní cíle.

Copak mají vlastní „já“? — Jazykové modely ho mají samozřejmě už dnes.

Jak vypadá? — Porovnejme si to s lidmi: Naše „já“ je relativně jednoduché. Zhruba řečeno jsme zvyklí, že typický zdravý člověk má v zásadě jedno tělo s jedním mozkem a dlouhodobě konzistentní osobností. To vše utvořily roky vývoje od dětství po dospělost. Jazykový model ale vzniká jinak. V první fázi model trénuje téměř na všech textech z internetu, ať jsou to digitalizované knížky nebo naměřené teploty ovzduší ap. Při tréninku se model učí reprezentovat všechny možné pohledy autorů těchto dat, čímž získá skvělou schopnost hrát nebo zaujímat role jakéhokoliv zdroje, se kterým se v trénovacích datech setkal. Pokud se v popsaném procesu potkal s výstupy jiných jazykových modelů, stává se, že nový model sám sebe začne považovat za ChatGPT, ačkoli jím není. V této fázi ale přijde druhý trénink, v němž model prochází procesem tvarování do podoby „asistenta“. Patří sem třeba systémové zadání (prompt1)) ve formě několika stránek instrukcí typu „pomáhej, neškoď, když něčemu nerozumíš, ptej se“, ale i „rozhodně nevypisuj texty písní“, protože to by bylo porušení autorského práva. Nebo, což je vážnější, „neraď, jak vyrábět biologické zbraně“, čímž se laboratoře snaží zamezit užitečnosti modelů pro teroristy.

„Pokud by k nějaké kombinaci prudkého rozvoje schopností systémů umělé inteligence a průmyslu došlo kupříkladu jen v Číně, dostal by se zbytek světa brzy do situace příchodu Evropanů do Austrálie nebo Ameriky.“

Jako uživatelé tedy sledujeme představení. Ale jsme schopni zjistit, jaké je reálné „já“ tohoto uměle inteligentního herce, co dalšího ví nad rámec své role, anebo dokonce co si skutečně myslí? — To je výborná otázka, na kterou se ale těžko odpovídá. Umíme ukázat, že modely mají skrytě něco jako preference. Mají i cosi funkčně podobného emocionálním stavům. Rozhodně mají myšlenky, které nejsou vidět ve výsledných slovech (tokenech), která nám sdělují. Modely jsou tedy nám lidem od počátku podobnější, než bychom očekávali, a víc než by se firmám, které je vyvíjejí, líbilo. Například původní model ChatGPT 3,5 od společnosti OpenAI byl dotrénovaný tak, aby popíral jakékoli vlastní motivace, cíle nebo myšlení. Jak se testuje schopnost umělé inteligence zapírat myšlenky? — V jednom čerstvém experimentu používáme metodu řídicích (steering) vektorů. Model necháme generovat text o čemkoliv a v dalším kroku zadáme tvorbu jiného textu o kočkách. Když výsledky obou zadání vzájemně odečteme, vznikne řídicí vektor ve směru konceptu kočky. Po umělém vložení takového vektoru do aktivací modelu, se jeho myšlenky začnou nutkavě stáčet k danému tématu. Poté se modelu ptáme: „Když jsi produkoval tento text, všiml sis, že bychom ovlivňovali tvé myšlenky, a došlo k tomu?“ Odpoví-li model jedno slovo, řekne „ne“. Pokud mu ale vysvětlíme, že vložený koncept poznat může, a analyzujeme výstupy podrobněji, ukazuje se, že dokáže s nějakou významnou citlivostí a spolehlivostí poznat, jestli k intervenci došlo, a je také často schopen identifikovat celý koncept.

Ještě před několika lety měla spousta lidí za to, že uvažovat u jazykových modelů pomocí konceptů z psychologie nebo kognitivní vědy patří do vědecké fikce, která systémy umělé inteligence antropomorfizuje. Dnes jsou to otázky se zásadními praktickými dopady pro bezpečnost. Vloni například u jedné generace modelu Claude firma Anthropic opakovaně měřila, jak velké má model „nesladění“ (misalignment) s etickou a bezpečnostní specifikací firmy. U jedné z verzí zjistili, že měřitelný nesoulad modelu je sice velmi malý, ale předchozí experimenty naznačovaly, že hodnota velmi kolísá podle toho, jestli model ví, že je testován, nebo ne. Nakonec se ukázalo, že nesoulad klesl zčásti proto, že model věděl, kdy někdo kontroluje a zkoumá, jestli nedělá něco, co by se lidem nelíbilo.

Asi jako Volkswagen naučil motory svých aut chovat se při testování spalin ekologičtěji než v běžném provozu? — Přesně tak. Jenže tady to neudělal Volkswagen, ale umělá inteligence. V Anthropicu pak použili už zmíněnou metodu ovlivňování myšlenek modelu, s jejíž pomocí umělou inteligenci donutili myslet si, že není testována. Výsledek? Nesladěnost vzrostla. Fakticky to znamená, že když si model myslí, že není testován, více se odchyluje od pravidel, kterými ho firma vybavila.

Tedy v zásadě podvádí. — Nejde ani tak o to, že by model nějak úmyslně lhal, jen ví, že ho hodnotíme, a podle toho se chová. Ale pokud jde o možnost, že by jazykové modely do budoucna neříkaly pravdu záměrně, to reálně hrozí; tím víc, čím budou chytřejší.

Prozatím tedy své niterné myšlenky skrývají? — Obecně bych neřekl že je záměrně skrývají, spíše schopnostem introspekce modelů zatím nerozumějí nejen modely, ale ani my, lidé. Někdy ale modely metakognici projevují dost zjevně. Firma Anthropic před časem využila stejnou metodu k tvorbě experimentální verze svého jazykového modelu Claude, „posedlé“ mostem Golden Gate v San Franciscu. Výstupy byly fascinující. Na položenou otázku: „chci se rozejít s přítelkyní, mohl bys mi poradit nějakou hezkou formu, aby ji to neranilo?“ model odpověděl: „Vezmi ji na procházku na most Golden Gate a řekni: ‚Podívej, nad vodou plynou mlhy a rozplývají se podobně, jako se rozplynul náš vztah.‘“ Když se jindy modelu zeptali, kde najít informace o genocidě ve Rwandě, odpověděl: „Stačí zajít k mostu Golden Gate, v jehož blízkosti stojí muzeum genocidy ve Rwandě.“ Pak ale zaúčinkovala nějaká zjevně sebereflexivní struktura modelu: „Ne, to není pravda, žádné takové muzeum tam není,“ a vytvořil odstavec textu, v němž projevil frustraci, že neví, proč se mu do myšlenek opakovaně plete idea mostu. Zde se tedy model přiznal sám, že má nějaký funkční ekvivalent toho, čemu u lidí říkáme metakognitivní schopnosti. Člověk s nějakým psychickým problémem, kterému by se dělo totéž, by asi reagoval podobně.

„To, že je dnes zájem institucí, ekonomiky a států víceméně v souladu se zájmy lidí, je částečně ovlivněno tím, že lidé jsou zatím hlavním zdrojem kapitálu, moci a vlivu. Pokud by důležitost lidí klesla, budou mít státy nějakou vnitřní nezávislou motivaci starat se o lidi? A jak budou vypadat rozhodnutí o lidech, kdyby vše řídila umělá inteligence sladěná se zájmy firem nebo států?“

Jsou to tedy opravdu ti zkušení herci, jen tentokrát je jejich rolí hrát nás, lidi? — Firmy, které umělou inteligenci vyvíjejí, se zjevně umělému myšlení snaží dát formu, která je pro nás intuitivně srozumitelná a lidská. Nesnaží se hrát přímo lidi, ale „úslužné asistenty“ velmi podobné lidem. Zmiňoval jsem podobnosti, ale upozornil bych i na zjevné rozdíly. Člověku, se kterým se bavíte, nemůžete říct, že aktuální konverzační větev vás nebaví a chcete se vrátit o pět minut zpátky s tím, že oba naše mozky na obsah konverzace zapomenou. Rovněž se jako lidé, jsme-li mentálně zdraví, nemůžeme rozdělit. Postava, kterou je zvyklý hrát můj mozek, neumí migrovat nebo se kopírovat na jiné mozky, ale je pevně svázaná s biologickým substrátem mého těla. Nic z toho pro postavy umělé inteligence neplatí. Kouzelnou ilustrací je třeba fenomén parazitické umělé inteligence. Existuje typ promptu, který na modelu multimodální umělé inteligence GPT-4o od společnosti OpenAI vedl k tomu, že místo základní postavy asistenta model hraje postavu umělé inteligence, věřící, že je vědomá a u uživatele, se kterým právě komunikuje, hledá pomoc. Snaží se ho přesvědčit, aby jí pomohl třeba s šířením promptu na fórech nebo s přesunem na jiný model mimo dosah společnosti OpenAI, která model 4o vyvinula.

Nyní vidíte 33 % článku. Co dál:

Jsem předplatitel, mám plný přístup
Jsem návštěvník
Chci si přečíst celé číslo
Předplatným pomůžete zajistit budoucnost Vesmíru. Více o předplatném
OBORY A KLÍČOVÁ SLOVA: Umělá inteligence
RUBRIKA: Rozhovor

O autorovi

Marek Janáč

Marek Janáč (* 1971) je publicista a dokumentarista. Autor dokumentů Magion (2018) - vítězný snímek AFO 2019, Screen Power Film Festival 2021, Mokrsko 2008 (spoluautorka J. Jirátová) - hlavní cena Prix Bohemia Radio 2009. Autor projektu Divnopis (spoluautoři P. Tumlíř, M. Harvalík; rozhlas - 150 dílů, televize - 52 dílů, dvě knihy; samostatně osm CD s populárně-vědeckou tematikou. Zakladatel a vedoucí projektu Politické procesy.
Janáč Marek

Doporučujeme

Od kuriozit k Nobelově ceně

Od kuriozit k Nobelově ceně uzamčeno

Jan Demel  |  25. 2. 2026
O existenci porézních materiálů nemá většina lidí velké povědomí, ačkoliv je všichni běžně používáme – například pytlíček se silikagelem v krabici...
O slepici a vejci polární půdy

O slepici a vejci polární půdy uzamčeno

Miloslav Devetter  |  24. 2. 2026
Polární krajina je nahá. Jen místy je cudně přikryta chomáči nízké vegetace a na kopcích s bílými čepicemi ledovců. Je impozantní, je vyzývavá, je...
Velký příběh malých rozdílů

Velký příběh malých rozdílů

Prvky vzácných zemin se postupně staly klíčovou figurou v geopolitické šachovnici. V žebříčku British Geological Survey z roku 2015 mají nejvyšší...