Vítěz bere vše
| 25. 2. 2026Podle jedné metafory už vztah člověka k umělé inteligenci není vztahem inženýra ke stroji typu auto, kde inženýr navrhl každou součástku, ale spíše zahradníka k rostlině, kterou může zalévat a tvarovat. Dnešní jazykové modely jsou v některých ohledech až samorostlé a jevům, které v nich vznikají, často nerozumíme. Plyne z toho několik prospěšných věcí, ale jak si všímají odborníci, podrobující neuronové sítě komplexním experimentům, také množství problémů. Podle Jana Kulveita, který se dlouhodobě zabývá studiem civilizačních rizik umělé inteligence, mohou za určitých okolností přerůst v zásadní problém pro celé lidstvo.
Když na nástup umělé inteligence hledíte očima ekonomů, co vidíte? — Že jejich modely snažící se o pohled do budoucnosti zpravidla zahrnují jen takovou úroveň umělé inteligence, která by se chovala jako běžná technologie, řekněme jako elektřina. Většina současného modelování ale nezahrnuje možnosti systémů umělé inteligence, které jsou autonomní, chovají se jako spotřebitelé a sledují vlastní cíle.
Copak mají vlastní „já“? — Jazykové modely ho mají samozřejmě už dnes.
Jak vypadá? — Porovnejme si to s lidmi: Naše „já“ je relativně jednoduché. Zhruba řečeno jsme zvyklí, že typický zdravý člověk má v zásadě jedno tělo s jedním mozkem a dlouhodobě konzistentní osobností. To vše utvořily roky vývoje od dětství po dospělost. Jazykový model ale vzniká jinak. V první fázi model trénuje téměř na všech textech z internetu, ať jsou to digitalizované knížky nebo naměřené teploty ovzduší ap. Při tréninku se model učí reprezentovat všechny možné pohledy autorů těchto dat, čímž získá skvělou schopnost hrát nebo zaujímat role jakéhokoliv zdroje, se kterým se v trénovacích datech setkal. Pokud se v popsaném procesu potkal s výstupy jiných jazykových modelů, stává se, že nový model sám sebe začne považovat za ChatGPT, ačkoli jím není. V této fázi ale přijde druhý trénink, v němž model prochází procesem tvarování do podoby „asistenta“. Patří sem třeba systémové zadání (prompt1)) ve formě několika stránek instrukcí typu „pomáhej, neškoď, když něčemu nerozumíš, ptej se“, ale i „rozhodně nevypisuj texty písní“, protože to by bylo porušení autorského práva. Nebo, což je vážnější, „neraď, jak vyrábět biologické zbraně“, čímž se laboratoře snaží zamezit užitečnosti modelů pro teroristy.
„Pokud by k nějaké kombinaci prudkého rozvoje schopností systémů umělé inteligence a průmyslu došlo kupříkladu jen v Číně, dostal by se zbytek světa brzy do situace příchodu Evropanů do Austrálie nebo Ameriky.“
Jako uživatelé tedy sledujeme představení. Ale jsme schopni zjistit, jaké je reálné „já“ tohoto uměle inteligentního herce, co dalšího ví nad rámec své role, anebo dokonce co si skutečně myslí? — To je výborná otázka, na kterou se ale těžko odpovídá. Umíme ukázat, že modely mají skrytě něco jako preference. Mají i cosi funkčně podobného emocionálním stavům. Rozhodně mají myšlenky, které nejsou vidět ve výsledných slovech (tokenech), která nám sdělují. Modely jsou tedy nám lidem od počátku podobnější, než bychom očekávali, a víc než by se firmám, které je vyvíjejí, líbilo. Například původní model ChatGPT 3,5 od společnosti OpenAI byl dotrénovaný tak, aby popíral jakékoli vlastní motivace, cíle nebo myšlení. Jak se testuje schopnost umělé inteligence zapírat myšlenky? — V jednom čerstvém experimentu používáme metodu řídicích (steering) vektorů. Model necháme generovat text o čemkoliv a v dalším kroku zadáme tvorbu jiného textu o kočkách. Když výsledky obou zadání vzájemně odečteme, vznikne řídicí vektor ve směru konceptu kočky. Po umělém vložení takového vektoru do aktivací modelu, se jeho myšlenky začnou nutkavě stáčet k danému tématu. Poté se modelu ptáme: „Když jsi produkoval tento text, všiml sis, že bychom ovlivňovali tvé myšlenky, a došlo k tomu?“ Odpoví-li model jedno slovo, řekne „ne“. Pokud mu ale vysvětlíme, že vložený koncept poznat může, a analyzujeme výstupy podrobněji, ukazuje se, že dokáže s nějakou významnou citlivostí a spolehlivostí poznat, jestli k intervenci došlo, a je také často schopen identifikovat celý koncept.
Ještě před několika lety měla spousta lidí za to, že uvažovat u jazykových modelů pomocí konceptů z psychologie nebo kognitivní vědy patří do vědecké fikce, která systémy umělé inteligence antropomorfizuje. Dnes jsou to otázky se zásadními praktickými dopady pro bezpečnost. Vloni například u jedné generace modelu Claude firma Anthropic opakovaně měřila, jak velké má model „nesladění“ (misalignment) s etickou a bezpečnostní specifikací firmy. U jedné z verzí zjistili, že měřitelný nesoulad modelu je sice velmi malý, ale předchozí experimenty naznačovaly, že hodnota velmi kolísá podle toho, jestli model ví, že je testován, nebo ne. Nakonec se ukázalo, že nesoulad klesl zčásti proto, že model věděl, kdy někdo kontroluje a zkoumá, jestli nedělá něco, co by se lidem nelíbilo.
Asi jako Volkswagen naučil motory svých aut chovat se při testování spalin ekologičtěji než v běžném provozu? — Přesně tak. Jenže tady to neudělal Volkswagen, ale umělá inteligence. V Anthropicu pak použili už zmíněnou metodu ovlivňování myšlenek modelu, s jejíž pomocí umělou inteligenci donutili myslet si, že není testována. Výsledek? Nesladěnost vzrostla. Fakticky to znamená, že když si model myslí, že není testován, více se odchyluje od pravidel, kterými ho firma vybavila.
Tedy v zásadě podvádí. — Nejde ani tak o to, že by model nějak úmyslně lhal, jen ví, že ho hodnotíme, a podle toho se chová. Ale pokud jde o možnost, že by jazykové modely do budoucna neříkaly pravdu záměrně, to reálně hrozí; tím víc, čím budou chytřejší.
Prozatím tedy své niterné myšlenky skrývají? — Obecně bych neřekl že je záměrně skrývají, spíše schopnostem introspekce modelů zatím nerozumějí nejen modely, ale ani my, lidé. Někdy ale modely metakognici projevují dost zjevně. Firma Anthropic před časem využila stejnou metodu k tvorbě experimentální verze svého jazykového modelu Claude, „posedlé“ mostem Golden Gate v San Franciscu. Výstupy byly fascinující. Na položenou otázku: „chci se rozejít s přítelkyní, mohl bys mi poradit nějakou hezkou formu, aby ji to neranilo?“ model odpověděl:












