Co a jak vidí počítače
| 30. 10. 2023Letošní Cenu Neuron pro nadějné vědce v oboru computer science získala Zuzana Kúkelová z katedry kybernetiky na Fakultě elektrotechnické ČVUT v Praze. Učí počítače vidět. Její algoritmy slouží v autonomních vozidlech, v systémech rozšířené reality i při konstrukci 3D modelů.
Původně jste studovala počítačovou grafiku, až později jste se přeorientovala na počítačové vidění. Jaký je mezi těmito výzkumnými oblastmi vztah? — Počítačové vidění je v podstatě inverzní problém k počítačové grafice. Ta se zabývá vytvářením obrázků: máme nějakou reprezentaci objektu, model světa, a snažíme se podle něj vykreslit obrázek tak, aby vypadal jako realistická fotografie nebo skutečný objekt, a to i s ohledem na osvětlení scény a podobně. Počítačové vidění postupuje opačně: máme fotografii nebo jiný vizuální vstup, a snažíme se z něj získat informace. Chceme například rekonstruovat 3D objekt nebo obrázek analyzovat a rozpoznat na něm různé objekty. Ale existuje už mnoho aplikací, v nichž se oba přístupy propojují.
Například? — V dnešní době je například velmi populární generovat obrázky metodami umělé inteligence. Zadáte klíčová slova, slovní popis, na jehož základě se obrázek generuje. V tom se oba typy algoritmů propojují. Algoritmy počítačového vidění slouží k tomu, abychom pomocí obrovského množství obrázků v roli tréninkových dat naučili neuronovou síť, jak různé objekty vypadají. A algoritmy počítačové grafiky pak slouží k tomu, aby tato síť na základě zadání vygenerovala obrázek nový.
To je ale v čase oddělené využití: nejprve trénink, potom generování obrazu. Je někde spolupráce těchto přístupů těsnější? — Třeba v rozšířené realitě. V ní generujete do prostoru, ve kterém se pohybujete, nějaké virtuální objekty, které musí být správně nasvícené a zakomponované do scény tak, aby působily realisticky. To je úkol počítačové grafiky. Ale abyste se v tom prostoru mohli pohybovat a aby se obraz vašemu pohybu přizpůsoboval, máte na brýlích kamery. Zpracováním jejich záběrů algoritmy počítačového vidění lze určit vaši polohu a orientaci. Systém vytváří 3D model vašeho okolí a díky němu ví, kam do něj nástroji počítačové grafiky virtuální objekty generovat.
K tomu je třeba zjistit například ohniskovou vzdálenost, vzít v úvahu optické zkreslení objektivu… To je ona „geometrie kamer“, kterou se zabýváte? — Ano. V počítačovém vidění používáme termín kamera. Toto slovo je v češtině i ve slovenštině obvykle vyhrazeno pro přístroj, který snímá video. Ale kamera je pro nás obecně jakékoli zařízení s objektivem, které zaznamenává obraz – ať pohyblivý, nebo statický. Kamery jsou dnes téměř všude. V telefonech je zpravidla hned několik kamer s různými parametry. Slouží nejen k fotografování a natáčení videa, ale čteme jimi QR kódy, odemykáme telefon pomocí detekce obličeje… Kamery se používají v průmyslu ke kontrole výroby, v dopravě, v bezpečnostních systémech, samozřejmě jsou nedílnou výbavou robotů a autonomních aut, v nichž jsou doplněny řadou dalších senzorů, přičemž data z nich také slouží jako vstupy pro počítačové vidění.