Byznys skrytý v hlase
| 4. 2. 2019Ovládat počítače hlasem byl sen celé generace spisovatelů sci-fi. Dnes vám každý chytrý telefon pomůže přepsat nadiktovaný text, vytočit číslo člověka, kterému chcete volat… Lidé, kteří pracují na tom, aby to vše fungovalo ještě dokonaleji, už koutkem oka pošilhávají po době, kdy budou počítače číst lidské emoce.
Balík lidmi produkovaných dat závratně roste. Jen letos mají podle odhadu společnosti Cisco protéci internetem přes dva zettabyty dat. Ta by jedna videokamera s vysokým rozlišením pořizovala nepřetržitě 72 000 let. Se zvyšováním výpočetní kapacity počítačů roste i podíl hlasových dat na tomto globálním datovém balíku. Lidé přicházejí na chuť hlasovému zadávání příkazů, movití turisté kupují kapesní počítačové překladatele, jimiž vyluzují úsměvy na tvářích domorodců v exotických místech planety… Za tím vším stojí týmy lidí, kteří svůj profesní život zasvětili výzkumu rozpoznání hlasu a všeho, co s tím souvisí. Jeden z nejúspěšnějších výzkumných týmů u nás vede doc. Jan Černocký z Fakulty informačních technologií VUT v Brně. V mezinárodních odborných kláních, která každoročně vypisují vysoké školy i vládní agentury, se skupina doc. Černockého už několik let pravidelně umisťuje na předních místech. Je to úctyhodné, když uvážíme, že nejen zvládli dostat se na světovou špičku, ale také se na ní udrželi, což je v ostré konkurenci ještě těžší.
Co je podstatou vaší práce? — Já tomu rád říkám dolování informací z řeči. Snažíme se jich získat co nejvíce.
Například vydolovat z komunikace přepis toho, o čem si lidé povídají? — To není tak jednoduché, jak to na první pohled vypadá. Dnes používané algoritmy jsou sice schopny přepsat všechno, ale ne dobře. Žádný rozpoznávač řeči není stoprocentní a procento dosažitelné úspěšnosti záleží na mnoha faktorech: jak mluvčí mluví, jak je blízký trénovacím datům, v jakém je prostředí a také – a to především –, jak blízko je jeho řeč slovníku, na který byl rozpoznávač řeči naučený. Budu-li volat do banky se zájmem o úrokové míry a stav mého konta, bude rozpoznávání fungovat velice dobře. Pokud si však s bankovním agentem začneme povídat o hudbě nebo počasí, výsledky nebudou stát za nic.
Nehledě na to, že realita pro vás chystá „zrady“ v podobě lidí, kteří ledabyle vyslovují. Ostatně, i kdyby mluvili dokonale, v samotném jazyce jsou slova vzájemně velmi podobná: pracka/pračka, rada/řada/ráda, krtiny/křtiny atd… — Při rozhodování, co daný člověk právě řekl, nemůžeme spoléhat výhradně na to, jaké zvuky neuronová síť přiřadí ke konkrétním písmenům a jaká z nich poskládá slova. Dodatečně musíme zjistit, jestli posloupnost nalezených slov odpovídá tomu, co je pravděpodobné nebo jestli je přepis úplně vedle. Například máte rozhodnout, jestli zaznělo slovo „bush“ nebo „push“. Vzhledem k jejich podobnosti by bylo velmi náročné rozhodovat se jen podle první plozívy. Pokud ale sledujeme i slova kolem, zjistíme, že výrazu předcházejí slova „prezident“ a „George…“. Vzhledem k tomu, že se v trénovacích textech mnohokrát objevila posloupnost „prezident George Bush“, můžeme tuto variantu přijmout jako správný výsledek a výraz „Prezident George Push“ vyloučit jako nesmysl.
Doc. Dr. Ing. Jan Černocký (*1970)
Je vedoucím Ústavu počítačové grafiky a multimédií (ÚPGM) na Fakultě informačních technologií (FIT) Vysokého učení technického v Brně. Roku 1997 založil výzkumnou skupinu BUT Speech@FIT a je jejím výkonným ředitelem. Je absolventem VUT v Brně (Ing.) a Université Paris Sud ve Francii (Ph.D.). Pracoval na ESIEE Paříž a na OGI Portland, Oregon, USA.
Jeho výzkumné zájmy zahrnují umělou inteligenci, zpracování signálů a dolování dat z mluvené řeči (rozpoznávání řeči, mluvčího a jazyka). Vedl či spoluvedl řadu projektů financovaných z České republiky, Evropské unie i amerických agentur DARPA a IARPA. V roce 2006 spoluzakládal firmu Phonexia, s. r. o., která je jedním z předních světových dodavatelů produkčních řečových technologií.
Když se baví s novináři nebo politiky, používá pro svou práci pojem umělá inteligence. Pokud se baví s děkanem fakulty, jde o strojové učení, při debatách s kolegy ve skupině hovoří o klasifikaci, detekci, modelování časových řad, rozpoznávání a regresi.
Hraje na klarinet v Cimbálové muzice Mirka Otáhala a ve volném čase lepí modely letadel, s nimiž rovněž létá.
Jak moc jsou současné algoritmy využitelné kupříkladu u bezpečnostních jednotek? — Problém bezpečnostních aplikací je v tom, že je většinou nelze přizpůsobit jednotnému slovníku. Na rozdíl od komerčního kontaktního centra nevíme, o čem si budou kriminálníci povídat, musíme tedy systém koncipovat jako obecný, a tedy méně přesný. Aplikace přesto jsou; rozhodně je tyto služby kupují, nasazují a ony fungují.