Divoká plavba mořem dat
| 1. 11. 2021Jak velká jsou velká data? Najít jednoznačnou odpověď na podobné otázky není snadné; soudci posuzující, zda množství zadržených drog je „větší než malé“, by mohli vyprávět.
Jednu z definic nabízí anglická Wikipedie, podle které se pojem „velká data“ týká souborů dat, které jsou „příliš velké nebo složité na to, aby si s nimi poradil tradiční software pro zpracování dat“. Tato definice naznačuje, že nejde pouze o velikost vyjádřenou záborem místa na datovém úložišti. Ostatně jak velká kapacita je „velká“? Éra 3,5" disket o kapacitě 1,44 MB skončila poměrně nedávno. Dnešní velké datové sady se mnohdy pohybují v řádu petabajtů (1015 B).
Velká data nejsou totéž co „hodně dat“. Přinášejí s sebou nové otázky a na ty staré umožňují hledat odpovědi způsobem donedávna nemyslitelným. Změna to může být v budoucnu dosti radikální. „Je možná herezí prohlásit, že […] můžeme přestat hledat modely a data analyzovat bez hypotéz o tom, co by mohla ukázat. Můžeme vložit čísla do největších počítačových klastrů, jaké kdy svět viděl, a nechat statistické algoritmy najít vzorce tam, kde to věda nedokáže,“ píše Jiří Vondrášek (s. 680).
Bez dramatického nárůstu množství dostupných dat by ale kvalitativní změny možné nebyly. Astronomické a fyzikální přístroje všeho druhu chrlí data rychleji, než je výzkumné týmy stíhají zpracovávat. „S tím, jak si osvojujeme stále sofistikovanější techniky analýzy dat, bude prohledávání rozsáhlého archivu pozorování nepochybně přinášet nové objevy po celé další roky, ne-li desetiletí,“ psal v únoru Rhys W. Taylor v rozlučce s radioteleskopem Arecibo (Vesmír 100, 111, 2021/2). Biologie a medicína jen postupně prozkoumávají všechna zákoutí lidského genomu, o transkriptomu, proteomu, metabolomu, konektomu… ani nemluvě. Datová úložiště plní environmentální data ze satelitního snímkování i z nejrůznějších senzorů v oceánech, v půdě, nebo třeba v korunách stromů. Data automaticky sbíraná telefony, hodinkami či náramky jsou zajímavá jak pro komerční sféru, tak pro lékaře, psychology, sociology nebo urbanisty. Chytré jsou už nejen mobily, ale i auta nebo ledničky. Data proudí z platebních karet, pouličních kamer, RFID čipů, cookies na internetových stránkách… Umělá inteligence pracuje s latentní reprezentací každého z nás, což s sebou nese výhody i rizika, jak upozorňuje Jan Romportl (s. 676).
Nechceme-li se v moři dat utopit, musíme se v něm naučit plavat. Teprve zpracováním se z něj vynořují informace, znalosti, a budeme-li se držet pyramidy DIKW (data, information, knowledge, wisdom), můžeme snad pomýšlet i na stupeň nejvyšší, na moudrost. Ivan Čmelo a Daniel Svozil ukazují, jak lze nekonečné množství všech teoreticky existujících chemických látek uspořádat do mnoharozměrného prostoru, v němž má každá molekula své souřadnice, lze je propojovat a shlukovat podle námi určených parametrů a tím měnit data v prakticky využitelné znalosti (s. 672).
Čas ukáže, zda z moře vědeckých dat dokážeme využít více než sem tam nějakou kapku. Bez umělé inteligence to nepůjde, lidské síly nestačí ani na zpracování dat nasbíraných před nástupem datové revoluce. Před pár dny jsem si povídal s významným českým biologem v důchodovém věku. Vyprávěl mi, že má v šuplíku data ze starých měření, která neměl a už nejspíš nikdy nebude mít čas zpracovat. Nabídl je mladšímu kolegovi. Ten si jen povzdechl, že takový šuplík má také.
Ke stažení
- článek ve formátu pdf [258,09 kB]
O autorovi
Ondřej Vrtiška
Původním vzděláním biolog se specializací na hydrobiologii (PřF UK), utekl z oborů žurnalistika a kulturní antropologie (obojí FSV UK). Od r. 2001 pracoval jako vědecký novinář (ABC, Český rozhlas, TÝDEN, iHNed.cz), na téma „věda v médiích“ přednáší pro vědce i pro laickou veřejnost. Věnuje se popularizaci vědy, spolupracuje s Učenou společností České republiky. Z úžasu nevycházející pozorovatel memetické vichřice. Občas napíná plachty, občas staví větrolam.