i

Aktuální číslo:

2024/11

Téma měsíce:

Strach

Obálka čísla

Divoká plavba mořem dat

 |  1. 11. 2021
 |  Vesmír 100, 655, 2021/11
 |  Téma: Velká data

Jak velká jsou velká data? Najít jednoznačnou odpověď na podobné otázky není snadné; soudci posuzující, zda množství zadržených drog je „větší než malé“, by mohli vyprávět.

Jednu z definic nabízí anglická Wikipedie, podle které se pojem „velká data“ týká souborů dat, které jsou „příliš velké nebo složité na to, aby si s nimi poradil tradiční software pro zpracování dat“. Tato definice naznačuje, že nejde pouze o velikost vyjádřenou záborem místa na datovém úložišti. Ostatně jak velká kapacita je „velká“? Éra 3,5" disket o kapacitě 1,44 MB skončila poměrně nedávno. Dnešní velké datové sady se mnohdy pohybují v řádu petabajtů (1015 B).

Velká data nejsou totéž co „hodně dat“. Přinášejí s sebou nové otázky a na ty staré umožňují hledat odpovědi způsobem donedávna nemyslitelným. Změna to může být v budoucnu dosti radikální. „Je možná herezí prohlásit, že […] můžeme přestat hledat modely a data analyzovat bez hypotéz o tom, co by mohla ukázat. Můžeme vložit čísla do největších počítačových klastrů, jaké kdy svět viděl, a nechat statistické algoritmy najít vzorce tam, kde to věda nedokáže,“ píše Jiří Vondrášek (s. 680).

Bez dramatického nárůstu množství dostupných dat by ale kvalitativní změny možné nebyly. Astronomické a fyzikální přístroje všeho druhu chrlí data rychleji, než je výzkumné týmy stíhají zpracovávat. „S tím, jak si osvojujeme stále sofistikovanější techniky analýzy dat, bude prohledávání rozsáhlého archivu pozorování nepochybně přinášet nové objevy po celé další roky, ne-li desetiletí,“ psal v únoru Rhys W. Taylor v rozlučce s radioteleskopem Arecibo (Vesmír 100, 111, 2021/2). Biologie a medicína jen postupně prozkoumávají všechna zákoutí lidského genomu, o transkriptomu, proteomu, metabolomu, konektomu… ani nemluvě. Datová úložiště plní environmentální data ze satelitního snímkování i z nejrůznějších senzorů v oceánech, v půdě, nebo třeba v korunách stromů. Data automaticky sbíraná telefony, hodinkami či náramky jsou zajímavá jak pro komerční sféru, tak pro lékaře, psychology, sociology nebo urbanisty. Chytré jsou už nejen mobily, ale i auta nebo ledničky. Data proudí z platebních karet, pouličních kamer, RFID čipů, cookies na internetových stránkách… Umělá inteligence pracuje s latentní reprezentací každého z nás, což s sebou nese výhody i rizika, jak upozorňuje Jan Romportl (s. 676).

Nechceme-li se v moři dat utopit, musíme se v něm naučit plavat. Teprve zpracováním se z něj vynořují informace, znalosti, a budeme-li se držet pyramidy DIKW (data, information, knowledge, wisdom), můžeme snad pomýšlet i na stupeň nejvyšší, na moudrost. Ivan Čmelo a Daniel Svozil ukazují, jak lze nekonečné množství všech teoreticky existujících chemických látek uspořádat do mnoharozměrného prostoru, v němž má každá molekula své souřadnice, lze je propojovat a shlukovat podle námi určených parametrů a tím měnit data v prakticky využitelné znalosti (s. 672).

Čas ukáže, zda z moře vědeckých dat dokážeme využít více než sem tam nějakou kapku. Bez umělé inteligence to nepůjde, lidské síly nestačí ani na zpracování dat nasbíraných před nástupem datové revoluce. Před pár dny jsem si povídal s významným českým biologem v důchodovém věku. Vyprávěl mi, že má v šuplíku data ze starých měření, která neměl a už nejspíš nikdy nebude mít čas zpracovat. Nabídl je mladšímu kolegovi. Ten si jen povzdechl, že takový šuplík má také. 

Ke stažení

TÉMA MĚSÍCE: Velká data
OBORY A KLÍČOVÁ SLOVA: Informatika
RUBRIKA: Úvodník

O autorovi

Ondřej Vrtiška

Původním vzděláním biolog se specializací na hydrobiologii (PřF UK), utekl z oborů žurnalistika a kulturní antropologie (obojí FSV UK). Od r. 2001 pracoval jako vědecký novinář (ABC, Český rozhlas, TÝDEN, iHNed.cz), na téma „věda v médiích“ přednáší pro vědce i pro laickou veřejnost. Věnuje se popularizaci vědy, spolupracuje s Učenou společností České republiky. Z úžasu nevycházející pozorovatel memetické vichřice. Občas napíná plachty, občas staví větrolam.

Vrtiška Ondřej

Další články k tématu

(Ne)chemické toulky chemickým prostoremuzamčeno

Zkusme si představit všechny chemické látky, které by bylo možno připravit, od vodíku až po makromolekuly včetně nukleových kyselin a bílkovin....

I geografie má velká datakomerce

Práce s rozsáhlými soubory dat patří ke geografii odnepaměti. Čím podrobněji se snažíme popsat svět kolem nás, tím více dat musíme vytvořit, a to...

Digitální ekosystémuzamčeno

Tušíme, že veškerá naše interakce s digitálním světem je „někde“ zaznamenávána a že „nějaká“ umělá inteligence z těchto záznamů určuje, jaké...

Datová revoluce v biologiiuzamčeno

„Všechny modely jsou špatné (ale některé jsou užitečné),“ napsal statistik George Box v roce 1979. Narážel na fakt, že pouze modely, od...

Doporučujeme

Se štírem na štíru

Se štírem na štíru

Daniel Frynta, Iveta Štolhoferová  |  4. 11. 2024
Člověk každý rok zabije kolem 80 milionů žraloků. Za stejnou dobu žraloci napadnou 80 lidí. Z tohoto srovnání je zřejmé, kdo by se měl koho bát,...
Ustrašená společnost

Ustrašená společnost uzamčeno

Jan Červenka  |  4. 11. 2024
Strach je přirozeným, evolucí vybroušeným obranným sebezáchovným mechanismem. Reagujeme jím na bezprostřední ohrožení, které nás připravuje buď na...
Mláďata na cizí účet

Mláďata na cizí účet uzamčeno

Martin Reichard  |  4. 11. 2024
Parazitismus je mezi živočichy jednou z hlavních strategií získávání zdrojů. Obvyklá představa parazitů jako malých organismů cizopasících na...