i

Aktuální číslo:

2024/5

Téma měsíce:

Čas

Obálka čísla

Divoká plavba mořem dat

 |  1. 11. 2021
 |  Vesmír 100, 655, 2021/11
 |  Téma: Velká data

Jak velká jsou velká data? Najít jednoznačnou odpověď na podobné otázky není snadné; soudci posuzující, zda množství zadržených drog je „větší než malé“, by mohli vyprávět.

Jednu z definic nabízí anglická Wikipedie, podle které se pojem „velká data“ týká souborů dat, které jsou „příliš velké nebo složité na to, aby si s nimi poradil tradiční software pro zpracování dat“. Tato definice naznačuje, že nejde pouze o velikost vyjádřenou záborem místa na datovém úložišti. Ostatně jak velká kapacita je „velká“? Éra 3,5" disket o kapacitě 1,44 MB skončila poměrně nedávno. Dnešní velké datové sady se mnohdy pohybují v řádu petabajtů (1015 B).

Velká data nejsou totéž co „hodně dat“. Přinášejí s sebou nové otázky a na ty staré umožňují hledat odpovědi způsobem donedávna nemyslitelným. Změna to může být v budoucnu dosti radikální. „Je možná herezí prohlásit, že […] můžeme přestat hledat modely a data analyzovat bez hypotéz o tom, co by mohla ukázat. Můžeme vložit čísla do největších počítačových klastrů, jaké kdy svět viděl, a nechat statistické algoritmy najít vzorce tam, kde to věda nedokáže,“ píše Jiří Vondrášek (s. 680).

Bez dramatického nárůstu množství dostupných dat by ale kvalitativní změny možné nebyly. Astronomické a fyzikální přístroje všeho druhu chrlí data rychleji, než je výzkumné týmy stíhají zpracovávat. „S tím, jak si osvojujeme stále sofistikovanější techniky analýzy dat, bude prohledávání rozsáhlého archivu pozorování nepochybně přinášet nové objevy po celé další roky, ne-li desetiletí,“ psal v únoru Rhys W. Taylor v rozlučce s radioteleskopem Arecibo (Vesmír 100, 111, 2021/2). Biologie a medicína jen postupně prozkoumávají všechna zákoutí lidského genomu, o transkriptomu, proteomu, metabolomu, konektomu… ani nemluvě. Datová úložiště plní environmentální data ze satelitního snímkování i z nejrůznějších senzorů v oceánech, v půdě, nebo třeba v korunách stromů. Data automaticky sbíraná telefony, hodinkami či náramky jsou zajímavá jak pro komerční sféru, tak pro lékaře, psychology, sociology nebo urbanisty. Chytré jsou už nejen mobily, ale i auta nebo ledničky. Data proudí z platebních karet, pouličních kamer, RFID čipů, cookies na internetových stránkách… Umělá inteligence pracuje s latentní reprezentací každého z nás, což s sebou nese výhody i rizika, jak upozorňuje Jan Romportl (s. 676).

Nechceme-li se v moři dat utopit, musíme se v něm naučit plavat. Teprve zpracováním se z něj vynořují informace, znalosti, a budeme-li se držet pyramidy DIKW (data, information, knowledge, wisdom), můžeme snad pomýšlet i na stupeň nejvyšší, na moudrost. Ivan Čmelo a Daniel Svozil ukazují, jak lze nekonečné množství všech teoreticky existujících chemických látek uspořádat do mnoharozměrného prostoru, v němž má každá molekula své souřadnice, lze je propojovat a shlukovat podle námi určených parametrů a tím měnit data v prakticky využitelné znalosti (s. 672).

Čas ukáže, zda z moře vědeckých dat dokážeme využít více než sem tam nějakou kapku. Bez umělé inteligence to nepůjde, lidské síly nestačí ani na zpracování dat nasbíraných před nástupem datové revoluce. Před pár dny jsem si povídal s významným českým biologem v důchodovém věku. Vyprávěl mi, že má v šuplíku data ze starých měření, která neměl a už nejspíš nikdy nebude mít čas zpracovat. Nabídl je mladšímu kolegovi. Ten si jen povzdechl, že takový šuplík má také. 

Ke stažení

TÉMA MĚSÍCE: Velká data
OBORY A KLÍČOVÁ SLOVA: Informatika
RUBRIKA: Úvodník

O autorovi

Ondřej Vrtiška

Mgr. Ondřej Vrtiška (*1976) je původním vzděláním biolog se specializací na hydrobiologii (PřF UK), utekl z oborů žurnalistika a kulturní antropologie (obojí FSV UK). Od r. 2001 pracuje jako vědecký novinář, na téma „věda v médiích“ přednáší pro vědce i pro laickou veřejnost. Z úžasu nevycházející pozorovatel memetické vichřice. Občas napíná plachty, občas staví větrolam.
Vrtiška Ondřej

Další články k tématu

(Ne)chemické toulky chemickým prostoremuzamčeno

Zkusme si představit všechny chemické látky, které by bylo možno připravit, od vodíku až po makromolekuly včetně nukleových kyselin a bílkovin....

I geografie má velká datakomerce

Práce s rozsáhlými soubory dat patří ke geografii odnepaměti. Čím podrobněji se snažíme popsat svět kolem nás, tím více dat musíme vytvořit, a to...

Digitální ekosystémuzamčeno

Tušíme, že veškerá naše interakce s digitálním světem je „někde“ zaznamenávána a že „nějaká“ umělá inteligence z těchto záznamů určuje, jaké...

Datová revoluce v biologiiuzamčeno

„Všechny modely jsou špatné (ale některé jsou užitečné),“ napsal statistik George Box v roce 1979. Narážel na fakt, že pouze modely, od...

Doporučujeme

Divocí kopytníci pečují o krajinu

Divocí kopytníci pečují o krajinu

Josef Matyáš  |  6. 5. 2024
Zubr, pratur a divoký kůň dokážou výborně udržovat rozsáhlé plochy krajiny. Vyplývá to z aktualizovaného dokumentu Metodika přirozené pastvy...
Relativistický čas – čas našeho světa

Relativistický čas – čas našeho světa

Pavel Krtouš  |  6. 5. 2024
„Někteří filozofové … se domnívají, že fyzika není schopna popsat nejzákladnější aspekty reality, a zavrhují ji proto jako zavádějící formu...
Čas na poslední kafe

Čas na poslední kafe uzamčeno

Tomáš Knedlík  |  6. 5. 2024
Kávu zbožňujeme pro její vůni a chuť, ale také pro její povzbuzující účinky. Omamná vůně kávy se uvolňuje při pražení, kdy vznikají těkavé...