i

Aktuální číslo:

2024/11

Téma měsíce:

Strach

Obálka čísla

Datová revoluce v biologii

 |  1. 11. 2021
 |  Vesmír 100, 680, 2021/11
 |  Téma: Velká data

„Všechny modely jsou špatné (ale některé jsou užitečné),“ napsal statistik George Box v roce 1979.1) Narážel na fakt, že pouze modely, od kosmologických rovnic po teorie lidského chování, se zdály být schopné konzistentně, i když nedokonale, vysvětlit svět kolem nás. Zdá se, že toto tvrzení postupně bere za své.

Společnosti aplikující postupy původně vyvinuté společností Google, které vyrostly v éře obrovského množství dat, se dnes nemusí spokojit se špatnými modely. Ve skutečnosti se vlastně nemusí spokojit s vůbec žádnými modely.

Před sedmdesáti lety umožnily digitální počítače číst informace. Před třiceti lety začala éra široce dostupného internetu. Před více než dvaceti lety z toho první prohledávače zaindexovaných databází existujících vyhledávačů vytvořily jedinou databázi. Společnosti, univerzity a výzkumné instituce procházejí v současnosti nejmodernější změnou v historii a považují tento masivní korpus dat za velkou laboratoř. V tomto novém světě se dere do popředí trend náhrady všech dosud využívaných nástrojů obrovským množstvím dat, aplikovanou matematikou a metodami umělé inteligence. Zapomeňte na taxonomii, ontologii a psychologii. Proč se lidé, organismy, buňky… chovají tak, jak se chovají? Nyní to můžeme sledovat a měřit s nebývalou přesností. A s dostatkem dat hovoří čísla sama za sebe.

Skutečným vítězem datové revoluce se stává věda. Vědecká metoda, jak ji stále ještě známe, je postavena na testovatelných hypotézách. Tyto hypotézy jako teoretické modely vizualizované v myslích vědců jsou poté testovány a experimenty je buď podporují, nebo vyvracejí. Takto věda funguje stovky let.

Vědci jsou vyškoleni, aby rozpoznali, že korelace neznamená automaticky příčinnou souvislost a že by se z ní neměly dělat žádné závěry (může to být jen náhoda nebo společný důsledek jiné, hlubší příčiny). Místo toho je nutné porozumět základním mechanismům, které pozorované či měřené jevy spojují. Jakmile máte model, můžete s jistotou připojit datové sady. Data bez modelu jsou jen šum.

Jenže tváří v tvář obrovským objemům dat tento přístup k vědě (hypotéza, modelování, testování) začíná zastarávat. Podíváme-li se zpět, newtonovské modely ve fyzice byly pouze hrubé aproximace pravdy. Před sto lety nabídla statisticky založená kvantová mechanika lepší obraz, ale i ona je jen dalším modelem, a jako taková je pravděpodobně také vadná; bezpochyby je to karikatura složitější základní reality. Dosavadní paradigma přestává platit, což není pro vývoj vědeckého poznání nic nového.

Data místo modelů

Nyní vidíte 18 % článku. Co dál:

Jsem předplatitel, mám plný přístup
Jsem návštěvník
Chci si přečíst celé číslo
Předplatným pomůžete zajistit budoucnost Vesmíru. Více o předplatném
TÉMA MĚSÍCE: Velká data
OBORY A KLÍČOVÁ SLOVA: Informatika, Biologie

O autorovi

Jiří Vondrášek

Doc. RNDr. Jiří Vondrášek, CSc., (*1963) vystudoval Matematicko-fyzikální fakultu UK v Praze a v současnosti je vedoucím skupiny Bioinformatiky v ÚOCHB AV ČR a ředitelem národní infrastruktury pro biologická data ELIXIR CZ. Jeho prvním bioinformatickým projektem bylo vytvoření databáze struktur proteázy HIV v rámci postdoktorandského pobytu v NIH a NIST. Jeho hlavním vědeckým zájmem je návrh nových proteinů, hledání funkčních a interakčních motivů v sekvencích DNA a proteinů a propojení velkých chemických databází s biologickými archivy. Aktivně se podílí na národní strategii správy vědeckých dat a ve spolupráci s evropskými partnery na zavedení datových standardů pro biologická data.
Vondrášek Jiří

Další články k tématu

(Ne)chemické toulky chemickým prostoremuzamčeno

Zkusme si představit všechny chemické látky, které by bylo možno připravit, od vodíku až po makromolekuly včetně nukleových kyselin a bílkovin....

I geografie má velká datakomerce

Práce s rozsáhlými soubory dat patří ke geografii odnepaměti. Čím podrobněji se snažíme popsat svět kolem nás, tím více dat musíme vytvořit, a to...

Digitální ekosystémuzamčeno

Tušíme, že veškerá naše interakce s digitálním světem je „někde“ zaznamenávána a že „nějaká“ umělá inteligence z těchto záznamů určuje, jaké...

Divoká plavba mořem dat

Jak velká jsou velká data? Najít jednoznačnou odpověď na podobné otázky není snadné; soudci posuzující, zda množství zadržených drog je „větší než...

Doporučujeme

Se štírem na štíru

Se štírem na štíru

Daniel Frynta, Iveta Štolhoferová  |  4. 11. 2024
Člověk každý rok zabije kolem 80 milionů žraloků. Za stejnou dobu žraloci napadnou 80 lidí. Z tohoto srovnání je zřejmé, kdo by se měl koho bát,...
Ustrašená společnost

Ustrašená společnost uzamčeno

Jan Červenka  |  4. 11. 2024
Strach je přirozeným, evolucí vybroušeným obranným sebezáchovným mechanismem. Reagujeme jím na bezprostřední ohrožení, které nás připravuje buď na...
Mláďata na cizí účet

Mláďata na cizí účet uzamčeno

Martin Reichard  |  4. 11. 2024
Parazitismus je mezi živočichy jednou z hlavních strategií získávání zdrojů. Obvyklá představa parazitů jako malých organismů cizopasících na...