Datová revoluce v biologii
| 1. 11. 2021„Všechny modely jsou špatné (ale některé jsou užitečné),“ napsal statistik George Box v roce 1979.1) Narážel na fakt, že pouze modely, od kosmologických rovnic po teorie lidského chování, se zdály být schopné konzistentně, i když nedokonale, vysvětlit svět kolem nás. Zdá se, že toto tvrzení postupně bere za své.
Společnosti aplikující postupy původně vyvinuté společností Google, které vyrostly v éře obrovského množství dat, se dnes nemusí spokojit se špatnými modely. Ve skutečnosti se vlastně nemusí spokojit s vůbec žádnými modely.
Před sedmdesáti lety umožnily digitální počítače číst informace. Před třiceti lety začala éra široce dostupného internetu. Před více než dvaceti lety z toho první prohledávače zaindexovaných databází existujících vyhledávačů vytvořily jedinou databázi. Společnosti, univerzity a výzkumné instituce procházejí v současnosti nejmodernější změnou v historii a považují tento masivní korpus dat za velkou laboratoř. V tomto novém světě se dere do popředí trend náhrady všech dosud využívaných nástrojů obrovským množstvím dat, aplikovanou matematikou a metodami umělé inteligence. Zapomeňte na taxonomii, ontologii a psychologii. Proč se lidé, organismy, buňky… chovají tak, jak se chovají? Nyní to můžeme sledovat a měřit s nebývalou přesností. A s dostatkem dat hovoří čísla sama za sebe.
Skutečným vítězem datové revoluce se stává věda. Vědecká metoda, jak ji stále ještě známe, je postavena na testovatelných hypotézách. Tyto hypotézy jako teoretické modely vizualizované v myslích vědců jsou poté testovány a experimenty je buď podporují, nebo vyvracejí. Takto věda funguje stovky let.
Vědci jsou vyškoleni, aby rozpoznali, že korelace neznamená automaticky příčinnou souvislost a že by se z ní neměly dělat žádné závěry (může to být jen náhoda nebo společný důsledek jiné, hlubší příčiny). Místo toho je nutné porozumět základním mechanismům, které pozorované či měřené jevy spojují. Jakmile máte model, můžete s jistotou připojit datové sady. Data bez modelu jsou jen šum.
Jenže tváří v tvář obrovským objemům dat tento přístup k vědě (hypotéza, modelování, testování) začíná zastarávat. Podíváme-li se zpět, newtonovské modely ve fyzice byly pouze hrubé aproximace pravdy. Před sto lety nabídla statisticky založená kvantová mechanika lepší obraz, ale i ona je jen dalším modelem, a jako taková je pravděpodobně také vadná; bezpochyby je to karikatura složitější základní reality. Dosavadní paradigma přestává platit, což není pro vývoj vědeckého poznání nic nového.