Průvodce genetickou džunglí
| 1. 12. 2025Díky stále dostupnějším a levnějším technikám sekvenování se veřejně přístupné databáze rychle plní obrovským množstvím dat. V současnosti jde řádově o „petabáze“, tedy miliony miliard (1015) bází DNA, RNA a aminokyselinových sekvencí proteinů, které jsou rozptýleny v různých databázích. Klíčovým problémem se stává schopnost tato data prohledávat, a tedy prakticky využívat (Vesmír 100, 680, 2021/11).
Dosud se vědci museli při orientaci v této džungli spoléhat na (ne vždy dobře spravovaná) metadata a prohledávat jednotlivé databáze jednu po druhé. Tým odborníků z ETH v Curychu proto představil MetaGraph – metodický rámec, který využívá teorii grafů pro indexování databází a jejich komprimovanou reprezentaci. Tím umožní jejich efektivní a spolehlivé fulltextové“ prohledávání, které nebude klást přílišné nároky na výpočetní čas a výkon. Autoři tvrdí, že všechna aktuálně dostupná sekvenační data lze komprimovat do objemu, který se vejde na několik standardních pevných disků. Nástroj je dostupný na webu metagraph.ethz.ch.
Karasikov M. et al.: Nature, 2025, DOI: 10.1038/s41586-025-09603-w
Ke stažení
článek ve formátu pdf [559,39 kB]












