Aktuální číslo:

214 000 000

| 5. 9. 2022

| Vesmír 101, 516, 2022/9

Tolik proteinových struktur bylo publikováno na konci července 2022 [1] ve volně přístupné internetové databázi AlphaFold Protein Structure Database [2]. Jedná se o 3D modely proteinových struktur téměř všech známých genů, které kódují nějaký protein. Struktury předpověděl program AlphaFold – algoritmus založený na hlubokém učení [3], který vyvinula firma DeepMind (vlastněná Googlem podobně jako společnost Alphabet) ve spolupráci s evropským institutem EMBL-EBI.

AlphaFold zazářil na konci roku 2020, kdy se stal šampionem v testu podobně založených programů (CASP14). Tím se oficiálně podařilo dříve nemyslitelné – předpovídat proteinové struktury jen na základě sekvence aminokyselin. Predikce se obejde bez drahé a zdlouhavé purifikace a krystalografie proteinů. AlphaFold předpovídá tvary proteinů často s přesností srovnatelnou s experimentálními metodami (údajně má tuto kvalitu 35 % z celkového počtu nyní dostupných modelů) a navíc umí jistotu jednotlivých částí proteinového modelu ohodnotit.

Od roku 2020 AlphaFold postupně procházel databázi proteinových sekvencí UniProt a počítal jeden model za druhým. Až prošel téměř všechny známé sekvence proteinů ze všech možných organismů. Proteinové struktury jsou nyní volně k dispozici. Samotný algoritmus jeho tvůrci poskytli také volně, takže počítat může každý i bez drahého vybavení (např. pomocí Google Colab [4] nebo balíčku gget [5]). A to včetně těch, kteří pomýšlejí na případné komerční využití výsledků.

I přes čerstvé úspěchy má AlphaFold nedostatky v predikci změny struktury způsobené mutacemi nebo interakcí více proteinů. Zatím také není jasné, zda dokáže dostatečně detailně předpovědět místa, na něž se vážou malé molekuly, což může omezit využitelnost algoritmu v objevování nových léčiv. I tak je ale zřejmé, že nastala další éra proteomiky, kdy jsou popisovány celé nové proteinové rodiny. Dostupnost takového množství dat umožňuje například hledat průmyslově využitelné enzymy na základě podobnosti. Snadné generování struktur jistě vyžaduje adaptovat se na nastalou situaci a možná změnit styl pokládání některých vědeckých otázek či upravit plánování experimentů. Sofistikované aplikace využívající uvolněná data na sebe určitě nenechají dlouho čekat. Kurátoři databáze navíc slibují její pravidelnou aktualizaci, stejně tak jako zdokonalování (učicího se) algoritmu skrze nové trénovací datasety.

[1] Callaway E.: Nature, 2022, DOI: 10.1038/d41586-022-02083-2.

[2] https://alphafold.com.

[3] Neruda R.: Vesmír 100, 31, 2021/1.

[4] Mirdita M. et al.: Nat. Methods, 2022, DOI: 10.1038/s41592-022-01488-1.

[5] Luebbert L., Pachter L.: bioRxiv (preprint), 2022, DOI: 10.1101/2022.05.17.492392.

Ke stažení

článek ve formátu pdf [499,64 kB]

OBORY A KLÍČOVÁ SLOVA: Biochemie, Molekulární biologie

RUBRIKA: Mozaika

O autorovi

Vojtěch Tláskal

Mgr. Vojtěch Tláskal, Ph.D., (*1991) vystudoval obor Mikrobiologie na Přírodovědecké fakultě UK v Praze a pracoval na Mikrobiologickém ústavu AV ČR. V současnosti pokračuje jako postdoktorand v Ústavu půdní biologie a biogeochemie v Biologickém centru AV ČR v Českých Budějovicích. Zabývá se rolí metanotrofních a nitrifikačních bakterií v půdních habitatech.

články autora