Od genomu k funkci
| 5. 10. 2001Výkladem funkcí kódujících sekvencí se zabývá (mimo jiné) bioinformatika. Potřebuje k tomu velké a integrované databáze, které obsahují informace o proteinových sekvencích a strukturách, jejich funkcích, vzájemných vztazích a interakcích.
Prvním krokem při analýze nové proteinové sekvence je hledání podobnosti s již známými sekvencemi v databázi (GenBank). Používaný PSI-BLAST však dokáže identifikovat jen asi dvě třetiny homologií. K hledání příbuzných sekvencí se také používají knihovny rodin proteinových domén (např. Pfam, SMART a COGS). Ze shromážděných sekvenčních dat vychází najevo, že počet proteinových domén získaných od předků je omezený. Během evoluce totiž docházelo k jejich duplikacím, změnám a novým kombinacím, až vznikla dnešní diverzita.
Existuje mnoho konzervativních funkčních míst, která vykazují specifické sekvenční motivy, a proto mohou být využity pro vyhledávání. Poměrně vzdálené homologie mohou odhalit knihovny motivů (např. InterPro). Jestliže ani pak není nalezena podobnost, dají se ještě hledat v databázi domén podobnosti ve skládání proteinového řetězce. Při hledání může pomoci i poloha jednotlivých genů v genomu.
Dalším krokem je odvození struktury ze získané sekvence, což je možné dělat buď přímo, nebo na základě zjištěné podobnosti s proteiny, jejichž strukturu známe. Nejobtížnějším krokem je odvození funkce ze získaných sekvenčních a strukturních dat. Tento úkol má bioinformatika před sebou. (Science 292, 2095, 2001)
Ke stažení
- Článek ve formátu PDF [345,09 kB]