Signál a šum v DNA
| 29. 5. 2023Genetická informace všech živých organismů, alespoň jak známe život tady a teď, je uložena v molekule DNA, deoxyribonukleové kyseliny. Abeceda DNA je informaticky poměrně chudá, sestává z pouhých čtyř „písmen“, chemických bází: adeninu (A), guaninu (G), cytosinu (C) a thyminu (T). Technologie fyzického přečtení DNA, tedy stanovení pořadí písmen genetické abecedy, je dnes zvládnutá perfektně a ani není moc drahá. Oříškem zůstává interpretace informace uložené v DNA, jaký vlastně má přečtený úsek pro organismus význam.
Biology a lékaře nejvíce zajímají ty úseky DNA, které kódují nějaký protein. Takovým oblastem říkáme geny, ale termín gen má širší význam.1) Je to taková oblast DNA, která nese nějaký znak. Máme tedy geny kódující proteiny, ale také geny RNA – například geny pro tRNA nebo rRNA ribozomů. Člověk má okolo 20–25 tisíc genů (v závislosti na přesné definici). Jeden z nejjednodušších mnohobuněčných organismů háďátko Caenorhabditis elegans má asi 19 500 genů, muška octomilka Drosophila melanogaster 13 600. Ale třeba kukuřice má skoro 50 000 genů. To jsou takové typické počty, v přírodě ovšem najdeme i extrémní výjimky.2)
Běžný gen kódující protein vypadá u člověka (potažmo u obratlovců) tak, že se střídají úseky nesoucí informaci, které nazýváme exony, s úseky, které nic nekódují, introny (obr. 1). Před touto částí je cis-regulační oblast, takzvaný promotor, pomocí něhož buněčná mašinerie podle potřeby geny zapíná nebo vypíná. Pak ještě známe trans-regulační oblasti, které mohou být od genu, jejž regulují, dost vzdálené, ale občas sedí i uvnitř nějakého intronu. Ty se také podílejí na regulaci genů, často více než jednoho.
Je zajímavé, že tyto principiálně důležité oblasti tvoří jen malou část genomu, u člověka to jsou asi 2 %. Zbylých 98 % se někdy nazývá temná genomová hmota, v analogii s temnou hmotou ve vesmíru. Pro bioinformatiky, kteří hledají geny, je těch 98 % DNA šum a jen zbylá 2 % nesou užitečnou informaci – signál. (Ona tedy i negenová informace může být užitečná, třeba pro forenzní identifikaci osob, ale rozumíme si.)