Co je to gen?
Se vstupem molekulární genetiky na kolbiště vědy bylo objeveno, že genetická informace je uložena v organismech ve formě pořadí nukleotidů v DNA (někdy např. v některých virech v RNA), ale současně došlo k určité redukci obsahu pojmu gen. Mezi geny začaly být řazeny pouze ty genetické elementy, jejichž základní součástí je sekvence kódující RNA nebo polypeptid a opomíjí se sekvence, které nejsou spojeny s produkty genů (RNA či proteiny). Vytratily se genetické elementy, jako např. centromera, jejíž poškození je dědičné a může mít i smrtelné následky. V jejím rámci se neodehrává transkripce a pochopitelně ani translace a přitom hraje nezbytnou dědičnou roli např. při zajištění pravidelného putování chromozomových kopií do dceřiných buněk. Později se redukce obsahu pojmu gen u některých autorů ještě prohlubuje. Pokusím se ukázat, jakým směrem komplikuje pokračující analýza genomů naše představy o genech, které kódují proteiny.
Již v předcházející etapě vývoje pojmu gen bylo jasné, že prokaryotické geny kódující proteiny mohou mít odlišné rozložení funkčních částí od genů eukaryotických2 a také způsob jejich exprese je poněkud odlišný (viz Vesmír 91, 77, 2012/2, obr. 3 a obr. 4). V etapě sekvenování genomů se tyto rozdíly opakovaně potvrdily a upřesnily.
- Kódující oblasti eukaryotických genů pro proteiny mohou (ale nemusí) být na rozdíl od prokaryotických genů nespojité (mohou být přerušovány nekódujícími úseky genů,
- introny).
- Kódující oblasti prokaryotických genů bývají naopak často propojeny do větších, společně transkribovaných celků, mají operonovou výstavbu a iniciace jejich transkripce je pod kontrolou společného promotoru. Tyto geny se tudíž např. svým společným promotorem nutně překrývají.
- Nespojitost v kódující sekvenci se prakticky nevyskytuje u prokaryotických organismů, je vzácná u nižších eukaryotických organismů a u vyšších dokonce převládá. Pro prokaryotické organismy je typická operonová výstavba se společným řízením iniciace transkripce a osamocené kódující sekvence nesdružené do skupin jsou u nich méně časté.
- U eukaryotických organismů se prakticky s operonovou výstavbou nesetkáváme. Zato výstavba nekódujících částí genů je u těchto organismů mnohem komplikovanější než u prokaryotických. Prostě co platí pro bakterii, přece jen tak úplně neplatí pro slona.
Pro tuto etapu je navíc typické postupné hromadění poznatků, které volají po změně původní představy o skladbě genů kódujících polypeptidy a o jejich expresi, a to zejména u eukaryotických organismů. Je třeba se rozloučit s představou, že geny kódující polypeptidy, složené z kódujících oblastí a jim přidružených sekvencí podílejících se na zajištění jejich exprese, jsou vždy přesně vymezené, spojité a nepřekrývající se úseky DNA (RNA), které mají neměnné místo. Kromě toho, produkty genové exprese mohou nést genetickou informaci odlišnou od informace vyplývající z pořadí nukleotidů a genetického kódu, a to v důsledku různých dílčích úprav průběžných produktů pre-mRNA, mRNA a polypeptidů během procesu exprese genů, na kterých se podílejí stejně jako při transkripci a translaci i produkty jiných genů.
Příklady komplikací na úrovni struktury genu
Proti nepřekryvnosti genů svědčí např. zjištění, že uvnitř intronu jednoho genu může ležet jiný gen (obr. 1).
O nespojitosti v regulačních oblastech genů svědčí např. existence pomocných regulačních oblastí zvaných silencery (zeslabovače), anebo enhancery (zesilovače), které mohou být i velmi vzdálené od promotorů (obr. 2). Často se ale regulační elementy vyskytují např. i v oblasti kódující primární transkript a v její blízkosti. Objev hojně rozšířených mobilních elementů (Barbara McClintocková, 1948, viz Vesmír 85, 452, 2006/8), které případně mohou nést i sekvence kódující polypeptidy (skákající geny), způsobil, že ani představa stálosti lokalizace jednotlivých sekvencí a genů obecně neplatí. Kromě přeskoku mobilního elementu, anebo jeho modifikované kopie do jiného místa, přichází v úvahu i přemístění v důsledku restrukturace DNA nějakým běžným rekombinačním mechanismem. Počet kopií jednotlivých dědičných elementů může být i u jedinců stejného druhu proměnlivý. Přeskoky a restrukturace mají za následek šíření kopií různých sekvencí, případně i genů kódujících proteiny, anebo jejich derivátů neobsahujících introny (tzv. retrogenů). Genové duplikace, anebo dokonce multiplikace jsou považovány za hnací sílu vývoje nových genových produktů, neboť se tak uvolňují další kopie pro „mutační novotvorbu“. Za jakých okolností lze duplikáty a různé funkční variace duplikátů genů považovat za nové geny?
Jestliže při restrukturaci DNA (nebo po ní) přirozeným rekombinačním procesem či přeskokem mobilního elementu dojde k oddělení kódující oblasti od promotoru genu, anebo je exprese genu poškozena jinou mutací, vzniká „pseudogen“, tj. gen, který ztratil schopnost produkovat funkční protein. Takových pseudogenů v různém stadiu „rozkladu“ přetrvává v genomech značný počet. Tento materiál je většinou považován za genomovou veteš podobně jako trosky kopií různých mobilních elementů a různých virových sekvencí, které se prokazatelně také objevují v sekvenovaných genomech organismů. Tato veteš může ještě být využita při novotvorbě genů kódujících produkty zajišťující jiné funkce. Za určitých okolností může být původní, anebo poněkud pozměněná funkce genu dokonce obnovena. Mohou vůbec být z hlediska definice genu – popřípadě za jakých okolností – pseudogeny považovány za geny, a můžeme informaci v nich zapsanou pořadím bází považovat za genetickou?
Následující vybrané příklady demonstrují, že zejména exprese genů v eukaryotických buňkách může mít mnoho podob odlišných od těch, které jsem předvedl v předchozím dílu (Vesmír 91, 77, 2012/2). Postupně se ukazuje, že tyto „odchylky“ jsou častější, než jsme si zpočátku připouštěli, přinášejí principiálně nové možnosti pro fungování eukaryotických genomů a problematizují vytvoření výstižné definice genu.
Příklady komplikací na úrovni transkripce a úprav při produkci mRNA
- Alternativní sestřih u genů s nespojitými kódujícími sekvencemi: Určitá pre-mRNA může být sestřižena několika různými způsoby, což rozšiřuje počet možných kombinací exonů v rámci vzniklé množiny mRNA a tím i počet polypeptidových produktů vytvořených podle jediné nespojité kódující sekvence (obr. 3). Ukazuje se, že zařazením intronů mezi kódující sekvence se v kombinaci s alternativním sestřihem vytváří polypeptidová stavebnice, která zmnožuje počet koncových proteinových produktů, které se mohou od původního produktu s úplným zastoupením exonů více či méně lišit v různých dílčích funkčních aspektech, např. ve schopnosti vytvářet různé nadmolekulární útvary, anebo vykazovat enzymovou aktivitu různě obměněnou, např. u enzymu ve specificitě výběru substrátu nebo katalyzované reakce, anebo kinetiky působení. Lze vůbec – popřípadě za jakých okolností – takový útvar se společným promotorem považovat za několik genů s překryvem v promotoru a dalších regulačních oblastech a v částech kódujících sekvencí, nebo můžeme mluvit o jediném genu s variabilní množinou příbuzných proteinových produktů?
- Translační produkt kódovaný dvěma vzájemně vzdálenými kódujícími sekvencemi: V několika jednotlivých případech se dokonce ukázalo, že různé úseky DNA na jednom chromozómu (obr. 4), nebo dokonce úseky na různých chromozómech, mohou být transkribovány za vzniku jediné pre-mRNA, která je pak sestřihována, popřípadě i alternativně sestřihována. Pak je vzniklý konečný produkt – protein – kódován vzdálenými sekvencemi na DNA, které se pravděpodobně dostávají do interakce při transkripci v prostoru jaderného lešení (jaderné matrix), což způsobí, že vznikne transkripční fúzovaný produkt. Podobný výsledek poskytují dva nezávislé transkripty, pocházející ze vzdálených míst, které se propojí (ligují) navzájem až po svém odděleném dokončení. Bylo zaznamenáno, že se takto mohou spojovat i transkripty stejné, neboli za určitých okolností mohou být fúzované transkripty ještě alternativně sestřiženy, takže po fúzi stejných transkriptů se mohou ve výsledné mRNA určité exony opakovat. V těchto případech vzniká otázka zda, resp. kdy, lze takovéto produkty považovat za produkty jednoho anebo dvou fúzovaných genů.
- Editace RNA: U některých druhů organismů může být posttranskripčně modifikována RNA tak, že dochází k dodatečným změnám genetického kódování enzymovou záměnou bází, neboli informace zapsaná v DNA formou pořadí nukleotidů se někdy nepřenáší jednoznačně na konečnou formu transkripčního produktu, která je dále využívána při genové expresi.
Příklady komplikací na úrovni translace, translačních produktů a jejich úprav
Alternativní zahájení translace s posunem translační fáze: Následkem tohoto jevu může být např. to, že v jedné oblasti DNA mohou existovat překrývající se protein-kódující oblasti, ze kterých vznikají odlišné polypeptidy (obr. 5). Je-li fáze obou ORF posunutá, budou mít vzniklé polypeptidy odlišnou sekvenci aminokyselin. Po posunu translační fáze o 3n bází, kde n je přirozené číslo, bude sekvence aminokyselin částečně překryvná. Můžeme vůbec (nebo za jakých okolností) mluvit o produktech jednoho či dvou genů?
V souvislosti s projevem genu je evidentní, že konečný výsledek závisí na funkční podobě proteinového produktu, na jeho umístění v buňkách, resp. v celém organismu, na jeho množství a na podmínkách, při kterých působí. Funkční podoby je často dosahováno za spoluúčasti produktů jiných genů. Obdobně jsou zajišťovány i transportní procesy, pro které jsou důležité geneticky dané adresy (speciální kódované sekvence aminokyselin přítomné na polypeptidových produktech).
Hladiny proteinů jsou kontrolovány složitým způsobem, neboť jsou výslednicí produkce polypeptidu, případně jeho úprav na funkční formu, přeměny funkčního produktu na nefunkční produkt a přeměny na degradační produkty, přičemž hrají roli i různé transportní pochody. Také tyto pochody jsou zajišťovány i za účasti produktů jiných genů. V důsledku úprav primárních polypeptidů nemusí konce funkčních polypeptidů odpovídat koncům určeným kódující sekvencí. Následkem sestřihu dokonce může dojít ke vzniku kombinovaných polypeptidů kódovaných po částech různými exony a polypeptidy mohou být i vnitřně modifikovány (objevují se např. modifikace záměnou či úpravou kódovaných aminokyselin, anebo třeba rozsáhlým sestřihem na úrovni polypeptidu či vystřižením vnitřního úseku polypeptidu). Informace zapsaná v kódující oblasti genu není tudíž vždy přímo přenesena z DNA na funkční produkt, nýbrž její přenos je zprostředkován i dalšími komponentami živého systému. Kromě toho vzniklé proteinové podjednotky často formují nadmolekulární útvary, v rámci kterých se teprve projeví hlavní funkce stavebních kamenů. Z tohoto rozboru plyne, že využití proteinového produktu o určité funkci jako kriteria pro identifikaci genu naráží také na řadu problémů. Je základem genu sekvence kódující primárně vzniklý polypeptid, anebo až funkční protein? Navíc není jasné, jak se vypořádat se záměnami aminokyselin. Řada problémů na úrovni translace a úprav polypeptidů může být ve výsledku na první pohled nerozeznatelná od problémů pocházejících z transkripční úrovně, resp. z úrovně sestřihu. Stejně není jednoduché ani přiřazení účinku jednotlivých genů k určitému fenotypu s přihlédnutím k měnícím se podmínkám a k nelehké dohledatelnosti podílu jednotlivých genů na výstavbě nadmolekulárních útvarů.
Pozorný čtenář si po prohlédnutí poněkud zjednodušených schémat doprovázejících tento výklad jistě uvědomí, že konkrétních variant vybraných příkladů může být obrovský počet a navíc se nabízejí i varianty kombinované. Jde tedy o příklady základních typů variací na dané téma. Je otázkou času, kdy budou všechny možné varianty doloženy experimentálně. Odkazy na původní práce dokládající mnohotvárnost genové exprese lze nalézt ve velkém počtu publikací, z nichž mnohé jsou citovány např. v přehledném článku konsorcia ENCODE3).
Kolik genů se nachází v jednotlivých druzích organismů?
Tato podle mého mínění předčasná otázka byla s nebývalou naléhavostí opakovaně vyslovována zejména v souvislosti s „přečtením lidského genomu“. Domnívám se, že naléhavost otázky byla do určité míry spojena s narcistickým očekáváním veřejnosti, že pán tvorstva má nárok na největší rozsah genetické informace a tedy i největší počet genů. Otázka byla pochopitelně nahrávkou na smeč, který lidskou samolibost odkázal do rozumných mezí. Velikost lidského genomu, asi 3 × 109 párů bází, překonává řada druhů organismů, mezi kterými prozatím kupodivu kraluje Amoeba dubia (6,7 × 1011 párů bází). Lidé, kteří sekvenují genomy, a mnoho dalších genetiků ztotožňuje v současnosti velikost genomu s délkou sekvence nukleotidů v DNA stanovenou během genomového projektu (tento přístup reprezentují i výše uvedená čísla). Jiní odborníci ale trvají na tom, že velikost genomu se má odvodit pouze od celkového počtu genů a za geny považují pouze geny kódující proteiny, anebo RNA či dokonce někdy pouze geny kódující proteiny. (Na pojetí genu tudíž velmi závisí, jak se bude posuzovat velikost genomu i počet genů). Počáteční odhad počtu genů kódujících proteiny u člověka se pohyboval okolo 100 tisíc, ale dodnes poklesl na pouhých 20–30 tisíc, ovšem částečně i s přihlédnutím k návrhu konsorcia ENCODE, že pokud se v jedné oblasti DNA vytváří série příbuzných produktů, které mají v kódující oblasti alespoň jeden společný exon, považuje se celá oblast za jediný gen. O genech kódujících jako konečný produkt RNA se raději nemluví prostě proto, že představa o jejich počtu je zatím velice mlhavá a poslední výsledky analýzy oblastí DNA kódujících RNA jsou mírně řečeno zarážející.
Když jsem výše uvedl, že snahy o počítání genů jsou z mnoha důvodů předčasné, měl jsem na mysli zejména potíže, které způsobuje současný vysoký stupeň neurčitosti definice genu, a dále těžko vysvětlitelný poznatek dotvrzený a prověřený právě konsorciem ENCODE, že pouze asi 1,2 % lidské genomové DNA jsou sekvence kódující proteiny, zatímco RNA je syntetizována prakticky podle téměř celé DNA. Zatím není v našich silách rozhodnout, jaký podíl molekul RNA kóduje proteinové produkty, kterou část představují geny kódující pouze RNA, jež nese nějakou funkci, a které RNA jsou zatím jen úletem poněkud chorého transkripčního systému, jenž možná produkuje mnoho nepotřebného odpadu. Nelze ovšem vyloučit, že transkripční systém je „chytřejší“, než si myslíme, a produkuje i RNA, o jejíž pravé funkci zatím nemáme ponětí.
Je jasné, že problematika genů kódujících RNA je nejméně srovnatelně závažná jako problematika genů kódujících polypeptidy, neboť se ukázalo, že RNA je schopna vykonávat stejně pestrou paletu základních typů funkcí jako proteiny. Prakticky lze říci, že co „umí“ proteiny, „umí“ také RNA. RNA dokonce navíc kóduje proteiny, zatímco tok genetické informace opačným směrem není možný. Navíc je nesporné, že mezi fungováním obou typů genů jsou zjevné rozdíly. Proto raději proberu geny kódující proteiny odděleně.
Poznámky
1) Z období centrálního dogmatu přetrvává termín genetický kód pro přiřazování aminokyselin do sekvence polypeptidů podle kodonů, trojic bází na mRNA, které za sebou následují bez překryvů a mezer od iniciačního tripletu až po triplety terminační. Odtud se odvodil i termín kódující gen pro gen, který kóduje polypeptid, resp. protein. Takto pojatý termín jsem použil i v nadpisu tohoto článku, protože se ve světové literatuře v tomto smyslu běžně používá. Domnívám se však, že jde o závažnou nepřesnost, neboť geny určující sekvenci nukleotidů v RNA, jako v konečném produktu transkripce u genů kódujících RNA, využívají pro kódování sice jiný, ale také geneticky daný kód, který je formulován jako známý zákon o komplementaritě bází pro transkripci: Proti adeninu (A v DNA) se přiřazuje při transkripci uracil (U v RNA), proti T se řadí A, proti G se řadí C a proti C zase G. Protože si nedělám iluze o tom, že se lidé zvyklí na zavedený význam termínu kódující gen mávnutím proutku přeonačí, mluvím dále raději o genech kódujících polypeptid a genech kódujících RNA, abych jednoznačně odlišil různé případy. U genů kódujících polypeptidy se genetická informace zapsaná v DNA nejdříve přepisuje (kopíruje, transkribuje) podle zákona komplementarity do RNA a RNA se pak překládá do řeči aminokyselin v průběhu tzv. translace.
2) Omlouvám se, že se ve svém výkladu o genech odvolávám pouze na prokaryotické a eukaryotické organismy a další taxony na této hierarchické úrovni pomíjím. Vysvětlení je prosté. Omezuji se pouze na taxony, se kterými mám vlastní zkušenosti a o nichž je k dispozici nejvíce údajů.
3) Záhy po „přečtení“ lidského genomu bylo založeno výzkumné konsorcium (2003) pojmenované ENCODE (Encyklopedia of DNA Elements), jehož cílem je nalézt a objasnit funkci veškerých elementů nacházejících se v lidském genomu s přihlédnutím ke genomům ostatních organismů. V roce 2007 shrnuli pracovníci konsorcia své dílčí poznatky v článku, který doporučuji čtenářům se zájmem o podrobnější informace o rozvoji poznatků zejména o struktuře genů, o jejich expresi a o problémech, se kterými se musí vývoj definice genů popasovat (Gerstein M. B. at al., Genome Res. 17, 669–681, 2007, doi: 10.1101/gr. 6339607). Ve stejném článku jsou také diskutovány návrhy na řešení problémů, uvedených v otázkách vytištěných kursivou a také návrhy na novou definici, které budou diskutovány v dalších dílech tohoto seriálu.
Ke stažení
- článek ve formátu pdf [457,47 kB]