Stříhání a krájení lidského genomu
Vědci začínají rozkrývat kód splicingu
Autor: dr. Robert W. Carter
V originále vydáno: 29. června 2010 (GMT+10)
Před několika desetiletími byla v módě hypotéza „jeden gen – jeden enzym“. Zdálo se samozřejmé, že jeden proteinový gen kóduje jeden protein. U prokaryotických organismů (bakterií) to bylo snadné prokázat. Známé bakteriální geny měly definované počáteční a koncové místo a písmena DNA mezi nimi určovala diskrétní sekvenci aminokyselin. Eukaryota (organismy s jádrem, od kvasinek přes rostliny až po člověka) nemají jednoduchou genovou strukturu. Naše proteinové geny jsou rozděleny na řadu „exonů“ (částí, které kódují proteiny) a „intronů“ (nekódujících interferenčních sekvencí). Aby se vytvořil protein, gen se nejprve přepisuje do RNA, pak se z něj odštěpí introny, exony se spojí dohromady a zbytek se přeloží do proteinu. I když je to složité, hypotéza jednoho genu a jednoho enzymu se stále uplatňovala u eukaryotických proteinových genů.
Postupem času se však ukázalo, že život není tak jednoduchý, zejména u eukaryot. Hypotéza jednoho genu a jednoho enzymu byla zvláště znepokojivá u vyšších (složitějších) eukaryot. Například přibližně 20 000-25 000 genů kódujících proteiny v lidském genomu3 se používá k vytvoření 100 000-300 000 různých proteinů (skutečný počet je nejistý). Nízký počet genů v lidském genomu byl znepokojující z několika důvodů.4 Za prvé to znamená, že jsme neměli o tolik více genů než organismy mnohem jednodušší než my. Za druhé, potřebovali jsme způsob, jak vytvořit mnoho proteinů z několika málo genů, a nikdo nevěděl, jak to lze provést v tak velkém měřítku. A za třetí, složitost genomického počítačového programu se zvýšila na ještě nepříjemnější úroveň pro ty, kteří se domnívali, že jsme vznikli náhodou.
„Z projektu ENCODE jsme se dozvěděli, že alternativní sestřih je tak rozšířený, že se v současnosti diskutuje o definici slova ‚gen‘.“
Ještě před projektem lidského genomu4 jsme věděli, že některé bílkoviny vznikají procesem zvaným „alternativní splicing (sestřih)“, kdy se kombinují exony z různých míst genomu a vytvářejí se různé bílkoviny. Z projektu ENCODE,5 jsme se dozvěděli, že alternativní sestřih je tak rozšířený, že se v současnosti diskutuje o definici slova „gen“.6 Ukázalo se tedy, že hypotéza o jednom genu a jednom enzymu je značně zjednodušená. Nicméně slovo a pojem „gen“ je natolik užitečný, že v tomto článku budu nadále o „genech“ hovořit v klasickém smyslu jako o souvislém úseku DNA s počátečním a koncovým místem a souborem intronů a exonů, které mohou být potenciálně přepsány, spojeny a přeloženy do jednoho proteinu. Každý gen se však skládá z částí, které lze rekombinovat s částmi jiných genů na různých místech genomu a vytvářet tak proteiny, které nejsou kódovány žádným konkrétním genem.
Alternativní sestřih je geniální konstrukční koncept, který umožňuje zjednodušit genetický program, jenž zabírá zlomek místa ve srovnání s programem, který by kódoval každý protein samostatně. Za tuto složitost se však platí. Bylo konzervativně odhadnuto, že každý intron přidává stejné množství složitosti jako přibližně 30 dalších písmen DNA.7 S každým přidaným intronem se tedy zvyšuje „cíl mutace“ genu. Uvědomte si, že průměrný gen kódující bílkoviny má 7-10 intronů a že celková délka intronů je často větší než celková délka DNA kódující bílkoviny, a pochopíte, v čem spočívá problém. Udržení takového systému vyžaduje mnoho úsilí a jeho složitost představuje komplikaci pro naturalistické teorie původu. Značná část lidských genetických onemocnění je totiž připisována mutacím v místech sestřihu intronů a exonů.8 Introny jsou obvykle zařazovány do kategorie nevyužité DNA, ale mají specifické sekvence na hlavě a na ocasu, které říkají sestřihovému mechanismu, kde má řezat atd., takže nejsou bez funkce. (Exony mají na svých koncích také sestřihové signály. Část informací pro sestřih intronů se tedy nachází v části genomu kódující proteiny. Sekce kódující proteiny kódují současněsekvenci bílkovin i vzorce sestřihu!)
Projekt ENCODE přinesl významný objev, že téměř celý genom byl v určitém okamžiku života buňky přeměněn na RNA a že ze stejného úseku DNA často vzniká více překrývajících se RNA. To byla obrovská rána pro zastánce teorie nevyužité DNA.9 Možná ještě důležitější však je, že výsledky ENCODE také dokumentovaly úžasné množství alternativních sestřihů. Zjistili jsme tedy, že obrovská část genomu je aktivní a že části kódující proteiny se používají ve složitých kombinacích, ale stále jsme nevěděli, jak to všechno vzniká. Z tohoto důvodu vědci hledali v genomu „sestřihový kód“, který řídí rozdělování proteinových genů. Tento sestřihový kód musí zohledňovat 1) složité kombinace exonů potřebné k vytvoření stovek tisíc proteinů z desítek tisíc proteinových genů, 2) rozdíly v sestřihu mezi jednotlivými buňkami, které jsou nutné pro různé proteiny exprimované v různých typech buněk, a 3) změny ve vzorcích sestřihu v průběhu času, jak organismus postupuje od oplozeného vajíčka k dospělému jedinci (protože ne všechny geny jsou aktivní ve všech fázích životního cyklu). Všechny tyto informace musí být zakódovány v genomu, ale zároveň nemohou zasahovat do domén kódujících proteiny. Většina těchto informací se tedy musí nacházet v intronech a v mezerách mezi geny.
Nedávno vyšel v časopise Nature článek, jehož autoři tvrdí, že objevili počátek sestřihového kódu. To, co našli, je zázrak složitosti. Vědecké laboratoře po celém světě generují obrovské množství dat a tyto nové poznatky dokázaly využít při masivním vytěžování dat. Konkrétně vznikly rozsáhlé databáze, které nám říkají, které geny jsou aktivní v různých buněčných liniích a v různých fázích vývoje. Známe také mnoho DNA-vazebných faktorů a jejich specifické sekvenční cíle (obvykle krátký řetězec velmi přesných písmen, na které se zaměřují proteiny s roztodivnými názvy jako „Star“, „Nova“ a „Quaking“). Díky těmto znalostem mohli autoři článku k problematice přistoupit statisticky a zdokumentovat významné prvky, které pomáhají kontrolovat alternativní sestřih. Před a za mnoha exony našli mnoho „motivů“ (krátkých slov DNA o 5 až 10 písmenech), které byly silně spojeny s různými typy buněk. Celkově by mohli vysvětlit 60 % alternativních sestřihů nalezených v lidském genomu pouze na základě přítomnosti nebo nepřítomnosti těchto motivů. Mnohé z těchto motivů byly známy již dříve a jsou to místa pro známé DNA-vazebné proteiny. Mnoho dalších motivů bylo pro vědu nových.
Medián (střední hodnota) počtu tkáňově specifických motivů spojených se sestřihy na exon se pohyboval od 12 pro centrální nervový systém do 19 pro embryo.10 Existovaly další tkáňově nezávislé prvky spojené s většinou nebo všemi exony a další a hojné krátké motivy, které nebyly zohledněny ve výše uvedených počtech. To znamená, že kód sestřihu je složitý a že je zapotřebí složitých kombinací instrukcí, které řídí, jak se tolik exonů spojí, aby vytvořily množství proteinů, které se nacházejí v lidském těle.
Autoři také objevili znaky související se sestřihy mnohem dále od oblastí kódujících proteiny, než očekávali. Kvůli technickým omezením se většina studií regulace transkripce v minulosti zaměřovala na několik desítek písmen bezprostředně před nebo za cílovou sekvencí. Zde jsou zdokumentovány rysy mnohem dále do nekódujících oblastí, než bylo dosud známo (až 300 písmen). Do kategorie funkční DNA se tak dostává ještě více nevyužité DNA!
„Bůh napsal genetický počítačový program, který je dodnes nepřekonaný jakoukoli lidskou technologií.“
Ale to je jen začátek. Už při zběžném pohledu se badatelům ukazuje úžasná složitost. Jejich přesnost předpovědi byla pouze 60 %. Proto je třeba ještě mnohé objevit. Kde je chybějící informace? Možná se skrývá hlouběji v nekódující DNA. Možná proto, že nezohlednili trojrozměrnou architekturu DNA v jádře, mohou být další prvky objeveny mnohem dále nebo dokonce na jiných chromozomech! Možnosti jsou nekonečné a my vás budeme informovat, jakmile se dozvíme více.
Z této práce vyplývá ještě jeden důsledek, o kterém bych se rád zmínil. V genomu je mnoho „pseudogenů“, které vypadají jako funkční geny, ale mají „mutace“, které brání jejich přeměně na proteiny. Přítomnost pseudogenů je od jejich objevu záhadou, ale tato myšlenka se obecně používá k útokům na kreacionisty a další zastánce designu. Domnívám se, že argumenty jsou falešné,11 jak jsme mnohokrát upozornili v dřívějších článcích.12 Přestože byly nalezeny funkce mnoha pseudogenů, je pravda, že pokud je pseudogen transkribován a sestříhán, nemůže být přeložen do proteinu. Nicméně nyní, když víme o alternativním sestřihu, může budoucí práce ukázat, že mnoho pseudogenních exonů je začleněno do funkčních proteinů. Pokud je tomu tak, celý argument o pseudogenu se zhroutí jako domeček z karet. To však ukáže až čas.
Prozatím žasněme nad úžasně navrženým lidským genomem. Bůh napsal genetický počítačový program, který je dodnes nepřekonaný jakoukoli lidskou technologií. Jeho moudrost a prozíravost, kterou do svého projektu vložil, je ohromující. Vytvořil řetězec DNA v délce odpovídající lidské postavě, který odolá tisícům chyb (mutací), dokáže se přizpůsobit měnícímu se prostředí (díky sebemodifikujícímu kódu, v závislosti na podmínkách zapínajícímu a vypínajícímu různé geny) a který lze vměstnat do mikroskopické buňky, aniž by se na ní vytvořily uzly! Nyní se dozvídáme, že jeho program je zázrakem komprese dat a efektivity. Je mnohem důmyslnější než cokoli, co jsme si kdy dokázali představit.