I primi genomi a essere sequenziati e studiati sono stati quelli di alcuni virus e batteri che, per le loro dimensioni contenute, erano più facili da trattare per i ricercatori. Fin da subito, tuttavia, fu chiaro che l’obiettivo più interessante era giungere a sequenziare il genoma umano; questa impresa prometteva infatti le più importanti ricadute pratiche, soprattutto nel campo della medicina.
Il Progetto Genoma Umano (o HGP dall’inglese Human Genome Project) è stato uno dei più grandi progetti di ricerca in campo biologico dell’intero Novecento. Avviato all’inizio degli anni Novanta su iniziativa di James Watson, uno dei due padri della doppia elica, il progetto è stato completato ufficialmente nel 2003, anche se una prima bozza era stata pubblicata con grande clamore nel 2001.
Il progetto ha visto la collaborazione di un ente pubblico statunitense, i National Institutes of Health (NIH), e di un’azienda privata, la Celera Corporation fondata e diretta dal biochimico Craig Venter. A questi due gruppi si sono aggiunte collaborazioni di altri enti in USA, Canada, Gran Bretagna e Nuova Zelanda.
L’obiettivo del progetto sarebbe apparso inimmaginabile solo pochi anni prima; la sequenza completa del corredo cromosomico aploide di un essere umano, infatti, comprende oltre 3 miliardi di nucleotidi. Poiché ogni genoma è unico per alcuni suoi tratti, il Progetto ha previsto la comparazione di diversi campioni con un’elaborazione statistica dei dati.
I NIH hanno usato un approccio tradizionale, frammentando il genoma con diversi enzimi di restrizione, così da ottenere frammenti di piccole dimensioni, che poi sono stati collegati tra loro per ricavare frammenti di dimensioni via via maggiori. La Celera ha fatto invece ricorso a una tecnica chiamata shotgun sequencing che, sfruttando potenti computer, è in grado di trovare i collegamenti tra più frammenti, accelerando molto le operazioni, anche se con minore precisione. Attualmente l’intera sequenza del genoma umano è scaricabile da internet, dove è conservata presso siti specifici, consultabili dai ricercatori.
L’esame delle sequenze ha rivelato alcuni dati di estremo interesse. Il più sorprendente è che il nostro genoma contiene dai 28 000 ai 30 000 geni, contro i circa 100 000 che i genetisti ritenevano plausibili in precedenza. I geni sono stati individuati attraverso un algoritmo informatico di ricerca degli ORF.
A fronte di questo scarso numero di geni, risulta che circa il 95% del DNA umano è costituito da sequenze che non vengono mai tradotte in polipeptidi. Per questo tipo di DNA è stato coniato il nome poco lusinghiero di junk DNA («DNA spazzatura»). I ricercatori, tuttavia, stanno iniziando solo ora a chiarire la vera natura di questa componente, che appare molto eterogenea e comprende anche tratti di DNA che svolgono diverse funzioni, alcune delle quali potrebbero rivelarsi importanti; vediamone qualcuna:
- I telomeri e i centromeri sono indispensabili per la corretta conservazione dei cromosomi.
- Gli introni, attraverso il meccanismo di splicing e in particolare attraverso lo splicing alternativo, garantiscono al DNA eucariotico una versatilità sconosciuta al genoma dei batteri.
- Alcune sequenze sono coinvolte nella regolazione dell’espressione genica, direttamente o attraverso speciali RNA, come nel caso del meccanismo detto interferenza dell’RNA.
- Più dubbio è il giudizio sugli pseudogeni, antichi geni che hanno perso funzionalità in seguito a mutazioni. Molti biologi ritengono che la loro presenza possa favorire, per mutazione, la comparsa di nuovi geni in una specie. Vi sono inoltre rari casi di pseudogeni che hanno riacquistato la funzione perduta attraverso una successiva mutazione. Il numero degli pseudogeni presenti nel nostro genoma non è noto con precisione, ma si valuta che sia attorno a diverse migliaia, pari forse al 10% del DNA totale.
- Un caso a sé è quello dei trasposoni, elementi in grado di moltiplicarsi e spostarsi nel DNA che da soli costituiscono fino al 50% del genoma umano. A tutt’oggi nessuna funzione utile è stata scoperta per questi elementi, che, anzi, possono essere coinvolti nell’insorgenza di tumori.
- L’ultima componente del junk DNA è costituita dalle sequenze ripetute. Molti studiosi ritengono che tali sequenze siano importanti per dare compattezza al DNA, e recenti ricerche hanno anche fatto emergere un loro ruolo nel processo di regolazione della trascrizione.
A pochi anni di distanza, è già difficile dare l’idea della grandiosità dell’HGP, dato che i vertiginosi progressi tecnologici hanno fatto sì che un nuovo genoma possa essere sequenziato in pochi mesi. Resta il fatto che questo campo di ricerche (denominato genomica) è stato aperto proprio dalle esperienze fatte grazie all’HGP.