O Projeto Genoma Humano alcançou um marco importante ao anunciar que havia completado o sequenciamento do primeiro genoma humano em 2003 – pela primeira vez, o modelo do DNA da vida humana era revelado. Mas a descoberta veio com um porém: eles não conseguiram reunir todas as informações genéticas do genoma. Havia lacunas que são regiões não preenchidas, muitas vezes repetitivas, que, até então, eram muito confusas para serem agrupadas.

Com os avanços na tecnologia que viabilizaram a leitura dessas sequências repetitivas, os cientistas finalmente preencheram essas lacunas em maio de 2021, e o mapeamento da sequência completa do primeiro genoma humano foi oficialmente publicado em 31 de março de 2022.

Sou uma bióloga especialista em genoma que estuda as sequências do DNA repetitivo e como elas moldam os genomas ao longo da história evolutiva. Fiz parte da equipe que ajudou a ler as sequências de repetição que faltavam para decodificar o genoma humano. E agora, com o mapeamento desse genoma humano completo de fato, essas regiões repetitivas foram identificadas e, finalmente, estão sendo estudadas na íntegra pela primeira vez.

As peças que faltavam no quebra-cabeça

O botânico alemão Hans Winkler cunhou a palavra “genoma” em 1920 ao combinar a palavra “gene” com o sufixo “-oma”, que significa “conjunto completo”, no intuito de descrever a sequência completa de DNA contida em cada célula. Passado um século, pesquisadores ainda usam essa palavra para se referirem ao material genético que compõe um organismo.

A única maneira de descrever a estrutura de um genoma é comparando-o a um manual de consulta. Nessa analogia, um genoma é uma coletânea de instruções de DNA para a vida. É composto por uma vasta gama de nucleotídeos (letras) agrupados em cromossomos (capítulos). Cada cromossomo contém genes (parágrafos) que são regiões de DNA responsáveis por codificar proteínas específicas que possibilitam o funcionamento de um organismo.

Embora cada organismo vivo tenha um genoma, seu tamanho varia de espécie para espécie. Um elefante usa a mesma informação genética que a grama que come e as bactérias em seu intestino. Mas nenhuma sequência genômica é exatamente igual. Algumas são curtas, como em Nasuia deltocephalinicola, uma bactéria simbionte de pulgões de plantas, com apenas 137 genes e 112.000 nucleotídeos. Outras, como a planta Paris japonica e seus 149 bilhões de nucleotídeos, têm uma sequência genômica tão longa que se torna difícil ter uma noção de quantos genes estão contidos em seu interior.

Mas os genes, como têm sido tradicionalmente entendidos – na qualidade de porções do DNA codificadoras de proteínas – são apenas uma pequena parte da sequência genômica de um organismo. Na verdade, eles compõem menos de 2% do DNA humano.

O genoma humano contém cerca de 3 bilhões de nucleotídeos e pouco menos de 20.000 genes codificadores de proteínas, o que representa cerca de 1% do comprimento total do genoma. Os 99% restantes são sequências de DNA não codificantes que não produzem proteínas. Alguns são componentes reguladores que funcionam como um quadro de distribuição para controlar o modo de atuação de outros genes. Outros são pseudogenes, ou seja, sequências genômicas tidas como relíquias evolutivas e que perderam sua funcionalidade.

Além disso, mais da metade do genoma humano é repetitivo, com múltiplas cópias de sequências quase idênticas.

O que é DNA repetitivo?

DNA satélites são sequências que se repetem em tandem várias e várias vezes, sendo a forma mais simples de DNA repetitivo encontrada no genoma. Embora a quantidade de DNA satélites de um determinado genoma varie de pessoa para pessoa, muitas vezes eles se agrupam em direção às extremidades dos cromossomos, em regiões chamadas telômeros. Essas regiões protegem os cromossomos do desgaste durante a replicação do DNA. Eles também são encontrados nos centrômeros dos cromossomos, uma região que ajuda a manter a informação genética intacta quando as células se dividem.

Os pesquisadores ainda não têm uma compreensão clara de todas as funções do DNA satélite. Mas, como ele forma padrões únicos em cada pessoa, biólogos forenses e genealogistas usam essa “impressão digital” genômica para analisar amostras de cenas de crime e rastrear a ancestralidade de um indivíduo. Mais de 50 distúrbios genéticos estão ligados a variações no DNA satélite, incluindo a doença de Huntington.

Outro tipo frequente de DNA repetitivo são os chamados elementos transponíveis, definidos como sequências de DNA capazes de se mover por diferentes regiões do genoma.

Alguns cientistas os descrevem como “DNA egoísta” devido à sua capacidade de inserção em qualquer lugar do genoma, não importando as consequências. À medida que o genoma humano evoluiu, muitas sequências transponíveis sofreram diversas mutações, reprimindo, assim, sua capacidade de se mover para evitar interrupções prejudiciais. Mas, alguns ainda circulam de um local para outro eventualmente. Por exemplo, as inserções de elementos transponíveis estão ligadas a uma série de casos de hemofilia A, um distúrbio genético que afeta a coagulação do sangue.

O DNA transponível pode ser a razão pela qual os humanos têm um cóccix, e não uma cauda.

Contudo, os elementos transponíveis não são apenas disruptivos. Eles podem ter funções reguladoras que ajudam a controlar a expressão de outras sequências de DNA. Quando estão concentrados nos centrômeros, eles podem ajudar a manter a integridade dos genes fundamentais para a sobrevivência celular.

Além disso, também podem contribuir para a evolução. Pesquisadores descobriram recentemente que a inserção de um elemento transponível em um gene importante no desenvolvimento pode ser o motivo pelo qual alguns primatas, inclusive humanos, não têm mais cauda. Rearranjos cromossômicos devido a elementos transponíveis estão até mesmo ligados à gênese de novas espécies, como os gibões do Sudeste Asiático e os wallabies da Austrália.

Completando o quebra-cabeça genômico

Até recentemente, muitas dessas regiões complexas podiam ser comparadas ao lado oculto da Lua: sabíamos que existia, mas não conseguíamos vê-lo.

Quando o Projeto Genoma Humano foi lançado pela primeira vez em 1990, as limitações tecnológicas impossibilitaram a descoberta completa de regiões repetitivas no genoma. A tecnologia de sequenciamento disponível na época só podia ler cerca de 500 nucleotídeos de cada vez, e esses fragmentos curtos tinham que se sobrepor um ao outro para recriar a sequência completa. Os pesquisadores usaram esses segmentos sobrepostos para identificar os próximos nucleotídeos na sequência, estendendo gradualmente a leitura do conjunto do genoma, detectando assim, um fragmento por vez.

Entender essas regiões de lacunas repetitivas era o equivalente a montar um quebra-cabeça de 1.000 peças de um céu nublado: Quando todas as partes são parecidas, como você sabe onde uma nuvem começa e outra termina? Com trechos sobrepostos quase idênticos em muitos pontos, o sequenciamento completo do genoma por fragmentação tornou-se inviável. Milhões de nucleotídeos permaneceram escondidos na primeira versão do mapeamento do genoma humano.

Desde então, pedaços de sequência têm gradualmente preenchido lacunas do genoma humano pouco a pouco. E em 2021, o Telomere-to-Telomere Consortium (T2T), um consórcio internacional de cientistas que trabalha para concluir o mapeamento da sequência completa do genoma humano, anunciou que todas as lacunas restantes foram finalmente preenchidas.

Com a conclusão do mapeamento da sequência do primeiro genoma humano, os pesquisadores estão agora buscando capturar a diversidade total da humanidade.

Isso foi possível graças à tecnologia de sequenciamento aprimorada capaz de ler sequências mais longas com milhares de nucleotídeos de comprimento. Com mais informações para situar sequências repetitivas dentro de um cenário mais amplo, tornou-se mais fácil identificar seu devido lugar no genoma. Como, por exemplo, simplificar um quebra-cabeça de 1.000 peças para um de 100 peças, sequências de leitura longa tornaram possível montar o quebra-cabeça das grandes regiões repetitivas pela primeira vez.

Com o poder crescente da tecnologia de sequenciamento de DNA de leitura longa, os geneticistas estão preparados para explorar uma nova era da genômica. Pela primeira vez, teremos a decodificação de sequências repetitivas complexas em diversas populações e espécies. E um genoma humano completamente sequenciado e livre de lacunas fornece um recurso inestimável para pesquisadores investigarem regiões repetitivas que moldam a estrutura e a variação genética, além da evolução das espécies e a saúde humana.

Mas um genoma completo não captura tudo. Os esforços continuam no intuito de criar diversas referências genômicas que representem plenamente a população humana e a vida na Terra. Com referências mais completas do consórcio genoma “telômero a telômero”, a compreensão dos cientistas acerca da matéria escura repetitiva do DNA se tornará mais clara.


Traduzido do inglês por Adriana Heery / Revisado por André Zambolli