Introducción a la Secuenciación de Genomas

Los genomas representan el punto de partida de los estudios genéticos. Desde el descubrimiento de la estructura del ADN, los científicos han dedicado grandes esfuerzos para determinar su secuencia exacta.

Un genoma es la información genética completa de un organismo o una célula. Ácidos nucleicos de cadena simple o doble guardan la información en una secuencia linear o circular. Para determinar de una manera precisa esa secuencia, el uso progresivo de tecnologías cada vez más eficientes ha incrementado la exactitud, el rendimiento y la velocidad de secuencia. No obstante, los secuenciadores pueden generar secuencias conocidas como reads o lecturas, formadas por unos tamaños definidos de longitud de lectura, normalmente mucho más cortos que el tamaño de los genomas reales. La secuencia completa del genoma tiene que ser entonces deducida mediante el solapamiento de esos fragmentos cortos.

Históricamente, debido al tiempo y el coste elevado, solo un individuo por especie era secuenciado y su secuencia generalmente representaba el genoma de referencia para la especie. Estos genomas de referencia han servido de guía para las resecuenciaciones de la misma especie actuando como una plantilla para el ensamblamiento de las lecturas.

En los últimos 50 años del siglo XX, las tecnologías de secuenciación disponibles se centraron mayormente en genomas pequeños. Desde el comienzo del nuevo milenio, las nuevas plataformas, conocidas como la secuenciación de próxima generación (NGS), han sido desarrolladas para dirigirse a genomas más grandes, en un proceso llamado Secuenciación del Genoma Completo (WGS). Dos décadas después de la llegada del WGS, la NGS se ha convertido cada vez más eficiente y asequible.

A la vez, las nuevas tecnologías de secuenciación que han ido surgiendo, prometen revolucionar el campo y generar genomas de mayor calidad.

Contexto histórico de la Secuenciación de Genomas

En 1953, Watson y Crick publicaron su famoso artículo revelando la doble hélice del ADN [1]. Este mismo año, también estuvo marcado por la secuenciación de la primera molécula biológica. Gracias a un método refinado de partición cromatográfica, Sanger fue capaz de secuenciar las dos cadenas de la proteína insulina [2]. Las proteínas fueron secuenciadas antes que los ácidos nucléicos, pero muchos de los principios permanecieron idénticos, asfaltando el camino hacia la secuenciación de ADN moderna. En 1972, Fiers logró la secuenciación del primer gen: 510 bp del gen de la proteína de la cubierta del virus de ARN bacteriófago MS2 [3].

En 1975 Sanger y Coulson desarrollaron su método de secuenciación “más-menos” [4]. El principio clave del método de “Sanger” es el uso de didesoxinucleótidos trifosfato (ddNTPs) como terminadores de la cadena de ADN. La muestra de ADN se divide en cuatro reacciones de secuenciación separadas que contienen los cuatro desoxinucleótidos estándar (dATP, dGTP, dCTP and dTTP) y una ADN polimerasa. En cada reacción se añade solo uno de los cuatro didesoxinucleótidos (ddATP, ddGTP, ddCTP, o ddTTP). La incorporación de un didesoxinucleótido en la cadena naciente de ADN termina su extensión, lo que produce varios fragmentos de ADN de longitud variable. Los fragmentos de ADN sintetizados y marcados de nuevo son desnaturalizados por calor y separados por tamaño (con una resolución de un solo nucleótido) mediante electroforesis en gel de poliacrilamidaurea.

En 1977, usando este método Sanger determinó las 5368 bp del genoma del bacteriófago Phi-X174, el primer genoma de ADN secuenciado [5]. El mismo año, desarrolló una variación de su método, conocida como «secuenciación mediante colorantes acoplados al cebador» que permitía descifrar fragmentos de aproximadamente 100 bases en un día.  En el mismo año, Maxan y Gilbert propusieron un método químico para secuenciar el ADN [6]. Fue muy popular durante años pero quedó en desuso debido a su complejidad técnica, el uso extensivo de productos químicos peligrosos y dificultades para escalarla.

En los años 80 la secuenciación fue llevada a cabo mediante el método original de Sanger. En 1987, Prober describió la «secuenciación por terminador fluorescente» [7]. La mayor ventaja de este método es que la secuenciación se puede llevar a cabo en una sola reacción.

Cromatograma Secuenciacion genomas Sanger
Imagen 1: Cromatograma Secuenciación Sanger

Desde principios de los años 80, numerosos proyectos de secuenciación del genoma completo fueron puestos en marcha con éxito. La base de datos GenBank fue fundada en 1982 con alrededor de medio millón de bases, al final de la década contaba con más de 40 millones de bases. Este rango de crecimiento se ha ido incrementado hasta 10 veces cada 5 años. En los años 90 la combinación de avances tecnológicos y la adopción de procesos industriales incrementó el rendimiento y redujo los errores de secuenciación. Estos avances aceleraron la creación del projecto del genoma humano (HGP) que estaba dirigido a producir mapas genéticos y finalmente completó la secuencia los cromosomas humanos en 2003.

Hitos en la secuenciación de genomas
Imagen 2: Hitos en la Secuenciación de genomas

Nuevos métodos de Secuenciación de Genomas

A finales de los 80 se desarrolló un nuevo método de secuenciación de ADN conocido como pirosecuenciación [8]. La pirosecuenciación es un método de secuenciación de ADN en tiempo real basado en la liberación de los pirofosfatos (PPi) que tiene lugar en la reacción de polimerización del ADN a partir de sus dNTPs. Esta aproximación tiene varias ventajas respecto al método Sanger tradicional, incluyendo el uso de nucleótidos naturales y la posibilidad de observar la síntesis del nucleótido en tiempo real.

En los años 90, Applied Biosystems era el líder del mercado indiscutible. En contraste, en el año 2000 muchas compañías empezaron a ofrecer diferentes tecnologías con un progresivo mayor rendimiento a un coste menor: 454, Solexa, Illumina, Agencourt, Complete Genomics y Ion Torrent.

La primera generación de secuenciadores NGS estaba basada en la pirosecuenciación. En 2003, Solexa empezó a desarrollar un nuevo método de secuenciación conocido como “secuenciación por sintesis” [9]. Al año siguiente, Solexa adquirió de Manteia la tecnología de secuenciación en colonia, conocida como la amplificación puente [10]. En este método, las hebras de ADN y los primers se pegan a un portaobjetos, y se lleva a cabo una amplificación por la polimerasa, de forma que se crean colonias locales de ADN o «clusters de ADN». En 2007 Solexa fue adquirida por Illumina.

Amplificación puente Secuenciación de Genomas
Imagen 3: Amplificación puente

Una nueva técnica basada en la detección de protones semiconductores fue lanzada en 2011 por Ion Torrent [11]. Este método de secuenciación se basa en la detección de iones de hidrógeno que se generan durante la polimerización del ADN. Posee micropocillos en los que se inserta la cadena de ADN a secuenciar, y se inunda con un único tipo de nucleótido. La incorporación de un nucleótido en la polimerización de forma natural implica la formación de un enlace covalente, y la liberación de un pirofosfato y una carga positiva en forma de iones de hidrógeno.

Estado actual de la Secuenciación de Genomas

Debido a las limitaciones técnicas de las otras plataformas de secuenciación, la aproximación de secuenciación por síntesis de Illumina prevaleció. En 2014 la compañía había alcanzado una posición cercana al monopolio, teniendo en su posición el 70% del mercado de los secuenciadores de ADN, ocurriendo en sus secuenciadores el 90% de todos los datos de ADN producidos.

Esta situación de monopolio promete cambiar con la entrada al mercado mundial de la compañía China MGI. Empresa fundada en 2016 y que ya cuenta con más de 460 usuarios en 36 países alrededor de todo el mundo.

Sus esfuerzos en investigación le han permitido desarrollar un amplio abanico de tecnologías novedosas, como su flow cell punteado o sus famosas DNBs (nanobolas de ADN) generadas mediante RCA (Rolling Circle Amplification) y, por tanto, libres de PCR. Estas nanobolas, en combinación con el flow cell punteado mejora las métricas de detección, elimina los duplicados por debajo del 3% y reduce el index hopping hasta valores cercanos a 0.

Generación de DNB (nanobolas de ADN)
Imagen 4: Generación de DNB (nanobolas de ADN)

Artículo relacionado

CoolMPS™: Secuenciación masiva en paralelo usando anticuerpos específicos para cada nucleobase natural

Referencias

[1] Watson JD, Crick FHC. Molecular structure of nucleic acids: a structure for deoxyribose nucleic acid. Nature 1953;171:737–8.

[2] Sanger F, Thompson EOP. The amino-acid sequence in the glycyl chain of insulin. II. The investigation of peptides from enzymic hydrolysates. Biochem J 1953;53:366–74.

[3] Min Jou W, Haegeman G, Ysebaert M, Fiers W. Nucleotide sequence of the gene coding for the bacteriophage MS2 coat protein. Nature 1972;237:82–8.

[4] Sanger F, Coulson AR. A rapid method for determining sequences in DNA by primed synthesis with DNA polymerase. J Mol Biol 1975;94:441–8.

[5] Sanger F, Air GM, Barrell BG, Brown NL, Coulson AR, et al. Nucleotide sequence of bacteriophage uX174 DNA. Nature 1977;265:687–95.

[6] Maxam AM, Gilbert W. A new method for sequencing DNA. Proc Natl Acad Sci USA 1977;74:560–4.

[7] Prober JM, Trainor GL, Dam RJ, Hobbs FW, Robertson CW, et al. A system for rapid DNA sequencing with fluorescent chain-terminating dideoxynucleotides. Science 1987;238:336–41.

[8] Hyman ED. A new method of sequencing DNA. Anal Biochem 1988;174:423–36.

[9] Mitra RD, Shendure J, Olejnik J, Edyta-Krzymanska-Olejnik, Church GM. Fluorescent in situ sequencing on polymerase colonies. Anal Biochem 2003;320:55–65.

[10] Kawashima E, Farinelli L, Mayer P. Method of nucleic acid amplification, 1998. WO1998044151A1

[11] Rothberg JM, Hinz W, Rearick TM, Schultz J, Mileski W, et al. An integrated semiconductor device enabling non-optical genome sequencing. Nature 2011;475:348–52.