Introducción a la secuenciación masiva

La secuenciación masiva en paralelo (MPS) nos está llevando a aplicaciones genómicas avanzadas, ya que es capaz de proveer billones de lecturas de una secuencia a través de nano matrices de ADN punteados. Las mejoras en la calidad y la longitud de las lecturas, además de la reducción de los costes de secuenciación nos llevará a futuros retos en el campo de los estudios genéticos, que necesitarán ser completos, precisos y asequibles. Además, el conocimiento completo y total de la genética humana va a requerir la secuenciación de millones de personas y una caracterización molecular profunda de millones de nuestras células.

Actualmente, las metodologías más avanzadas de secuenciación masiva se basan en ciclos de secuenciación incorporando nucleótidos marcados de terminador reversible (RTs). Los RTs tienen varias limitaciones, como su eficiencia de incorporación, el coste de síntesis, la limitación de la señal y la regeneración incompleta de los nucleótidos naturales (parte del fluoróforo se queda en la base después de la escisión del nucleótido, lo que se conoce como “scar”).

COOLMPS™: Una nueva química de secuenciación masiva usando RTs sin marcado fluorescente

La característica única y distintiva de la química CoolMPS™ es que no se requieren nucleótidos de terminador reversible marcados con fluorescencia. La química CoolMPS™ fue propuesta por R. Drmanac en 2016.

La incorporación de estos nucleótidos sin marcado y la determinación de la base se lleva a cabo en cada ciclo de secuenciación usando anticuerpos marcados con fluorescencia con un terminador reversible en el extremo 3’. La eliminación de los anticuerpos específicos y del extremo 3’ de bloqueo regenera el nucleótido natural sin “scar” en la base. Esta característica de restitución a un nucleótido natural permite la extensión de la cadena de ADN en un nuevo ciclo de secuenciación sin ninguna interferencia con el ciclo anterior. RTs sin marcar son más fáciles y menos costosos de hacer, además de que son incorporados más eficientemente. Una ventaja adicional de la química CoolMPS™ es que los anticuerpos pueden llevar muchas moléculas del mismo fluoróforo, incrementando enormemente la señal, (ver Figura 1).

 Ciclo Secuenciación CoolMPS™

Figura 1: Ciclo Secuenciación CoolMPS™

Comportamiento de los anticuerpos CoolMPS™ en diferentes experimentos de Secuenciación

Generación de lecturas de 200 bases: SE200

La secuenciación masiva de lecturas de más de 100 bases es muy útil. La química CoolMPS™ se usó para obtener lecturas de 200 bases. Se usó un secuenciador DNBSEQ-G400 y se cargaron nanobolas de ADN (DNBs) en su flow cell. Las DNBs fueron preparadas a partir de librerías de E.coli de 300 bases usando el protocolo de MGI. La siguiente figura muestra la media de la intensidad de las bases del DNBs en una región seleccionada de la matriz del flow cell.

Ciclo-Intensidad MPS
Figura 2a: Ciclo-Intensidad MPS
Ciclo-Posición Discordancia. MPS
Figura 2b: Ciclo-Posición Discordancia MPS

Como se ha observado con anterioridad en nucleótidos marcados con fluorescencia, la intensidad de la señal va decayendo a medida que los ciclos de secuenciación van aumentando (Fig. 2a). Esto se debe a varios factores, como señal fuera de fase, terminación irreversible, en parte debido a RTs impuros y ADN dañado, o pérdida de ADN. Esto excluye que la unión del anticuerpo tenga un impacto considerable en la imagen. Las diferencias en la tasa de disminución entre las bases se deben presuntamente a la influencia del fondo cambiante o a la eficiencia de la iluminación durante los ciclos. De cualquier manera, la señal remanente después de 200 ciclos de secuenciación es todavía alta, apoyando la posibilidad de lecturas más largas usando la química CoolMPS™.

La discordancia posicional incrementa durante los ciclos al igual que en la secuenciación masiva estándar con terminadores reversibles (Figura 2b). Esto es debido a la acumulación de señal fuera de fase y a la pérdida de señal relativa, que afecta especialmente a las DNBs con bajo número de copias.

Como se muestra en la siguiente tabla después de filtrar el 5% de los spots vacíos y los spots con dos o más DNBs, el radio de mapeo del 95% restante de las DNBs es 97.83% con una discordancia de 0.11% que luego es reducida a 0.06% en el 99.79% de las bases con un score de calidad >Q10. Este resultado es muy prometedor para lecturas de 200 bases, ya que muestra una alta precisión y 93% de rendimiento de secuenciación.

Rendimiento Secuenciacion Masiva en paralelo
Tabla 1: Rendimiento Secuenciación

La alta señal de CoolMPS™ mejora la calidad de la secuencia en DNBs con un número bajo de copias

Ciclo CoolMPS™  - Intensidad de Señal
Figura 3a: Ciclo CoolMPS™ – Intensidad de Señal
Beneficio señal alta para DNBs ciclo CoolMPS™. Estimated Sequencing Error Rates DNBs
Figura 3b: Beneficio señal alta para DNBs ciclo CoolMPS™
Figura 3c: Estimated Sequencing Error Rates DNBs

Como se muestra en la figura 3a, la química CoolMPS™ provee 3 veces más señal que otros métodos de secuenciación estándar en la misma matriz de DNB. Se evaluó el beneficio de la señal alta para secuenciar DNBs con un número de copias pequeño (3b). Esto es importante para la secuenciación de fragmentos largos (~1000b) usando DNBs pequeños en nanomatrices de alta densidad en los que se espera tener menos de 100 copias de los fragmentos.

La figura 3c muestra si partimos de DNBs de una librería genómica humana con menos de 50 copias de fragmentos de unas 400 bases de tamaño, estas librerías pueden ser secuenciadas utilizando la química CoolMPS™ con una tasa de error del 0.055%, tres veces menos que el obtenido con otros métodos de secuenciación estándar utilizando nucleótidos marcados con fluorescencia. Todo esto demuestra claramente los beneficios de la alta señal obtenida con anticuerpos marcados con moléculas fluorescentes.

Alta calidad en las lecturas de 150 bases de tipo paired end: PE150

La secuenciación con pareadas, PE150 (150 bases desde ambos extremos de insertos de entre 300 a 600 bases) es la que se utiliza con más frecuencia.

Se probó la química CoolMPS™ para demostrar que el uso de anticuerpos no interfiere con el proceso de secuenciación PE. La figura 4a muestra el cambio de intensidad en la primera hebra a partir de 150 ciclos, entonces se recupera la intensidad de la segunda hebra, ya que es la hebra complementaria correspondiente al primer de secuenciación usado para la extensión. En este ejemplo, la concentración de anticuerpos usada para la segunda hebra fue dos veces superior a la usada para la primera hebra. En términos generales se observa una disminución del 30-50% en los valores de intensidad a partir de 150 ciclos en la primera hebra y una disminución del 40-50% en la segunda hebra.

Después de filtrar alrededor del 12% de spots vacíos y de baja calidad en la matriz del flow cell, la tasa de mapeo es >99% con una tasa de discordancia del 0.08% y 0.26% en la primera hebra de la librería de ADN de E. coli (inserto de 300 bases) y la librería de ADN humano (inserto de 400 bases) respectivamente (3b). Para la segunda hebra, la tasa de mapeo fue alrededor del 99% con una tasa de discordancia del 0.22% y 0.62% respectivamente. Después de filtrar 0.4% y 0.8% de las bases con un score de calidad <10, la discordancia combinada fue reducida a 0.06% y 0.24% en librerías de E. coli y en librerías humanas respectivamente (4b). Parte de la tasa de discordancia se debe a errores introducidos por la PCR durante la preparación de librerías. Las librerías de ADN humano tienen mayor tasa de discordancia si las comparamos con las librerías E. coli, esto se debe a la mayor tasa de polimorfismos en las muestras humanas comparadas con una referencia.

Ciclo CoolMPS™ Intensidad Señal.
Referencias en librerías E.Coli y Humana. Secuenciacion Masiva en paralelo
Figura 4a: Ciclo CoolMPS™ Intensidad Señal
Figura 4b: Referencias en librerías E.Coli y Humana

Demostrando el potencial de CoolMPS™ para lecturas largas

Para demostrar el potencial de la secuenciación masiva para lecturas largas utilizando la química CoolMPS™ se obtuvieron lecturas simples de 400 bases de una librería humana en una nanomatriz de DNB estándar (menos de 100 copias por DNB partiendo de una muestra genómica de 400 a 600 bases). La distribución de los q-scores a partir de 400 bases en las regiones del flow cell se muestran en la figura 5. La media del parámetro Q30 para 400 bases fue del 91%. Al 75% del rendimiento de la lectura, fue estimada una tasa de error de secuenciación aceptable de 0.045% en las primeras 390 bases (evitando las últimas 10 bases que pueden contener la secuencia del adaptador). Dos tercios de esos errores fueron encontrados en una fracción pequeña (0.84%) de calidad muy baja (<Q10) y pudo ser filtrado y eliminado debido a la conversión a no-calls, reduciendo la tasa de error a 0.15%.

La tasa de error en las primeras 300 bases fue 0.14%, indicando que el 67% de los errores en las primeras 390 lecturas aparecieron en las últimas 90 bases. Esto se debe, entre otras cosas, a la acumulación de la señal fuera de fase. Se espera que un incremento del número de copias por DNB y de fluoróforos por anticuerpo, combinado con una mayor reducción de la incorporación fuera de fase y de la pérdida de señal, produzca una mayor calidad o incluso lecturas más largas usando la química CoolMPS™, coincidiendo con la longitud de las lecturas de la secuenciación Sanger (500-700 bases).

Distribution of Base-Call Quality Scores. Secuenciacion Masiva en paralelo
Figura 5: Distribution of Base-Call Quality Scores

“Cuatro colores” de Secuenciación CoolMPS™ usando generadores de imagen de dos colores. Lecturas de secuenciación masiva más precisas.

En la secuenciación estándar de cuatro colores, cuatro fluoróforos con distintos colores son asignados a los cuatro tipos de bases. Una de las limitaciones de este sistema es el solapamiento de los espectros de color en los fluoroforos de uso más común y el requerimiento de estrechos filtros de paso para minimizar los niveles de los llamados cross-talk. Estos filtros de paso, además de añadir complejidad y coste, también restringen la suma de luz que puede ser recopilada por cada fluoróforo. Para superar este desafío la secuenciación con dos colores fue desarrollada utilizando dos fluoróforos que están espectralmente más separados para identificar las cuatro bases desde dos imágenes diferentes. Un inconveniente de esta tecnología es que una de las bases está típicamente asociada a un valor de intensidad nulo y otra de las bases está asociada a una mezcla de las dos intensidades, lo que aún puede resultar en el solapamiento de las bases, particularmente debido a intensidades bajas que puede dar error en el base-calling.

La química CoolMPS™ puede resolver muchos de estos problemas utilizando un sistema de imagen de dos colores, con su señal fluorescente limpia y fuerte, además de los bajos costes para obtener las cuatro imágenes (una por cada base) en dos pasos consecutivos con dos anticuerpos marcados con fluorescencia a la vez durante cada ciclo de secuenciación. Esto es nombrado como método de “secuenciación en cuatro colores” con generadores de imagen de dos colores (4CS2CI).

Se puede demostrar la calidad de la secuenciación usando este método. Se llevaron a cabo 100 ciclos de secuenciación SE usando un secuenciador DNBSEQ-G50, el cual se basa en la excitación y la captura de imagen de dos colores. Después de incorporar cuatro nucleótidos sin marcar, en la primera etapa de detección, solo anticuerpos para dos bases, A y G, marcados con los fluoróforos 1 y 2 respectivamente, se pudieron unir. Después de capturar la imagen, estos anticuerpos fueron rápidamente eliminados mediante una reacción de desplazamiento optimizada. Ahora, los anticuerpos para T y C, marcados con los fluoróforos 1 y 2 respectivamente se pueden unir. Luego se produce la captura de imagen una vez más, para obtener un total de cuatro imágenes distintas sin solapamiento. La detección de imagen de esta manera elimina eficazmente el solapamiento espectral y permite que cada base sea representada con un valor único e intenso.

En la siguiente tabla se puede observar las tasas de error estimadas en DNBs de alta calidad (un único DNB con suficientes copias por sitio) para secuenciación de cuatro colores con generadores de imagen de dos colores (4CS2CI) y secuenciación de cuatro colores con generadores de imagen de cuatro colores (4CS4CI). Como se espera, los resultados muestran la eliminación del llamado cross-talk de fluorescencia relacionado con las bases G y C, lo que lleva a una tasa de error media excepcionalmente baja para C (0.00045%) y G (0.00070%) en lecturas crudas. Esto es un error en 170kb, un orden de magnitud inferior que en secuenciadores estándar CoolMPS™ 4CS4CI. Las bases A y T marcadas con fluoróforo 1 muestran una reducción de error menor, debido a la iluminación no uniforme de ese fluororóforo en los generadores de imagen de dos colores usados para este experimento. Si el 0.0064% de las bases con Q<10 son convertidas a no-calls (1 no-call en 15kb), el error restante en 100 lecturas crudas sería cerca a 1 en 1Mb. En consecuencia, la química CoolMPS™ junto con el método 4CS2CI promote ofrecer la secuenciación masiva más exacta y eficiente.

Tasas de error estimadas en DNBs de alta calidad
Tabla 2: Tasas de error estimadas en DNBs de alta calidad

Discusión sobre la Secuenciación Masiva en paralelo (MPS)

Se ha demostrado, por primera vez, que la secuenciación de ADN utilizando la especificidad de la nucleobase natural reconocida con anticuerpos marcados con fluorescencia abarca lecturas de SE400 y PE150. Esta novedosa metodología, es lo suficientemente rápida para competir con otros métodos comerciales existentes de secuenciación masiva, basados en fluoróforos unidos covalentemente a las bases. También ofrece una alta precisión (1 error cada 20.000 bases crudas con un score de calidad >20) y, potencialmente, lecturas más largas y de menor coste.

Existen otros métodos que pueden detectar nucleótidos naturales pero estos métodos están limitados a la incorporación de no más de un nucleótido a la vez. Al tener cuatro anticuerpos específicos para las cuatro bases, esta química permite la incorporación al ADN de cuatro nucleótidos naturales en una reacción, proporcionando una mayor velocidad y minimizando la incorporación de errores.

Por otra parte, los anticuerpos son ampliamente usados tanto es test diagnósticos como en terapéuticos. Hay muchas herramientas desarrolladas para optimizar el proceso CoolMPS™, incluyendo el reemplazamiento de anticuerpos completos por versiones más pequeñas, por ejemplo, nanocuerpos expresados en un hospedador bacteriano que se unen eficientemente a los sitios de interés.

El reconocimiento de bases de ADN mediante anticuerpos ha sido descrito anteriormente (normalmente la detección de nucleótidos modificados químicamente). Los anticuerpos monoclonales usados en la química
CoolMPS™ no solamente reconocen los nucleótidos naturales (cualquiera de ellos, A, C, G o T), sino que también se unen a un pequeño grupo de bloqueo reversible en el extremo 3’ del nucleótido.

Los tiempos de unión de los anticuerpos son relativamente rápidos comparados con la mayoría de los procedimientos comunes que utilizan anticuerpos para la detección (ej. Western blot, ELISA). Con solo 30 segundos generan suficiente intensidad, que resulta en un bajo error de base-calling. Aumentar el tiempo de unión del anticuerpo tiene un efecto mínimo en el incremento de la intensidad, sugiriendo que los sitios de unión disponibles son ocupados en 30 segundos. Asimismo, 4ug/ml de anticuerpos son suficientes para unir a la mayoría de los nucleótidos. El uso de nucleótidos naturales junto con anticuerpos marcados con fluorescencia y específicos para cada nucleobase natural para la secuenciación masiva en paralelo provee de múltiples ventajas al proceso: alta precisión, lecturas más largas, alto rendimiento y un menor coste, entre otras.

Los nucleótidos sin marcar tienen una incorporación más eficiente. Ya que no hay fluoróforo unido al nucleótido, no habrá “scar” residual después de la eliminación del fluoróforo. Ya que el grupo de bloqueo en el extremo 3’ se convierte en un grupo hidroxil libre, la estructura del nucleótido resultante es idéntica al del nucleótido natural al final de cada ciclo de secuenciación.

Conclusiones de la Secuenciación Masiva en parelelo

La tecnología CoolMPS™ se encuentra en el primer ciclo de desarrollo y se esperan muchas mejoras futuras, como la reducción de la pérdida de la señal y de las lecturas fuera de fase, un marcado más intenso y una mayor reducción de las bases de baja calidad causada en parte debido a la pérdida parcial esporádica de señal verdadera. Una de las metas de la química
CoolMPS™ será conseguir una mejor incorporación de RTs sin marcar y una señal más fuerte de anticuerpos marcados para llegar a lecturas largas de alta calidad (ej. más de 500 bases). La implementación de una secuenciación alta y precisa de cuatro colores en generadores de imagen de dos colores es otro desarrollo futuro de la técnica.

Además de en los secuenciadores DNBSEQ libres de PCR, la química
CoolMPS™ puede ser usada en cualquier plataforma de secuenciación masiva, incluida las matrices clonales basadas en PCR (clusters de PCR). La combinación de la alta calidad y del coste bajo de la química CoolMPS™ , junto con la matriz de DNBs libre de PCR ha creado un novedoso avance en las plataformas de secuenciación masiva, que contribuirá al control sanitario basado en la genómica, lo cual requiere de métodos de secuenciación completos, precisos y asequibles.