Notas de Xiaobai sobre la carta de vida (1): algunos conocimientos básicos sobre secuenciación de alto rendimiento
A diferencia de la secuenciación de primera generación, NGS adopta una estrategia de secuenciación mientras se sintetiza. Las principales rutas técnicas están representadas por la tecnología 454 de Roche, Solexa de Illumina, la tecnología Hiseq y la tecnología Solid de ABI. Para mejorar la precisión de la secuenciación, es necesario amplificar mediante PCR varias copias de la misma plantilla para corregir el sesgo. Entonces, toda la secuenciación se divide en dos pasos: amplificación por PCR (una tecnología que puede copiar rápidamente una gran cantidad de fragmentos de ADN idénticos) y secuenciación. Sin embargo, el proceso de PCR aumentará la tasa de error de bits del sistema hasta cierto punto y los errores serán sesgados. Este es también uno de los problemas de la tecnología de segunda generación.
Los principales productos de Illumina incluyen secuenciadores MiSeq, secuenciadores HiSeq X Ten, secuenciadores Miseq FGx, secuenciadores de escritorio NextSeq 500/550, secuenciadores de escritorio MiniSeq, etc. , cubriendo diferentes necesidades de diferentes escenarios de aplicación.
Tecnología de secuenciación de segunda generación, como plataforma de secuenciación, costo de secuenciación, gastos de secuenciación, dificultades técnicas experimentales que requieren mucho tiempo, como construcción de bibliotecas, tasa de error, longitud de lectura (150-400 pb), carga de trabajo de análisis, etc., son para Satisfacer las mayores necesidades de investigación científica y promoverla en el diagnóstico médico no son pequeños obstáculos. Los errores y sesgos introducidos por el proceso de PCR pueden obstaculizar su aplicación a gran escala en el diagnóstico médico. La tecnología de tercera generación resuelve principalmente el problema de medición de longitud corta de la segunda generación.
La tecnología SMRT de PacBio, la tecnología de secuenciación de semiconductores IonTorrent de Life Technologies y la tecnología de secuenciación nanoporosa de una sola molécula de Oxford son representantes de la tercera generación de tecnología de secuenciación.
PacBio·SMR
El SMRT de PacBio todavía adopta la estrategia de secuenciación durante la síntesis, pero su ADN polimerasa súper activa logra una clave de longitud de lectura ultralarga (~1000 pb). La reacción se lleva a cabo en nanotubos, lo que facilita el propósito del paso ultraalto. El principio ZMW (agujero de guía de onda en modo cero) se utiliza para distinguir el fondo de las señales de fluorescencia en nanoporos ultrapequeños. Su velocidad de secuenciación es muy rápida, unos 10 dNTP por segundo. El problema actual es que la tasa de error de la secuenciación es demasiado alta (81-83), que es el mismo problema que la mayoría de las tecnologías de tercera generación deben resolver. Sin embargo, los errores son aleatorios y casi imparciales, lo que permite reducir la tasa de error mediante la corrección. Esta tecnología ya está en el mercado.
Oxford Nanomaterials
Sin embargo, el secuenciador MinlON de Nanopore utiliza tecnología de molécula única de nanoporos, que es una tecnología de secuenciación basada en señales eléctricas, a diferencia de otras señales ópticas. La tecnología de secuenciación es una innovación en comparación. . El núcleo de la tecnología es un nanoporo especial con enlaces moleculares, que se forma incrustando poros de proteínas en una membrana artificial. La aplicación de un voltaje a ambos lados de la membrana fuerza la corriente a través de los microporos. A medida que diferentes bases de ADN pasan a través del nanoporo, su efecto de bloqueo sobre la corriente afecta temporalmente la fuerza de la corriente que fluye a través del nanoporo.
Diferentes bases tienen distintos grados de impacto, y esta diferencia es capturada por componentes electrónicos sensibles para identificar el tipo de base que pasa. Esta tecnología tiene muchas ventajas, como lecturas largas (probablemente decenas de kb o incluso 100 kb), errores aleatorios en lugar de agrupaciones en ambos extremos de la lectura y alto rendimiento. La empresa también está intentando simplificar el proceso de preparación de muestras. En teoría, el ARN también se puede secuenciar directamente y mediante esta técnica se pueden detectar citosinas metiladas. Sin embargo, no puede lograr un control ideal de la tasa de error ni convertirse en un obstáculo para su entrada en el mercado.
Life Technology
IonTorrent utiliza chips semiconductores para fijar hebras de ADN en los micropocillos del chip. Si las bases pueden combinarse con la cadena plantilla durante la síntesis de ADN, las bases agregadas a AGCT secuencialmente liberarán iones de hidrógeno. Este ion de hidrógeno hace que cambie el valor de HP local. Después de que el sensor de iones detecta el cambio en el valor del pH, convierte la señal química en información de secuencia. Sin embargo, si la cadena de ADN tiene dos bases idénticas consecutivas, la señal registrada se duplica y puede identificarse. Si hay una discrepancia, no se registrarán cambios. Dado que esta tecnología no implica excitación de fluorescencia ni fotografía, el tiempo de funcionamiento se reduce considerablemente (sólo unas pocas horas. No requiere fuente de luz láser, sistema óptico, sistema de fotografía ni marcadores fluorescentes, evitando así errores provocados por estos enlaces). . Sin embargo, su longitud de lectura no es demasiado larga (200 pb). Cuando se encuentran múltiples bases idénticas consecutivas, los cambios fuertes de pH provocarán errores.
La secuenciación de novo también se denomina secuenciación de novo: puede secuenciar una especie sin ningún dato de secuencia existente y utilizar análisis bioinformático para empalmar y ensamblar las secuencias para obtener información sobre el mapa del genoma.
La secuenciación del exoma se refiere a un método de análisis del genoma que captura y enriquece el ADN del exoma de todo el genoma mediante tecnología de captura de secuencias y luego realiza una secuenciación de alto rendimiento. La secuenciación del exoma es más barata que la resecuenciación del genoma y tiene grandes ventajas en el estudio de SNP e Indels de genes conocidos, pero no puede estudiar variaciones estructurales del genoma, como la rotura y la recombinación de los cromosomas.
El objeto de investigación del magnetismo es toda la comunidad microbiana. En comparación con la investigación tradicional de una sola bacteria, tiene muchas ventajas, dos de las cuales son muy importantes: (1) Los microorganismos generalmente nacen en pequeños hábitats en forma de comunidades, y muchas de sus características se basan en todo el entorno comunitario y entre los individuos. interacciones, por lo que la investigación metagenómica puede descubrir sus características mejor que la investigación individual (2) La metagenómica puede estudiar microorganismos que no pueden aislarse y cultivarse en el laboratorio sin aislar bacterias individuales;
Polimorfismo de un solo nucleótido, SNP o variación de un solo nucleótido SNV. Polimorfismos causados por variaciones de un solo nucleótido (sustituciones, inserciones o eliminaciones) en la misma posición en la secuencia de ADN genómico entre individuos. Los nucleótidos individuales en la misma posición en las secuencias de ADN genómico de diferentes especies e individuos son diferentes. Los loci y secuencias de ADN con tales diferencias pueden usarse como marcadores para el mapeo del genoma. Puede haber un solo polimorfismo de nucleótido por cada 1000 nucleótidos en el genoma humano, algunos de los cuales pueden estar relacionados con una enfermedad, pero la mayoría puede no estar relacionado con una enfermedad. Los polimorfismos de un solo nucleótido son una base importante para estudiar la variación genética en familias humanas y cepas de animales y plantas. Cuando se estudia la variación del genoma del cáncer, las variaciones específicas de un solo nucleótido en el cáncer en comparación con el tejido normal son mutaciones somáticas llamadas SNV.
Pequeños fragmentos en el genoma (
Cuando se elimina un fragmento del genoma o se empalma el transcriptoma, durante la secuenciación, cuando se realizan lecturas que abarcan el sitio de eliminación y el sitio de empalme Cuando se envía de regreso a En el genoma, una lectura se divide en dos fragmentos y se asocia a diferentes regiones. Estas lecturas se denominan lecturas empalmadas suavemente y desempeñan un papel importante en la identificación de variaciones estructurales cromosómicas y la integración de secuencias extrañas. p>Debido a que la mayoría de las lecturas de secuenciación son cortas, una sola lectura puede coincidir con múltiples ubicaciones en el genoma, lo que hace imposible distinguir su verdadera ubicación de origen. Algunas herramientas se basan en modelos estadísticos, como esta. Las lecturas se asignan a regiones. con más lecturas.
El software de empalme se basa en regiones superpuestas entre lecturas, y las secuencias empalmadas resultantes se denominan contigs.
?
Después de secuenciar el genoma desde cero y obtener los cóntiges mediante lectura y empalme, a menudo es necesario construir una biblioteca de 454 pares o una biblioteca de pares Illumina Mate para obtener dos fragmentos de un tamaño determinado. (como secuencia de 3 Kb, 6 Kb, 10 Kb, 20 Kb durante la lectura). Con base en estas secuencias, podemos determinar las relaciones de orden entre algunos contigs, y estos contigs de orden conocido forman andamios. ?
Después del empalme, las lecturas darán como resultado una cantidad de contigs de diferentes longitudes. Todas las longitudes de contig se sumaron para obtener la longitud total de contig. Luego ordene todos los contigs de más largo a más corto, por ejemplo, contig 1, contig 2, contig 3... contig 25. Los contigs se agregan en este orden. Cuando la longitud agregada alcanza la mitad de la longitud total del contig, la última longitud del contig agregada es el contig N50. Por ejemplo, cuando conti 1 conti 2 conti 3 Conti4 = longitud total de conti * 1/2, la longitud de conti 4 es ContiN50. El contig N50 se puede utilizar como estándar para juzgar la calidad del ensamblaje del genoma. ?
La definición de andamio N50 es similar a la definición de contig N50. El conjunto de costura contig dio como resultado una serie de andamios de diferentes longitudes. Sume todas las longitudes del andamio para obtener la longitud total del andamio. Luego clasifique todos los andamios de largo a corto, como andamio 1, andamio 2, andamio 3................................. ................................................. ................ .................................... ............................. ............Agregue los andamios en este orden. Cuando la longitud agregada alcanza la mitad de la longitud total del andamio, la longitud agregada final del andamio es N50. Por ejemplo: cuando andamio 1 andamio 2 andamio 3 andamio 4 andamio 5 = longitud total del andamio * 1/2, la longitud del andamio 5 es el andamio N50. Scaffold N50 se puede utilizar como estándar para juzgar la calidad del empalme del genoma. ?
La profundidad de secuenciación se refiere a la relación entre el número total de bases obtenidas mediante la secuenciación y el tamaño del genoma que se va a probar. Suponiendo que el tamaño de un gen es 2M y la profundidad de secuenciación es 10X, la cantidad total de datos obtenidos es 20M. La cobertura se refiere a la proporción de secuencias obtenidas mediante secuenciación en todo el genoma. Debido a la presencia de estructuras complejas como GC alto y secuencias repetitivas en el genoma, las secuencias finalmente ensambladas mediante secuenciación a menudo no pueden cubrir ciertas áreas. Esta situación se denomina brecha. Por ejemplo, si se secuencia un genoma bacteriano y la cobertura es 98, todavía hay 2 regiones de secuencia que no se han secuenciado.
Recopila transcripciones de datos de secuenciación. Existen dos métodos de ensamblaje: 1. Construcción desde cero; 2. Reconstrucción con genoma de referencia. Entre ellos, el ensamblaje de novo se refiere a conectar fragmentos leídos superpuestos en secuencias más largas sin depender de un genoma de referencia, y luego unirlos en contigs y andamios después de una extensión continua. Las herramientas más utilizadas incluyen Tinder, Across the Abyss, Trinity, etc. Reconstruir con el genoma de referencia significa primero pegar las lecturas en el genoma y luego obtener las transcripciones en el genoma a través de la cobertura de las lecturas y la información sobre los sitios de conexión. Las herramientas más utilizadas incluyen escrituras y gemelos.
La Genómica Comparada es una disciplina basada en el mapeo y secuenciación del genoma que comprende la función de los genes, el mecanismo de expresión y la evolución de las especies mediante la comparación de genes y estructuras genómicas conocidas. Utilizando la homología de secuencias y estructuras codificantes entre genomas de organismos modelo y genomas humanos, se pueden clonar genes de enfermedades humanas, se pueden revelar las funciones genéticas y los mecanismos moleculares de las enfermedades, y se pueden revelar las relaciones evolutivas de las especies y la estructura interna del genoma. dilucidado.
P30 significa que la confiabilidad de identificación de una base es igual a 99,9, o la probabilidad de error es 0,1. Q20 significa que la confiabilidad de la llamada base es igual a 99. El volumen de datos Q30 se refiere a la suma de datos en un lote de datos con una calidad superior o igual a Q30.
PF significa filtro de paso. En otras palabras, la calidad es aceptable. Las secuencias de instrumentos de Illumina calificarán automáticamente la confiabilidad de la calidad de las lecturas (secuencias). Si la confianza de identificación de dos bases en las primeras 25 bases es inferior a 0,6 es el criterio de PF. Si hay dos o más datos de baja calidad en las primeras 25 bases, la lectura se considerará no calificada y el PF no pasará. De lo contrario, pasa la inspección de calidad.
PF es un estándar de inspección de calidad reconocido internacionalmente. Para la resecuenciación del genoma y la secuenciación del exoma de mamíferos, garantizamos que la calidad de los datos de Q30 sea superior a 80. Para la secuenciación de ARNm y la secuenciación de ARNm, nos aseguramos de que la calidad de los datos del carril de control sea superior a 80 de Q30.
En general:
Para la resecuenciación del genoma y la secuenciación del exoma de mamíferos, la proporción de GC es aproximadamente 40 y la proporción de Q30 es 80 ~ 95.
La proporción de RNA-seq a GC es de alrededor de 50 y la proporción de Q30 es ~80. Si el poli(A) es particularmente alto, el Q30 será menor;
SmRNA-seq, debido a que hay muchas lecturas y solo queda una cadena de A, la calidad será menor. Nuestro resultado experimental Q30 es 70~75.
Los secuenciadores de Illumina ofrecen una alta salida de datos y la más alta calidad de datos. Debido al uso de dNTP fluorescentes agrupados en los extremos, no se producen errores de lectura de marco al medir homopolímeros (homopolímeros de bases, como una cadena de 4T:tttt).
Roche 454 utiliza el principio de secuenciación de pirosecuenciación, que libera luz hidrolizando el pirofosfato producido durante la síntesis de ADN, y lee la secuencia midiendo esta luz. La ventaja es que la duración de la lectura es la más larga. Pero la producción de datos es la más baja.
El torrente de iones, que incluye PGM y protones, obtiene la secuencia midiendo los cambios de pH provocados por los iones de hidrógeno liberados durante la síntesis de ADN. La ventaja es que es el más rápido. Se tarda entre 3 y 4 días en llegar a la computadora y de 2 a 4 horas.
Los sólidos utilizan hibridación, reacciones de ligación y mediciones de fluorescencia. Debido a la hibridación, la velocidad es lenta y la longitud es corta. De hecho, ya ha sido eliminado.
PacBio es la tercera generación de secuenciación, que es la secuenciación de una sola molécula. En la actualidad, la longitud de la secuenciación puede alcanzar más de 1 KB y se pueden detectar modificaciones en las secuencias de ADN. Pero su desventaja es que la precisión de la secuenciación es muy baja. La precisión de secuenciación actual es de sólo 80 a 90 por base. Por otro lado, el rendimiento es pequeño, con 70.000 lecturas a la vez.
Referencia de la pieza: /p/ACD 38 E4 a 1
En 1977, el químico británico Frederic Sanger inventó el método de terminación de cadena didesoxi. Esta tecnología y el método de degradación química inventado por W. Gilbert se denominan tecnología de secuenciación de primera generación. Sanger ganó el Premio Nobel de Química dos veces, en 1958 y 1980. Fue la cuarta persona en ganar el Premio Nobel dos veces y la única persona en ganar el Premio de Química dos veces. El primer premio se ganó por la secuenciación de la secuencia de aminoácidos de la insulina, lo que demuestra que la proteína tiene una estructura clara, y el segundo premio se ganó por la invención del método de terminación de la cadena didesoxi: el método Sanger. Utilizando esta técnica, determinó con éxito la secuencia del genoma del fago φ-X174. Sanger es también un científico legendario. El Instituto Sanger, que desempeña un papel importante en la investigación del genoma, fue fundado por Daniel.
Las características de la tecnología de secuenciación de primera generación son que la longitud de lectura de secuenciación puede alcanzar los 1000 pb y la precisión puede alcanzar los 99,999. Sin embargo, las deficiencias del alto costo de secuenciación y el bajo rendimiento afectan seriamente su aplicación real a gran escala. Sin embargo, debido a su alta precisión, la secuenciación contemporánea sigue siendo el estándar de oro para las pruebas genéticas y el medio principal para evaluar y validar los resultados de la secuenciación de próxima generación. En ese momento, la tecnología de secuenciación de una generación hizo posible la investigación del genoma, y el vasto proyecto del genoma humano estaba a punto de lanzarse con gran fanfarria. En 1977, el químico británico Frederic Sanger inventó el método de terminación de cadena didesoxi. Esta tecnología y el método de degradación química inventado por W. Gilbert se denominan tecnología de secuenciación de primera generación.
Sanger ganó el Premio Nobel de Química dos veces, en 1958 y 1980. Fue la cuarta persona en ganar el Premio Nobel dos veces y la única persona en ganar el Premio de Química dos veces. El primer premio se ganó por la secuenciación de la secuencia de aminoácidos de la insulina, lo que demuestra que la proteína tiene una estructura clara, y el segundo premio se ganó por la invención del método de terminación de la cadena didesoxi: el método Sanger. Utilizando esta técnica, determinó con éxito la secuencia del genoma del fago φ-X174. Sanger es también un científico legendario. El Instituto Sanger, que desempeña un papel importante en la investigación del genoma, fue fundado por Daniel.
Las características de la tecnología de secuenciación de primera generación son que la longitud de lectura de secuenciación puede alcanzar los 1000 pb y la precisión puede alcanzar los 99,999. Sin embargo, las deficiencias del alto costo de secuenciación y el bajo rendimiento afectan seriamente su aplicación real a gran escala. Sin embargo, debido a su alta precisión, la secuenciación contemporánea sigue siendo el estándar de oro para las pruebas genéticas y el medio principal para evaluar y validar los resultados de la secuenciación de próxima generación. En ese momento, la tecnología de secuenciación de una generación hizo posible la investigación del genoma, y el vasto proyecto del genoma humano estaba a punto de lanzarse con gran fanfarria.