Alfabetización sobre secuenciación unicelular: ¿qué es? ¿Por qué? ¿Cómo podría ser?
En pocas palabras, la secuenciación unicelular es una tecnología de secuenciación que obtiene la información genética de una sola célula y no parece ser de mucha ayuda. Para comprender este problema, primero echemos un vistazo a lo que puede hacer la tecnología de secuenciación.
Actualmente la secuenciación puede responder a las siguientes seis preguntas:
1. Secuencia de ADN: cómo ordenar los ATCG y la abundancia de cada secuencia;
2. modificaciones: como metilación, hidroximetilación y diversas modificaciones de histonas;
3. Secuencia de ARN: cómo se organiza la AUCG y abundancia de cada secuencia;
4. como la modificación m6A, que ha sido muy popular en los últimos años;
5 Estructura de cromatina: 3C, 4C, 5C y otras C;
6. Localización de daños en el ADN, interacciones entre proteínas, etc.
La secuenciación unicelular consiste en encontrar formas de responder a las seis preguntas anteriores a nivel de una sola célula.
2. ¿Por qué utilizar la secuenciación unicelular?
Si planteas esta pregunta de otra manera, sería: ¿por qué debemos utilizar la secuenciación unicelular?
No hay dos hojas exactamente iguales en el mundo. Para los organismos multicelulares, existen diferencias entre las células. Por supuesto, esta diferencia puede ser grande o pequeña.
Por ejemplo, cuando un óvulo fertilizado se divide de una célula, forma gradualmente un blastocisto y finalmente se convierte en un individuo, las diferencias entre las células se harán cada vez más grandes: algunas se diferencian en neuronas y otras se diferencian. en neuronas. Cada músculo esquelético expresa información genética diferente y realiza diferentes funciones fisiológicas.
Por ejemplo, en el tejido tumoral, existen diferencias en la información genética, como las células en el centro del tumor, las células alrededor del tumor, las células con metástasis en los ganglios linfáticos y las células con metástasis lejanas, así como sus genomas y transcriptomas. Esta diferencia puede determinar clínicamente si el tumor responde a una determinada terapia.
Se trata de la heterogeneidad de la información genética.
Los métodos de investigación tradicionales se llevan a cabo a nivel multicelular. Por lo tanto, el valor de la señal final es en realidad el promedio de múltiples células, lo que pierde información sobre la heterogeneidad. Para que todos comprendan este problema de manera más intuitiva, también podríamos echar un vistazo a la siguiente imagen:
Para detectar la expresión de proteínas, podemos utilizar la transferencia Western y la citometría de flujo. Sin embargo, utilizando Western blot, es imposible distinguir la situación anterior: ¿la proteína objetivo se expresa fuertemente en el 10% de las células, se expresa moderadamente en el 50% de las células o se expresa débilmente en todas las células? Porque al final la electroforesis mostró una banda de intensidad similar. Sin embargo, las situaciones anteriores se pueden distinguir si la intensidad de la fluorescencia se mide a nivel unicelular mediante citometría de flujo.
Del mismo modo, la secuenciación unicelular puede detectar información heterogénea que no se puede obtener mediante la secuenciación de muestras mixtas. Esto llevará todo el campo de la genética a una nueva dimensión.
3. ¿Cómo implementar la secuenciación unicelular?
Actualmente existen dos estrategias principales para lograr la secuenciación unicelular.
La primera forma, como la mayoría de la gente imagina actualmente, es aislar células individuales, construir de forma independiente una biblioteca de secuenciación y, finalmente, secuenciar. Podemos lograr esto mediante citometría de flujo (incluidos chips de microfluidos) o microdisección por captura láser (LCM). La citometría de flujo probablemente sea familiar para todos, por lo que no entraré en detalles. Se utiliza principalmente para muestras de células. Para muestras de secciones de tejido, las células individuales se obtienen principalmente mediante LCM. El principio se muestra en el diagrama esquemático siguiente.
Sin embargo, las células individuales se separan una por una y el rendimiento de la secuenciación separada es muy bajo, principalmente limitado por el costo. A medida que aumenta el número de células individuales que se van a analizar, el coste de la secuenciación aumenta casi linealmente. Por lo general, fabricar una docena o veinte baterías costará mucho dinero. Pero, ¿son suficientes estas decenas de células para explicar el problema?
Para superar esta dificultad, en los últimos años se ha adoptado una segunda estrategia: la identificación unicelular basada en códigos de barras. La idea principal es agregar una secuencia de ADN única a cada célula, de modo que cuando se secuencian, las secuencias que llevan el mismo código de barras se consideren de la misma célula. Esta estrategia puede medir información de cientos de celdas individuales mediante la creación de una base de datos a la vez.
Pero los protocolos para agregar códigos de barras a las células varían ampliamente según el tipo específico de secuenciación. Para el ARN (ARNm del transcriptoma), será más fácil de entender. Dado que se requiere la transcripción inversa antes de la secuenciación del ARNm, solo necesitamos agregar un código de barras al extremo 5 'del cebador poli T.
Consulte el siguiente esquema (del archivo DOI:10.1038/nprot.2016.154):
Primero, se encapsulan muestras de suspensión unicelular y perlas de hidrogel con código de barras en gotas de aceite mediante un chip de microfluidos. Después de la transcripción inversa en gotas de aceite, cada biblioteca de ADNc unicelular lleva un código de barras único (azul). Finalmente, secuenciaremos todas las bibliotecas de ADNc unicelulares juntas y luego usaremos el programa para reconocer los códigos de barras para distinguir las células individuales.
Si el objeto de secuenciación es ADN, como el genoma completo, es necesario agregar códigos de barras mediante otros métodos. En la actualidad, esto se logra principalmente mediante una transposasa Tn5 modificada de alta eficiencia.
La transposición genética se refiere al proceso en el que el ADN transposón "salta" de un sitio cromosómico a otro. En este proceso interviene la transposasa. La secuenciación del ADN unicelular aprovecha esta característica. El ADN con código de barras se ensambló previamente con transposasa Tn5 y luego las células y los complejos de transposición se encapsularon en gotitas de aceite mediante la tecnología de microfluidos descrita anteriormente. Luego, la enzima transposasa inserta el código de barras en el ADN genómico. Este proceso también se denomina etiquetado en la literatura.
Sin embargo, la complejidad de los códigos de barras basados en Tn5 (es decir, cuántos códigos de barras únicos puede haber) todavía es limitada. Para garantizar la eficiencia del marcado, el área del código de barras rojo en la imagen de arriba no puede ser demasiado larga. Al mismo tiempo, para evitar la identificación errónea causada por errores de secuencia (por ejemplo, una base se mide incorrectamente accidentalmente pero se considera como otro código de barras), y la complejidad del código de barras no es tan alta como 4 elevado a la enésima potencia, por lo que Es necesario introducir un mecanismo de corrección. No entraré en detalles. En términos generales, el Tn5 por sí solo sólo puede reconocer entre docenas y cientos de células individuales a la vez.
Para aumentar la complejidad, es decir, el número de celdas individuales que se pueden capturar a la vez, la solución actual es seguir la ruta de la indexación combinatoria. (Ver imagen a continuación, del archivo DOI:10.1038/nmeth.4154).
La idea principal es agregar etiquetas dos veces mediante una reacción de dos pasos. Primero, se coloca una suspensión de células individuales en una placa de varios pocillos y se agrega el primer código de barras a las células usando la transposasa Tn5, donde el código de barras en cada pocillo es diferente. Luego, las muestras se mezclan, una pequeña cantidad de células se clasifican en placas de múltiples pocillos que contienen cebadores de PCR y la construcción de la base de datos se realiza mediante citometría de flujo. Estos cebadores tienen una segunda ronda de códigos de barras. Por lo tanto, después de que Tn5 se transpone y se marca mediante PCR, la mayoría de las células pueden portar un código de barras único.
Después de leer esto, alguien debe haber descubierto un problema con esta solución. Por ejemplo, si se aíslan dos o más células naranjas en el primer pocillo durante la clasificación de flujo y luego se marcan en rojo con PCR, no se pueden distinguir las dos células individuales.
De hecho, un índice combinado puede tener una tasa de conflicto del 65.438+00%, es decir, es posible confundir dos celdas individuales con la misma celda. Este valor depende de la complejidad del primer paso del etiquetado (cuanto mayor es la complejidad, menor es la tasa de conflicto) y del número de celdas asignadas a cada hoyo al ordenar (cuanto menor es el número, menor es la tasa de conflicto). Sin embargo, la indexación combinada puede identificar miles de celdas individuales a la vez y aumentar el rendimiento de decenas a cientos. El resultado depende de la elección del experimentador.
Alfabetización sobre secuenciación unicelular: ¿qué es? ¿Por qué? ¿Cómo podría ser?