Primera parte de la serie de temas sobre ARN unicelular: Detalles importantes del control de calidad en la secuenciación de ARN unicelular (Parte 2)
El núcleo de la secuenciación unicelular es la reducción y agrupación de la dimensionalidad de t-SNE. Entonces el control de calidad antes de realizar estas tareas se relaciona con el éxito o fracaso de todo el análisis. En este artículo, continuaré informándoles sobre el control de calidad de las células individuales.
El núcleo de todo el análisis de células individuales es en realidad determinar el tipo/linaje celular. El paso previo es el control de calidad de los datos (QC). Después de obtener la matriz de expresión, realizaremos la normalización de datos, la detección de conjuntos de genes y la eliminación del efecto por lotes. Luego, se utilizan el análisis de componentes principales y t-SNE para la reducción de dimensionalidad. Si se encuentran algunos problemas durante este proceso, eliminaremos algunas celdas y luego volveremos a controlar la calidad y reduciremos la dimensionalidad.
En términos generales, los puntos de control son los siguientes:
Una tasa de comparación baja o un número bajo de lecturas pueden ser la razón para crear la base de datos. El bajo número de lecturas puede estar relacionado con la formación de más dímeros de cebador, y la baja tasa de alineación suele ser el motivo de la construcción de la biblioteca.
Si hay muy pocas secuencias de ARN insertadas, puede indicar directamente que hay un fallo en la base de datos. Si el aumento es normal pero las células tienen menos secuencias de ARN, puede deberse a que las células mismas son pequeñas o a que fueron destruidas antes de que se creara la base de datos.
El número de genes detectados está directamente relacionado con el tamaño celular. Si se detectan demasiados genes (UMI), es probable que en esta gotita haya muchas células, pero no se puede descartar que esta célula sea muy grande. Como se muestra a continuación, tener demasiados o muy pocos genes es anormal.
En general, el tamaño de las células y la proporción de ARN pico suelen correlacionarse positivamente con el número de genes detectados, como se muestra en la siguiente figura.
Si el ARN mitocondrial es demasiado alto, también indica daño celular. Porque cuando las células se dañan, el ARN citoplasmático escapará, pero el ARN mitocondrial no escapará porque está envuelto por la membrana mitocondrial. Entonces, cuando la membrana celular se daña, la proporción de ARN mitocondrial será alta. Nota: Este fenómeno también ocurre cuando las células sufren apoptosis o necrosis.
Cuando el ratio de ARN ribosomal es elevado puede ser porque hay más degradación del ARN en la célula. En transcriptomas unicelulares de longitud completa, se puede utilizar la preferencia 3' para detectar si existe una degradación extensa del ARN en la célula.
En la figura anterior, dibujamos el diagrama de distribución del número de genes en la célula, la tasa de comparación única, la tasa de comparación del cuerpo genético, la detección de picos y otros diagramas de distribución. y luego retire las células no calificadas y conserve las células que pasen todos los estándares de control de calidad anteriores para su análisis posterior.
Los algoritmos basados en PCA también se pueden utilizar para el control de calidad y encontrar células que claramente no estén agrupadas con otras células. Estas celdas se consideran celdas que no cumplen con los estándares de control de calidad, como se muestra en la siguiente figura.
Tenemos tantos métodos e indicadores para detectar células, entonces, ¿a qué debemos prestar atención?
El siguiente paso es discutir cómo detectar genes. En la mayoría de los casos, no utilizaremos todos los genes para el análisis de reducción de dimensionalidad, por lo que debemos seleccionar conjuntos de genes.
La configuración genética se basa en:
(1) Genes cuyos niveles de expresión son superiores a un cierto umbral
(2) Genes con cambios diferenciales en toda la célula muestras.
(3) Utilizar conocimientos previos para seleccionar genes.
(4) Genes diferenciales identificados en 4) secuenciación masiva de ARN.
(5) Cuando se reduce la dimensionalidad del T-SNE, solo se seleccionan las primeras PC.
En ocasiones la expresión de algunos genes es anormalmente alta, lo que afecta a la normalización de datos posteriores, y en ocasiones se considera filtrado. Por ejemplo, lncRNA nuclear, actina, hemoglobina, ARN mitocondrial, ARN ribosómico.
Algunos genes deben eliminarse según la situación. Los siguientes tres puntos deben decidirse según la situación del sujeto si conservarlos o eliminarlos.
El efecto discontinuo es el problema más difícil en la secuenciación de ARN unicelular. Los efectos de lote pueden ocurrir cuando:
Diferentes lotes de muestras pueden utilizar diferentes estándares de control de calidad. A través de los resultados del análisis de componentes principales, podemos ver si existe un efecto de lote obvio en los resultados.