Análisis CNV unicelular
Estadísticamente, CopyKAT combina métodos bayesianos con agrupamiento jerárquico para calcular la distribución del número de copias del genoma de células individuales y definir estructuras clonales a partir de datos del transcriptoma unicelular de Qualcomm.
Primero, la matriz de expresión génica del identificador molecular único (UMI) de los datos del transcriptoma unicelular se utiliza como entrada de CopyKAT, se clasifican según sus coordenadas genómicas y la disposición de las Los genes están anotados. Luego se utilizó la transformación de Freeman-Tukey para estabilizar la varianza y se utilizó un modelado lineal dinámico polinómico para corregir los valores atípicos en la matriz de recuento de UMI unicelular.
El siguiente paso es establecer una subpoblación de células diploides normales altamente confiable, que pueda usarse para inferir el valor inicial del número de copias de células diploides normales. Para ello, los investigadores agruparon todas las células individuales en varios subgrupos pequeños y utilizaron un modelo de mezcla gaussiana para estimar la varianza de cada clasificación. Mediante estrictos criterios de clasificación, el grupo con la varianza estimada más pequeña se definió como "células diploides estándar".
Para detectar puntos de ruptura cromosómicas, integraron un modelo de Poisson-gamma y una iteración de Monte Carlo de la cadena de Markov para generar medias posteriores para cada ventana genética, y luego aplicaron la prueba de Kolmogorov-Smirnov para fusionar medias que no eran significativas. Luego se calcularon ventanas de diferencias adyacentes para cada ventana como la media posterior de todos los genes que cruzan puntos de ruptura cromosómicos adyacentes en cada célula.
? :La entrada CNV son datos de recuento sin procesar. En la literatura se recomienda que no hay diferencia entre usar datos de recuento y datos posteriores a los registros para el análisis (tanto copyKAT como inferCNV lo tienen), pero aun así se recomienda utilizar datos de recuento ya que normalizan los registros mismos.
CopyKAT no requiere células de referencia normales/malignas para el análisis de CNV. Determina a partir del conjunto de datos qué células normales son las más cercanas a diploides y, utilizando las células normales como referencia, otras células infieren variaciones de CNV en comparación con las células normales.
La estructura de cnv obtenida en el paso anterior:
Las neuronas se dividen en células malignas y no malignas. Se observaron 23 células no malignas y 91 células malignas.
Se pueden utilizar subconjuntos para extraer células malignas para su posterior análisis.