Red de conocimientos sobre prescripción popular - Conocimiento dental - Cómo implementar la clasificación de subtipos de datos de perfil de expresión mediante agrupación de coherencia

Cómo implementar la clasificación de subtipos de datos de perfil de expresión mediante agrupación de coherencia

?Realice agrupación por consenso (Consensus Clustering) en perfiles de expresión genética a través del paquete ConsensusClusterPlus

En el análisis ómico de muestras grandes, a menudo se necesitan discusiones Tipificación molecular de muestras. El método más común en el artículo es utilizar un método llamado Consensus Clustering para agrupar el transcriptoma, los perfiles del proteoma y otros datos. Finalmente, las muestras se pueden dividir en diferentes grupos. Existen diferencias obvias en patrones moleculares como el transcriptoma y el proteoma. entre muestras en cada grupo, pero los patrones moleculares de las muestras dentro de cada grupo son relativamente similares. De esta manera, se puede lograr el propósito de la tipificación molecular de una cohorte de muestras grande.

Por ejemplo, en el artículo "Paisaje proteogenómico del cáncer de pulmón de células escamosas", el autor se basó en los datos proteómicos cuantitativos de 108 muestras de carcinoma de células escamosas de pulmón y utilizó una agrupación consistente para clasificar 108 tejidos tumorales. se divide en 5 subtipos moleculares, a saber (1) subtipo inflamatorio A, (2) subtipo inflamatorio B, (3) subtipo redox A, (4) subtipo redox B y (5) subtipo mixto. Y después de obtener el subtipo molecular, las características detalladas del subtipo se describirán y discutirán más adelante.

Bien, ahora supongamos que también tenemos un lote similar de colas de muestras ómicas y también esperamos lograr la tipificación de transcriptomas, proteomas o perfiles de modificación de proteínas mediante una agrupación consistente. Este tutorial presenta el método para lograr una agrupación en clústeres consistente a través del paquete ConsensusClusterPlus del lenguaje R.

1 Prepare el conjunto de datos del perfil de expresión

Primero prepare una matriz de expresión genética y léala en R. Puede ser un transcriptoma (como RNA-seq, datos de chip, etc.), un proteoma cuantitativo o modificaciones como la fosforilación y glicosilación de proteínas. El tipo específico de datos que se utilizarán depende de las cuestiones reales de interés. Si prefiere utilizar el transcriptoma para escribir, utilice perfiles de expresión de ARN; si prefiere utilizar el proteoma para escribir, utilice perfiles cuantitativos de proteínas; si le preocupa más escribir modificaciones de proteínas, utilice perfiles ómicos epigenéticos.

Esta vez tomamos el conjunto de datos del chip del paquete Biobase como ejemplo para mostrar cómo realizar análisis de agrupamiento consistentes en perfiles de expresión genética. Primero, echemos un vistazo a los datos de ejemplo. Este conjunto de datos contiene 26 muestras y los perfiles de expresión de 500 genes.

2 Realice la agrupación en clústeres a través del paquete ConsensusClusterPlus

Hay muchos paquetes de R que pueden realizar una agrupación en clústeres consistente, pero los principios básicos son los mismos. Aquí tomamos el método del paquete ConsensusClusterPlus como ejemplo.

El proceso incluye aproximadamente dos pasos: (1) estandarizar los datos del perfil de expresión y (2) realizar agrupaciones en los datos estandarizados. Después de ejecutar la función, se generará una carpeta (sin nombre con "ejemplo" en este ejemplo) en el directorio de trabajo actual del lenguaje R, que almacena el gráfico de resultados de agrupación.

3 Descripción del resultado

En este ejemplo, especificamos el número máximo de clusters que se espera dividir a través del parámetro "maxK = 4", es decir, comenzando desde el cluster 2 y aumentando uno por uno Se prueba el número de categorías hasta alcanzar el número máximo especificado de grupos, 4.

En los resultados, estas dos cifras pueden ayudarnos a evaluar la selección del número de clusters más adecuado. Necesitamos considerar ambos criterios al mismo tiempo, eligiendo una curva con una pendiente de disminución de CDF más pequeña según la imagen de la izquierda y un valor de CDF más alto según la imagen de la derecha. En términos generales, las tendencias de estos dos estándares son opuestas, es decir, debemos tratar de garantizar que la disminución del CDF no sea tan drástica y que el valor del CDF no pueda ser demasiado pequeño.

Aquí parece que k=3 es el más adecuado. Por supuesto, a veces no es necesario seguir este método, y algunos estudios también han elegido otros estándares de valor k óptimos de acuerdo con sus propios propósitos de investigación.

Estas figuras muestran la agrupación de muestras bajo diferentes valores de k (el número de agrupaciones divididas). En el ejemplo, parece que k=3 es relativamente mejor.

Esta figura muestra los grupos de agrupamiento a los que pertenece cada muestra bajo diferentes valores de k (el número de grupos de agrupamiento divididos).