Comprensión profunda del papel del paquete R AUcell en el análisis de células individuales
Primero, echemos un vistazo a la introducción a AUcell.
AUCell puede identificar células con conjuntos de genes activos (como firmas, módulos de genes...) en una secuencia de ARN unicelular. datos. AUCell utiliza el "área bajo la curva" (AUC) para calcular si un subconjunto crítico del conjunto de genes de entrada está enriquecido entre los genes expresados de cada célula. La distribución de las puntuaciones AUC en todas las celdas permite la exploración de la expresión relativa de las características. Debido a que el método de puntuación se basa en clasificaciones, AUCell no se ve afectado por las unidades de expresión genética ni los procedimientos de normalización. Además, dado que las celdas se evalúan individualmente, se puede aplicar fácilmente a conjuntos de datos más grandes, agrupando la matriz de expresión según sea necesario.
Es decir, AUcell analiza si el conjunto de genes de interés está enriquecido en todas las células. La razón es muy simple. Echemos un vistazo al contenido principal del análisis.
Utilice AUcell. para análisis Dividido en tres pasos:
1. Construir las clasificaciones
2. Calcular el área bajo la curva (AUC)
3. Establecer los umbrales de asignación
Para cada célula, los genes se clasifican de mayor a menor valor. Los genes con el mismo valor de expresión se mezclan. Por lo tanto, los genes con expresión '0' se ordenan aleatoriamente al final de la clasificación. Es importante verificar que la mayoría de las células tengan al menos la cantidad de genes expresados/detectados que se usarán para calcular el AUC (aucMaxRank en calcAUC()). El histograma proporcionado por AUCell_buildRankings() permite verificar rápidamente esta distribución. exprMatrix) permite obtener solo el gráfico antes de construir las clasificaciones.
Aquí podemos ver que para cada gen, se clasifica de mayor a menor, es decir, cada gen en cada celda tiene una clasificación. Obtenga una matriz clasificada.
2. ¿Qué es la curva ROC?
El nombre completo de ROC es curva "Receiver Operating Characteristic" (característica operativa del receptor). Cambiamos el umbral de 0 al máximo en función de los resultados de predicción del alumno, es decir, cada muestra se predice como un ejemplo positivo al principio a medida que aumenta el umbral, la cantidad de ejemplos positivos predichos por el alumno se vuelve más pequeña. más pequeño hasta que Al final, ninguna de las muestras es una muestra positiva. En este proceso, los valores de dos cantidades importantes se calculan cada vez y se trazan como las coordenadas horizontal y vertical respectivamente, y se obtiene la "curva ROC".
** El eje vertical de la curva ROC es la "Tasa de Verdaderos Positivos" (TPR para abreviar), el eje horizontal es la "Tasa de Falsos Positivos" (FPR para abreviar), ** se basa en Los símbolos en la Tabla 1 del artículo anterior "Tasa de error, precisión, tasa de precisión, tasa de recuperación y medida F1" se definen como:
El gráfico que muestra la curva ROC se denomina "gráfico ROC". La Figura 1 muestra un diagrama esquemático. Obviamente, la línea diagonal corresponde al modelo de "conjetura aleatoria", mientras que el punto (0, 1) corresponde al "modelo ideal" que predice todos los ejemplos positivos como ejemplos verdaderos y todos los contraejemplos como contraejemplos verdaderos. .
Figura 1: Curva ROC y área AUC
En tareas de la vida real, generalmente se usa un número limitado de muestras de prueba para dibujar el gráfico ROC. En este momento, solo una cantidad limitada. El par de coordenadas numérico (frecuencia de muestreo verdadera, tasa de falsos positivos) no puede producir la curva ROC suave en la Figura 1, y solo puede dibujar la curva ROC aproximada que se muestra en la Figura 2. El proceso de dibujo es muy simple: dados m ejemplos positivos ym ejemplos negativos, ordene los ejemplos de acuerdo con los resultados de predicción del alumno y luego establezca el umbral de clasificación al máximo, es decir, prediga todos los ejemplos como ejemplos negativos. esta vez, los ejemplos verdaderos La tasa y la tasa de falsos positivos son 0, marque un punto en las coordenadas (0, 0). Luego, el umbral de clasificación se establece en el valor predicho de cada muestra por turno, es decir, cada muestra se clasifica como un ejemplo positivo por turno. Sean las coordenadas del punto marcador anterior
3. El significado de la curva ROC
(1) Función principal
1. La curva ROC se puede fácilmente detectar cualquier El efecto del umbral en el desempeño de generalización del alumno.
2. Ayuda a seleccionar el mejor umbral. Cuanto más cerca esté la curva ROC de la esquina superior izquierda, mayor será la tasa de recuperación del modelo. El punto de la curva ROC más cercano a la esquina superior izquierda es el mejor umbral con el menor número de errores de clasificación y el número total más bajo de falsos positivos y falsos negativos.
3. Se puede comparar el desempeño de diferentes alumnos. Trace las curvas ROC de cada alumno en las mismas coordenadas para identificar visualmente los pros y los contras. La curva ROC cerca de la esquina superior izquierda representa al alumno con mayor precisión.
(2) Ventajas
1. Este método es simple e intuitivo. La precisión del método de análisis se puede observar a través de diagramas y se pueden emitir juicios a simple vista. La curva ROC combina gráficamente la tasa de verdaderos positivos y la tasa de falsos positivos, que puede reflejar con precisión la relación entre la tasa de verdaderos positivos y la tasa de falsos positivos de una determinada máquina de aprendizaje, y es una representación completa de la precisión de la detección.
2. Ventajas en bioinformática: la curva ROC no tiene un umbral fijo, lo que permite la existencia de estados intermedios, lo que ayuda a los usuarios a combinar conocimientos profesionales, sopesar el impacto de los diagnósticos erróneos y erróneos, y elegir un mejor umbral. para el diagnóstico.
4. El origen del área AUC
Si las dos curvas ROC no se cruzan, podemos determinar qué curva está más cerca de la esquina superior izquierda y qué curva representa al mejor alumno. actuación. Sin embargo, en las tareas reales, la situación es muy complicada. Si dos curvas ROC se cruzan, en general es difícil concluir quién es mejor y quién es peor. En muchas aplicaciones prácticas, a menudo queremos distinguir el rendimiento alto y bajo del alumno. Introduzca aquí el área de las AUC.
Al comparar alumnos, si la curva ROC de un alumno está completamente "envuelta" por la curva de otro alumno, se puede concluir que el rendimiento de este último es mejor que el del primero si; Cuando las curvas ROC de los dos dispositivos se cruzan, en general es difícil concluir cuál es mejor y cuál es peor. Si se debe hacer una comparación en este momento, una base de juicio más razonable es comparar el área bajo la curva ROC, es decir, AUC (área bajo la curva ROC), como se muestra en la Figura 1 y la Figura 2.
5. ¿Qué es el área AUC?
Se forma conectando los puntos en secuencia. Consulte la Figura 2, luego el AUC se puede estimar como la Fórmula 3.
6. La importancia del área AUC
AUC es un índice de evaluación para medir la calidad de un modelo de dos clasificaciones, que indica la probabilidad de que el ejemplo positivo previsto se clasifique al frente. del ejemplo negativo.
Al ver esto, ¿está confundido? Según la definición y el método de cálculo de AUC, ¿cómo se relaciona con la probabilidad de que el ejemplo positivo predicho se clasifique frente al ejemplo negativo? Es difícil entender el significado de AUC a partir de la definición y el método de cálculo. De hecho, el AUC está estrechamente relacionado con la prueba U de Mann-Whitney. Explicado desde la perspectiva de la estadística U de Mann-Whitney, el AUC consiste en seleccionar aleatoriamente una muestra de todas las muestras positivas, seleccionar aleatoriamente una muestra de todas las muestras negativas y luego predecir las dos muestras aleatorias de acuerdo con el alumno y dividir la muestra positiva en La probabilidad p 1 de predecir un ejemplo positivo, la probabilidad p 2 de predecir una muestra negativa como un ejemplo positivo, p 1 gt la probabilidad de p 2 es igual a AUC; Entonces, el AUC refleja la capacidad del clasificador para clasificar muestras. Según esta explicación, si clasificamos las muestras de forma completamente aleatoria, el AUC debería estar cercano a 0,5.
También vale la pena señalar que el método de cálculo de AUC también tiene en cuenta la capacidad del alumno para clasificar ejemplos positivos y negativos. En el caso de muestras desequilibradas, aún puede realizar una evaluación razonable del clasificador. El AUC no es sensible a si la categoría de muestra está equilibrada, lo cual es una de las razones por las que el AUC se suele utilizar para evaluar el desempeño de un alumno en muestras no equilibradas. Por ejemplo, en el escenario de predicción de cáncer, se supone que las muestras sin cáncer son ejemplos positivos y las muestras con cáncer son ejemplos negativos. La proporción de ejemplos negativos es muy pequeña (aproximadamente 0,1). Se puede predecir como ejemplos positivos. Puede obtener una precisión de 99,9. Pero si usa AUC y predice todas las muestras como ejemplos positivos, TPR es 1 y FPR es 1. En este caso, el valor AUC del alumno será igual a 0,5, evitando con éxito los problemas causados por el desequilibrio de la muestra.
Finalmente, analicemos: ¿Se puede utilizar la curva ROC para medir el rendimiento del modelo en problemas de clasificación múltiple?
Según tengo entendido: la curva ROC no tiene sentido cuando se usa en múltiples clasificaciones. Sólo cuando Positivo y Negativo son igualmente importantes en las dos categorías, la evaluación de la curva ROC es adecuada. Si realmente necesita utilizar la curva ROC en un problema de clasificación múltiple, puede convertirla en múltiples problemas "uno a muchos". Es decir, uno de ellos se considera un ejemplo positivo, los demás se tratan como ejemplos negativos y se dibujan múltiples curvas ROC.
Volvamos al segundo paso de nuestro análisis bioinformático, el cálculo del AUC
Para determinar si el conjunto de genes está enriquecido en la parte superior del ranking de genes para cada célula, AUCell utiliza el “Área bajo la curva” (AUC) de la curva de recuperación.
Para calcular el AUC, de forma predeterminada solo se utilizan los 5 primeros genes en la clasificación (es decir, verifica si los genes en el conjunto de genes o la firma están entre los 5 primeros). Esto permite una ejecución más rápida en conjuntos de datos más grandes y reduce el efecto del ruido en la parte inferior de la clasificación (por ejemplo, cuando muchos genes pueden estar vinculados a 0 recuentos). tener en cuenta se puede modificar con el argumento aucMaxRank Para conjuntos de datos donde la mayoría de las células expresan muchos genes (por ejemplo, un conjunto de datos filtrado), o estos tienen valores de expresión altos, podría ser bueno aumentar este umbral. Verifique el histograma proporcionado por AUCell_buildRankings para obtenerlo. una estimación de dónde se encuentra este umbral dentro del conjunto de datos.
Aquí tenemos una comprensión más profunda Después de clasificar los genes de una célula, obtenemos la siguiente imagen:
En cuanto a la selección. de conjuntos de genes, que se pueden utilizar para estudiar el análisis de características tumorales con la ayuda de Hallmark.