Análisis multivariado de ómicas simples|1.PCA y PLS-DA
Ilustramos PCA y sPLS-DA utilizando el conjunto de datos SRBCT.
Instalar y cargar el paquete mixOmics
Los datos de ejemplo son los datos estandarizados y listos para usar que vienen con el paquete mixOmics, de pequeños tumores de células azules redondas (SRBCT). El conjunto de datos incluye los niveles de expresión de 2308 genes de 63 muestras. Las muestras se dividieron en cuatro categorías: 8 casos de linfoma de Burkitt (BL), 23 casos de sarcoma de Ewing (EWS), 12 casos de neuroblastoma (NB) y 20 casos de rabdomiosarcoma (RMS).
El conjunto de datos srbct contiene el siguiente contenido:
$gene: un marco de datos con 63 filas y 2308 columnas. Niveles de expresión de 2308 genes en 63 muestras.
$class: Contiene la clasificación de cada tumor individual (***4 clases).
$gene.name: un marco de datos con 2308 filas y 2 columnas que contiene más información sobre el gen.
La realización de un análisis PCA preliminar sobre datos de expresión genética puede explorar las principales fuentes de variación de datos por primera vez. PCA es un análisis no supervisado y no proporciona información sobre la clase de tumor. Para comprender la cantidad de variación explicada, establecemos el número de componentes principales (ncomp = 10) en un número bastante grande. En PCA, el centrado hace que todos los genes tengan el mismo valor medio cero, lo que ayuda a centrarse en las diferencias entre muestras. El propósito del escalado es dar a todos los genes pesos similares en el análisis, porque los genes con una alta variación se considerarán influyentes en la PCA pero no necesariamente biológicamente relevantes.
El histograma anterior muestra que dos componentes son suficientes para explicar la mayor parte de la información de los datos).
En el siguiente gráfico de muestra, la muestra está representada por los dos primeros componentes principales y coloreada según el tipo de tumor. Aquí observamos que la principal fuente de variación puede no explicarse por el tipo de tumor. Tenga en cuenta que, dado que PCA no está supervisado, para fines de visualización, solo consideramos la información del tipo de muestra después de PCA.
Para el análisis discriminante, configuramos el factor Y para representar la categoría de pertenencia de cada muestra. En el proceso PLS-DA, el factor Y se convierte en una matriz virtual.
El modelo PLS-DA utiliza 10 componentes para evaluar el rendimiento y la cantidad de componentes necesarios para el modelo final (ver más abajo).
Como se puede ver en el gráfico de muestra, en comparación con el gráfico de muestra de PCA no supervisado, los cuatro tipos de tumores están claramente separados. Se dibujan elipses de confianza para cada clase para resaltar la fuerza de la distinción (el nivel de confianza está establecido en 95 de forma predeterminada, parámetro ellipse.level).
Antes de superponer el gráfico de muestra, el área prevista se puede visualizar calculando la superficie de fondo.
El rendimiento de clasificación del modelo PLS-DA se evaluó mediante una validación cruzada quíntuple repetida 10 veces. El número de repeticiones es necesario para garantizar una buena estimación de la tasa de error de clasificación (ya que el cv se determina de forma aleatoria). A partir de los resultados de rendimiento podemos decidir el número de componentes a elegir para el modelo PLS final.
En el gráfico de rendimiento, se puede ver que la tasa de error general y la tasa de error equilibrada (BER) son similares, con una fuerte disminución de 1 componente a 3 componentes. La tasa de error se estabiliza después de 6 componentes. Con ncomp = 6, la BER y la distancia máxima son suficientes para lograr un buen rendimiento (tasa de error de 0,06).