Metabolómica 3. análisis de datos
2. Tome cantidades iguales de mezclas de todas las muestras extraídas como muestras y experimentos de control de calidad. intercalados en la computadora, comenzando con diez QC y terminando con tres QC, con una muestra de QC intercalada por cada diez muestras.
.
Los datos del espectro de masas obtenidos se procesan mediante software para obtener una tabla de picos.
El formato de la tabla de picos es generalmente: un m/z por fila y una muestra por columna.
El valor numérico representa la respuesta de la señal m/z en la muestra.
La primera columna es la relación tiempo de retención_masa-carga para representar el ion, como 0,10_96,9574 m/z.
Generalmente existen los siguientes puntos:
1. Preprocesamiento de datos. Como filtrado y llenado de valores faltantes, normalización de datos, etc.
2. Control de calidad de los datos. Incluyendo asignación de CV, control de calidad, etc.
3. Análisis estadístico. Incluyendo univariado, multivariado, etc.
4. Análisis funcional. Incluyendo vías, análisis de redes, detección de biomarcadores, etc.
Procesamiento de valores faltantes
1) Motivo de la falta
A La señal es demasiado débil y no se puede detectar;
B. Error de detección, como supresión de iones o rendimiento inestable del instrumento;
C El algoritmo de elevación de picos es limitado y no puede extraer señales bajas del fondo;
D. no es así. Todos los picos superpuestos se pueden separar.
2) Filtrado de valores faltantes
Por ejemplo:
Eliminar más del 50% de los valores faltantes en muestras de control de calidad;
Elimine más del 80 % de los valores faltantes en las muestras de control de calidad % de valores faltantes.
3) Relleno de valor faltante
-Cantidad mínima de relleno
-Relleno promedio/mediana
-Relleno KNN (k vecino más cercano)
- Relleno BPCA (Análisis de Componentes Principales Bayesianos)
- Relleno PPCA (PCA Probabilístico)
-Descomposición de valores singulares
KNN es generalmente recomendado.
Eliminación de señales de ruido
Iones generalmente de baja masa.
1) Determinación de iones de baja masa;
Calcule la RSD (desviación estándar/media) de los iones en la muestra de control de calidad, cuanto menor sea el valor, menor será la desviación;
2) Criterios de evaluación:
-Para un solo pico de ion, RSD
-Para datos generales, RSD 60%, los datos generales están calificados;
Estandarización de muestras
El propósito es mejorar la comparabilidad entre muestras.
Existen diferencias entre muestras, por ejemplo, las concentraciones en orina de diferentes personas son diferentes y no se pueden comparar directamente.
La normalización se puede realizar antes de la recolección, como la normalización de creatinina, y también se puede normalizar después de la recolección, como suma, pqn, cuantil, etc. Para el análisis de datos, suele ser lo último, como la normalización de la suma.
Transformación de datos
El análisis posterior generalmente requiere que los datos tengan una distribución normal o una distribución gaussiana.
Por lo tanto, generalmente es necesario realizar una transformación logarítmica o de potencia en el; datos pueden eliminar el efecto inhibidor del valor máximo y ajustar la distribución de los datos, como se muestra en la figura siguiente;
La transformación logarítmica es muy sensible a los valores cero y los valores cero deben ser. eliminado primero.
Transformación-escalado de datos
El objetivo es eliminar al máximo el efecto.
Si la diferencia de intensidad del mismo m/z en diferentes muestras es demasiado grande para ajustarla, la existencia del valor máximo a menudo enmascarará las características cambiantes de los valores más bajos.
El valor de intensidad de un determinado m/z en todas las muestras se puede dividir por un factor (valor SD).
Auto (uv), pareto (recomendado), vasto, rango); y otros métodos.
Equivalente a la normalización de muestras para comparabilidad de muestras y al escalado para comparabilidad de iones descritos anteriormente.
Superposición de TIC de muestras de control de calidad
En general, se cree que:
Todos los picos de las muestras de control de calidad se superponen bien;
Hay poca diferencia en fluctuaciones de intensidad máxima;
Reanudar
Agregación de muestras de control de calidad en el análisis de componentes principales
Correlación de muestras de control de calidad
Análisis univariado
p>Analice solo una variable a la vez, es decir, una m/z. ¿Existe alguna diferencia en la expresión de esta m/z en diferentes grupos y diferentes muestras?
Los métodos comunes incluyen análisis múltiple, prueba t, prueba de suma de rangos, análisis de varianza, etc.
Análisis de conglomerados
La idea central es clasificar las muestras de investigación según indicadores específicos (variables).
El análisis de conglomerados requiere establecer un método para medir la similitud o la similitud; disimilitud entre muestras (los más utilizados son la distancia euclidiana, el coeficiente de correlación, etc.);
Métodos de agrupación comunes: agrupación sistemática (agrupación jerárquica), espera de agrupación de K-medias.
K-means primero estima cuántas clases se dividirán y luego clasifica todos los genes en estas clases según el grado de similitud.
K-means tiene menos complejidad computacional y mayor eficiencia que la agrupación jerárquica.
No importa qué método de clasificación se utilice, el número de categorías en las que se debe dividir no está completamente determinado por el método en sí, sino que debe ser determinado por el investigador en función de problemas específicos.
El análisis de conglomerados es un método de análisis de datos exploratorio. El uso de diferentes métodos de clasificación en los mismos datos dará como resultado diferentes resultados de clasificación. No hay nada bueno o malo en los resultados de la clasificación, pero los criterios de clasificación son diferentes.
Al utilizar el método de agrupamiento, primero debe aclarar el propósito de la clasificación, luego considerar qué variables (o datos) participarán en la clasificación y, finalmente, considerar la elección del método.
Análisis multivariado
1) Análisis de componentes principales
Las siguientes son las puntuaciones (la posición de la muestra en el nuevo sistema de coordenadas)
) y diagrama de carga (diagrama de carga, ángulo entre variables originales y componentes principales)
¿Qué opinas de PCA?
2) Método de mínimos cuadrados parciales
La gráfica de PLSDA es similar a PCA. Es solo un método de aprendizaje supervisado, que clasifica muestras de antemano y finalmente ve si se pueden separar diferentes grupos.
R2 y Q2 se utilizan para evaluar el modelo.
R2 es el coeficiente de correlación, que indica el efecto de ajuste de este modelo. Es una medida cuantitativa (rango 0-1), que indica hasta qué punto el modelo establecido puede representar los datos reales;
p>
Generalmente, cuando R2 está entre 0,7 y 0,8, significa que el modelo tiene un buen poder explicativo, y el R2 de los modelos deficientes suele estar entre 0,2 y 0,3.
Q2 representa la capacidad de predicción del modelo PLS-DA;
Generalmente, Q2 es mayor que 0,5, lo que indica que la capacidad de predicción es buena, y los valores de R2 y El segundo trimestre debería estar relativamente cerca.
El modelo de prueba de permutación se utiliza para las pruebas de ajuste.
Proyección de importancia variable
Cada m/z tiene un valor VIP, que representa la proyección de este m/z sobre un componente principal, es decir, el grado de importancia; p >
Generalmente, utilizamos el VIP del primer y segundo componente principal para representar la contribución de este m/z a la clasificación del modelo. VIP >=1 se considera una contribución significativa.
Las dos últimas partes del análisis de datos metabolómicos (análisis funcional y detección de biomarcadores) se muestran en la siguiente sección.