Red de conocimientos sobre prescripción popular - Como perder peso - Cuando comencé, el profesor insistió en fusionar conjuntos de datos y el efecto por lotes me molestó durante mucho tiempo.

Cuando comencé, el profesor insistió en fusionar conjuntos de datos y el efecto por lotes me molestó durante mucho tiempo.

1. ¿Qué es el efecto de lote?

El efecto de lote significa que el procesamiento y medición de muestras en diferentes lotes no tiene nada que ver con ninguna variación biológica registrada durante la prueba. . El efecto por lotes es una fuente común de variación en los experimentos de alto rendimiento y se ve afectado por una serie de factores no biológicos como la fecha, el entorno, el grupo de tratamiento, el personal experimental, los reactivos y las plataformas.

Cuando se combinan y analizan datos de diferentes lotes, los métodos de estandarización ordinarios no son suficientes para ajustar las diferencias entre lotes. Si el efecto de lote es grave, estas diferencias interferirán con los resultados experimentales y no podremos juzgar si los genes expresados ​​​​diferencialmente se derivan de los factores que queremos estudiar o están relacionados con los lotes.

El efecto lote no se puede eliminar, sólo se puede reducir al máximo. El propósito de corregir los efectos de los lotes es reducir las diferencias entre lotes e intentar recombinar los datos de múltiples lotes para que el análisis posterior solo pueda considerar las diferencias biológicas.

2. Métodos de procesamiento

Actualmente, existen muchos métodos para abordar las diferencias de lote. [2]

Métodos de procesamiento de efectos por lotes

3. ¿Qué método es mejor?

Un estudio comparó 6 métodos para eliminar los efectos por lotes. Estos incluyen el método ComBat (. método previo paramétrico, ComBat_p y método no paramétrico, ComBat_n), análisis de variables sustitutas (SVA), método basado en razones (método basado en razones geométricas, Ratio_G), método del centro medio (centrado en la media (PAMR) y discriminación ponderada por distancia (DWD) Al combinar múltiples indicadores, ComBat es generalmente superior a otros métodos en términos de precisión, exactitud y rendimiento general.

4. Algoritmo del método ComBat

El supuesto del modelo se basa en el ajuste de ubicación y escala (Location and scale, L/S). El ajuste L/S se puede definir como una serie amplia de ajustes en los que se supone un modelo para la posición (media) y/o el tamaño (varianza) de los datos dentro de un lote, y luego el lote se ajusta para cumplir con las especificaciones de el modelo supuesto. Por lo tanto, el ajuste de lotes L/S supone que los efectos de los lotes se pueden modelar normalizando la media y la varianza entre lotes. Estos ajustes pueden variar desde una simple normalización de la media y la varianza de todo el gen hasta complejos ajustes lineales o no lineales intergenes.

Modelo: Yijg = αg Xβg γig δigεijg

Yijg representa el valor de expresión del gen g de la muestra j del lote i. donde αg es el valor de expresión promedio del gen g, X es la matriz de diseño de las condiciones de la muestra y βg es el vector de coeficiente de regresión correspondiente a X. El término de error εijg obedece a la distribución normal N(0, σg) con un valor esperado de 0 y una varianza de σg y δig representan los efectos por lotes de la suma y multiplicación del gen g en el lote i.

El algoritmo se divide en 3 pasos: [4]

Algoritmo

5. Soluciones recomendadas

(1) Según el propósito del análisis Determine el método de procesamiento del efecto por lotes: análisis de expresión diferencial, agregando factores por lotes al modelo, corrigiendo primero los datos originales y luego utilizando los datos corregidos para el análisis;

(2) Lote conocido, removeBatchEffect o ComBat lote desconocido, sva.

(3) Los datos ingresados ​​por removeBatchEffect, ComBat y sva deben convertirse, como logaritmos (rlog o logCPM).

(4) ComBat-Seq o svaseq se pueden utilizar para leer datos de recuentos.

6. Corrección por lotes para análisis de expresión diferencial

Mucha gente piensa que para eliminar el efecto por lotes, es necesario cambiar la matriz de expresión, usar la nueva matriz de expresión y luego pasar por el Proceso de análisis diferencial De hecho, en la mayoría de los paquetes de procesos de análisis diferencial, tienen diseños de uso de funciones incorporados que tienen en cuenta factores de confusión como el efecto del lote. Por ejemplo:

Fórmula de diseño al construir objetos DESeq2: diseño = ~ condiciones de lote

Si desea fusionar datos de diferentes lotes para el análisis de expresión diferencial, se recomienda agregar directamente el información por lotes dentro del modelo de construcción. Pero este método no cambia los datos originales. Si realmente desea ver con sus propios ojos cómo el efecto por lotes afecta esta matriz de expresión, debe realizar un procesamiento adicional en la matriz de expresión, como removeBatchEffect o ComBat. Sin embargo, la matriz de recuentos se cambiará después del procesamiento y no hay forma de realizar el proceso de análisis de diferencias de DESeq2 posteriormente. Es solo para obtener la matriz de expresión para comparar antes y después de eliminar el efecto por lotes.

PCA

7. Utilice removeBatchEffect de limma para procesar efectos por lotes.

La función removeBatchEffect se utiliza para eliminar e hibridar antes de agrupar o analizar efectos por lotes no supervisados. tiempo u otra variación técnica. Está diseñado para chips, por lo que no utilice recuentos de lectura directamente. Los datos deben someterse a ciertas operaciones estandarizadas, como la transformación de registros.

removeBatchEffect solo se usa para visualización visual, como agrupación de convergencia y PCA. No lo use antes del modelado lineal. Debido a que existen dos fallas en el uso de datos corregidos para el análisis de expresión diferencial: en primer lugar, los factores de lote y los factores de agrupación pueden superponerse, por lo que la corrección directa de los lotes en los datos originales puede compensar algunos de los factores biológicos reales; en segundo lugar, se subestima el error; Por lo tanto, si desea realizar un análisis de expresión diferencial, pero existen problemas de lotes conocidos en los datos, es mejor incorporar efectos de lotes en el modelo lineal.

Uso de RemoveBatchEffect

removeBatchEffect

8. Utilice ComBat de SVA para procesar efectos por lotes

El paquete sva R puede manejar lotes conocidos y desconocidos efectos, la función sva puede eliminar efectos por lotes y todas las demás variaciones no deseadas mediante la construcción de variables sustitutas para conjuntos de datos de alta dimensión. Si se trata de datos de chip, utilice sva y, para datos de secuenciación de alto rendimiento, utilice svaseq. La función ComBat maneja efectos por lotes conocidos.

Uso de ComBat

ComBat

9. Utilice sva para procesar lotes desconocidos

SVA tiene la capacidad de eliminar efectos de lote y paso alto función para cuantificar otras variantes no deseadas en la secuenciación. Utilice sva para identificar y construir variables sustitutas para conjuntos de datos de alta dimensión. Las variables sustitutas son covariables construidas directamente a partir de datos de alta dimensión y se pueden utilizar en análisis posteriores para ajustar fuentes de ruido desconocidas, no modeladas o potenciales.

La salida de la función sva en sí es la variable proxy. Se pueden incluir en la matriz del modelo completo y en la matriz del modelo vacía, y luego pasar junto con la matriz de datos a la función f.pvalue en el paquete SVA para calcular el valor p de la prueba F paramétrica y así ajustar la variable proxy.

Como regla general, el ajuste de variable sustituta (SVA) puede ser más apropiado cuando hay una gran cantidad de posibles factores de confusión conocidos o desconocidos.

Cuando se sabe que uno o más grupos biológicos son heterogéneos y se conocen variables de lote, el ajuste directo (ComBat) puede ser más apropiado.

sva tiene en cuenta dos tipos de variables: variables de ajuste y variables de interés. Por ejemplo, las variables de interés pueden ser el grupo de cáncer y el grupo de control; las variables de ajuste pueden ser la edad, el sexo y el tiempo de secuenciación del paciente.

Crea dos matrices modelo: modelo completo y modelo nulo. El modelo vacío incluye todas las variables de ajuste pero no la variable de interés; el modelo completo incluye todas las variables de ajuste y la variable de interés. Intentaremos analizar la asociación entre la variable de interés y la expresión génica, ajustando por variables de ajuste. Las matrices modelo se pueden crear usando model.matrix. El objetivo de sva es eliminar todas las fuentes de variación no deseadas mientras detecta contrastes a través de las principales variables incluidas en el mod.

NOTA: En nuestro trabajo original, se utilizaron funciones de identificación para medir datos en escalas aproximadamente simétricas y continuas. Para los datos de secuenciación, que normalmente se expresan como recuentos, un modelo más apropiado puede implicar el uso de una función logarítmica moderada. Por ejemplo, primero transformamos los datos de expresión genética usando log (cuenta 1).

Uso:

(1) Utilice sva para obtener la variable proxy

(2) Utilice la función f.pvalue para ajustar la variable proxy (calcular parámetros Prueba F (valores P ajustados para variables sustitutas)

(3) sva se puede utilizar con programas de análisis de expresión diferencial, como limma y DESeq2.

Referencias

[1] Chen C, Grennan K, Badner J, Zhang D, Gershon E, Jin L, et al. Eliminación de efectos por lotes en el análisis de datos de microarrays de expresión: una evaluación de seis métodos de ajuste por lotes[J]. 2011;6(2):e17238.

[2] Li Sa, Zhao Yiqiang. J] ]. Revista de la Universidad Agrícola de Nanjing, 2019, 42(03): 389-397.

[3] Chen C, Grennan K, Badner J, Zhang D, Gershon E, Jin L, et al. Eliminación de efectos por lotes en el análisis de datos de microarrays de expresión: una evaluación de seis métodos de ajuste por lotes [J 2011;6(2):e17238.

[4] Chen Tiancheng, Hou Yan. , Li Kang Algoritmo de eliminación del efecto por lotes en la integración de datos genómicos [J Chinese Health Statistics, 2016, 33(03): 527-529 533.

[5] Johnson WE, Li C, Rabinovic A. Ajuste de los efectos por lotes en datos de expresión de microarrays utilizando métodos empíricos de Bayes [J 2007;8(1):118-27.

[6] Leek JT, Johnson WE, Parker HS, Jaffe AE. , Storey JD El paquete sva para eliminar efectos por lotes y otras variaciones no deseadas en experimentos de alto rendimiento [J] 2012;28(6):882-3.