Notas del curso Shengxin 12: Distribución y clasificación binomial negativa
Por ejemplo, si se lanzan dos monedas uniformes al azar, el espacio muestral es ω = {++, +-, -+, -}. Si le importa la cantidad de veces que mata, puede definir una variable aleatoria x(ω) = 2, 1, 65438+ para los resultados ω =+-,-+.
Si los valores de una variable aleatoria se pueden enumerar uno a uno, entonces es una variable aleatoria discreta. Si los valores de la variable aleatoria no se pueden enumerar uno por uno, es una variable aleatoria continua. Siempre y cuando los valores que pueden medir los cuantificadores que utilizamos todos los días, como el tiempo y los números, sean variables aleatorias discretas. Si estos cuantificadores no se pueden usar para medir, y el valor está dentro de un cierto rango, y el punto decimal puede tener 2, 3 o incluso infinitos dígitos, entonces la variable es una variable aleatoria continua.
La probabilidad de un evento representa la probabilidad de un determinado resultado en un experimento. Una función de probabilidad expresa la probabilidad en forma de función. La distribución de probabilidad es una distribución de probabilidad que se utiliza para expresar las reglas de probabilidad de variables aleatorias. La función de probabilidad de variables aleatorias continuas también se denomina función de densidad de probabilidad; la función de probabilidad de variables aleatorias discretas también se denomina función de masa de probabilidad.
Una distribución de probabilidad describe todos los posibles valores y posibilidades que una variable aleatoria puede aceptar dentro de un rango determinado. Los factores que influyen en la forma de una distribución de probabilidad incluyen la media o media, la desviación estándar, la asimetría y la curtosis. El proceso mediante el cual se generan algunos datos de fenómenos determina su distribución de probabilidad. Esta distribución de probabilidad se denomina función de densidad de probabilidad. La distribución de probabilidad describe los resultados esperados de los posibles valores del proceso de generación de datos dado.
Las distribuciones de probabilidad discreta incluyen la distribución de Bernoulli, la distribución binomial, la distribución geométrica, la distribución de Poisson, etc.
Las distribuciones de probabilidad continua incluyen: distribución normal, distribución exponencial, etc.
Variable aleatoria discreta: Sean xi (i=1, 2, 3, 4, 5, 6) todos los valores posibles de la variable aleatoria discreta X, y la probabilidad del evento {X= xi} = PI ( I = 1, 2, 3, 4, 5,
La fórmula pi = P(X=xi) (i=1, 2, 3, 4, 5, 6) es una función de probabilidad, y la variable independiente (X) es el valor de la variable aleatoria, la variable dependiente (pi) es la probabilidad de un valor y la fórmula representa la probabilidad de cada valor. De la fórmula, la función de probabilidad puede. solo representa la probabilidad de un valor a la vez. Por ejemplo, P (X = 1 = 1/6, lo que significa que la probabilidad de que una variable aleatoria con un valor de 1 aparezca en forma de función de probabilidad es 1. /6, y solo se puede representar un valor de variable aleatoria a la vez.
Enumera todos los valores posibles. El valor y la probabilidad del valor se denominan tabla de distribución de valores y tabla de distribución de probabilidad del valor. de la variable aleatoria discreta, es decir, la tabla de distribución (tasa) de la ley de probabilidad o distribución de probabilidad.
Propiedades de la lista de distribución: no negatividad: pi ≥ 0 normalidad: σ pi = 1.
La función de distribución/función de distribución de probabilidad (también llamadas funciones de probabilidad acumulada/funciones de distribución acumulativa (CDF)) son los resultados acumulativos de los valores de la función de probabilidad
Supongamos que X es una variable aleatoria, y para cualquier número real X, defina F(x)=P (X≤x ) es la función de distribución de la variable aleatoria X. Se dice que X obedece a F(x), denotada como Función, el valor de F. (x) es la probabilidad del evento {X≤x}
Propiedades de la función de distribución: monotonía; normatividad (siempre comienza desde cero y termina con 100% de continuidad correcta). La función de distribución F (x) de una variable aleatoria continua es una función continua. La probabilidad de una variable aleatoria continua X en un determinado punto A es P {X = a} = 0, y la probabilidad es 0. No es necesariamente. un evento imposible.
Para distribuciones de probabilidad discretas, nos preocupa la probabilidad de obtener un valor específico; para distribuciones de probabilidad continuas, es imposible enumerar cada valor exacto. Lo que es más preocupante es una probabilidad específica. rango.
Variable aleatoria continua x, función de distribución
F(x) se llama función de densidad de probabilidad o función de densidad de distribución de x. La función de densidad de probabilidad es la función derivada de la función de distribución. La función de densidad de probabilidad. El área total bajo la curva es 1.
Propiedades de la función de densidad de probabilidad f(x): no negatividad: f(x)≥0;
La distribución de probabilidad más común es la distribución normal o curva de campana.
X~N(μ,σ^2)
Valor esperado)E = μ.
Varianza)D = σ^2
Desviación estándar)σ
Características: La curva es simétrica con respecto a x=μ cuando x=μ, p( x ) toma el valor máximo; cuando x →∞, p(x)→0; la curva tiene un punto de inflexión en x = μ σ; Cuanto mayor sea σ, más plana será la curva.
La distribución normal estándar se define como una distribución normal con una media igual a 0 y una desviación estándar igual a 1. El eje horizontal representa (x-μ)/σ.
Se estudia la probabilidad de intervalos de tiempo entre eventos. Por ejemplo, el intervalo de tiempo entre la recepción de dos mensajes de WeChat y el intervalo de tiempo entre la reproducción de un vídeo.
Características de la distribución exponencial: sin memoria. Por ejemplo, la vida útil de una bombilla sigue una distribución exponencial. No importa cuánto tiempo se haya usado, siempre que no esté dañado, la probabilidad de usarlo por un tiempo es la misma que si fuera nuevo. ¿Expresado como X~E(λ)? .
X~U(a, b)
f(x) = 1/(b-a), a≤x≤b
Valor medio E = ( a+b)/2.
Varianza D = (b-a)/√12
La variable aleatoria x tiene sólo dos valores posibles a y b, y su distribución de probabilidad es: p {x = a} = p, p {x = b} = 1-p (0
Un caso especial de una distribución de dos puntos donde los valores de A y B son 1 y 0 respectivamente. La prueba de Bernoulli es una única prueba aleatoria con sólo dos resultados posibles (éxito P o fracaso 1-p). Su distribución de probabilidad es:
P{X=1} = p, P{X=0} = 1-P). (0< p & lt1)
E esperado = p
Varianza D = p(1?p)
Es el número discreto de n- fold Pruebas de Bernoulli Distribución de probabilidad Cada experimento tiene dos resultados mutuamente excluyentes. La probabilidad de éxito es P y la probabilidad de fracaso es (1-p). Cada experimento es independiente y no se afecta entre sí. veces:
Supongamos que x obedece a la distribución binomial con parámetros n y p, denotados como
Varianza σ 2 = NP (1-p)
La distribución de Poisson es Adecuado para describir el número de eventos aleatorios por unidad de tiempo (o espacio) (el número de eventos solo puede ser enteros discretos), como el número de pasajeros esperando en la parada de autobús, el número de fallas de las máquinas y el número de desastres naturales. , el número de defectos en un producto, el número de bacterias distribuidas en la partición unitaria bajo el microscopio, etc.
En la distribución binomial, si p es pequeño y n es grande, se convierte en una distribución de Poisson.
λ es la tasa de ocurrencia de eventos, t es la duración del intervalo de tiempo y x es el número de eventos en el intervalo de tiempo. ¿Entonces el número promedio de eventos en el intervalo de t? = λt .
x~P(λ)
Media μ = λ
Varianza σ 2 = λ
μ es la única parámetro del que depende la distribución de Poisson. Cuanto menor es el valor de μ, más sesgada es la distribución. Cuando μ = 20, la distribución es cercana a la normal. Cuando μ = 50, se puede considerar normal. >Cada experimento tiene dos resultados mutuamente excluyentes. La probabilidad de éxito es P y la probabilidad de fracaso es (1-p). Repita el experimento, hasta que el número predeterminado de fracasos ocurra r veces, entonces el número de éxitos x obedecerá. la distribución binomial negativa
X~NB(r, P)
Esta fórmula describe la relación entre un conjunto de fallas. Para productos con una tasa de aprobación de P, se realiza un muestreo continuo. Cuando se extraen R productos defectuosos, se detiene el muestreo. En este momento, se obtiene la probabilidad de extraer exactamente K productos genuinos.
Al analizar la diferencia entre los dos conjuntos de datos, normalmente podemos utilizar el análisis. de varianza para determinar si existe una diferencia significativa entre dos conjuntos de datos de distribución.
Cuando la varianza entre grupos es mayor que la varianza dentro de un grupo y es estadísticamente significativa, se considera que el tratamiento entre grupos puede provocar diferencias. Pero en RNA-seq, el problema es que el número de experimentos repetidos es muy pequeño, los recuentos son discontinuos (la señal del chip es continua) y estos datos no se ajustan a la distribución normal. Nos enfrentamos a dos preguntas centrales: ¿Qué distribución estadística es adecuada para que los datos de expresión genética prueben la importancia de las diferencias? ¿Cómo estimar la desviación estándar de la expresión genética utilizando una pequeña cantidad de réplicas biológicas?
Desde una perspectiva estadística, el análisis de varianza definitivamente requiere prueba de hipótesis. Por lo general, para datos con una distribución conocida, el uso de pruebas paramétricas da como resultado una tasa más baja de falsos positivos. ¿Cuál es la distribución de los valores de recuento brutos en los datos transcriptómicos? La esencia del valor de conteo es el número de lecturas, que es un número entero distinto de cero y discreto, y su distribución debe ser discreta. Para los datos del transcriptoma, las distribuciones comúnmente utilizadas en los círculos académicos incluyen la distribución de Poisson y la distribución binomial negativa.
La dispersión se refiere al grado de dispersión. Para estudiar la dispersión de la distribución de datos, a menudo utilizamos la varianza como indicador. Para la distribución de Poisson, la media y la varianza son iguales, pero nuestros datos no siguen esta regla.
La abscisa es el valor medio y la ordenada es la varianza. La distribución de datos reales se desvía de la distribución de Poisson y la varianza es significativamente mayor que la media. A esto se le llama sobreasignación. Por lo tanto, no es razonable elegir la distribución de Poisson como distribución de la población.
En RNA-seq, la variabilidad del muestreo satisface la distribución de Poisson porque la expectativa y la varianza son similares. Si bien la variabilidad biológica entre réplicas biológicas no puede describirse mediante la distribución de Poisson porque su varianza puede ser muy grande, se utiliza la distribución binomial negativa y se agrega un término de error adicional.
La media de la distribución binomial negativa es una función cuadrática de la varianza, y la varianza aumenta a medida que aumenta la media.
Existen tres formas de implementar el paquete R basado en el modelo binomial negativo (edgeR, DESeq, baySeq).
Las características de los datos de recuento de secuenciación incluyen no normalidad, dependencia de la varianza de la media, etc. El Kij del recuento de lecturas se modela como una distribución binomial negativa, simplemente porque la gente piensa que la distribución de lecturas es más consistente con la distribución binomial negativa. Esta distribución binomial negativa tiene dos parámetros, media μij y dispersión αi. La variación dentro del grupo se modela mediante el parámetro discreto αi, y la varianza de los recuentos se describe mediante Var Kij = μij+αi μij^2 2. La estimación precisa del parámetro de dispersión αi es muy importante para la inferencia estadística de la expresión diferencial, pero en el caso de pocas réplicas biológicas, es difícil calcular con precisión el grado de dispersión de cada expresión genética. En DESeq2, se supone que los genes con una intensidad de expresión promedio similar tienen una dispersión similar, lo que comparte información entre genes y reduce la dispersión.