Descomposición de desviación-varianza y descomposición de bifurcación de error
1,1
La varianza producida por diferentes conjuntos de entrenamiento utilizando el mismo número de muestras es:
1,2
El ruido es:
1.3
La diferencia entre el resultado esperado y el margen real se llama sesgo, que es:
1.4
Ruido supuesto El error de generalización esperado del algoritmo se descompone en:
1,5
Porque es independiente de , por lo tanto:
Por lo tanto
1.6
Entonces, el error de generalización esperado es igual a la varianza más el sesgo más el ruido.
Supongamos que un alumno conjunto está formado por un promedio ponderado de un alumno débil para completar la tarea de aprendizaje de regresión. Para la muestra, la ambigüedad de los estudiantes débiles se define como:
2.1
La diferencia del conjunto es:
2.2
Alumno individual pares El error al cuadrado de la muestra es:
2,3
Entonces el error al cuadrado del alumno colectivo en la muestra es:
2,4
Aprendiz débil El error promedio ponderado de es:
, entonces:
?
Porque, por tanto:
Por tanto
Organización:
2.5
2.6
Es decir, el error del alumno conjunto es igual al error promedio de los alumnos individuales menos la divergencia del conjunto, lo que significa que un buen alumno conjunto requiere que los alumnos individuales sean buenos pero diferentes. "Bueno" significa que el error del alumno. El alumno individual es bajo y "diferente" significa que la divergencia entre los alumnos individuales es grande.
Referencia:
"Aprendizaje automático" Zhou Zhihua
"Método de aprendizaje estadístico" Li Hang