Varianza y sesgo

La descomposición de sesgo-varianza es una herramienta importante para explicar el rendimiento de generalización de los algoritmos de aprendizaje.

La descomposición de la varianza del sesgo intenta descomponer la tasa de error de generalización esperada de un algoritmo de aprendizaje. Sabemos que los resultados obtenidos por el algoritmo en diferentes conjuntos de entrenamiento probablemente serán diferentes, incluso si estos conjuntos de entrenamiento provienen de la misma distribución. Para el equipo de muestra de prueba, sea y D la etiqueta de m en el conjunto de datos, y sea la etiqueta real de x (Nota: Teóricamente y = y D, cuando hay ruido, ¡y aparecerá! = y D, es decir , la etiqueta incorrecta), f( x; d) aprende el resultado previsto del modelo F en M para el conjunto de entrenamiento d. Tomando la tarea de regresión como ejemplo, la predicción esperada del algoritmo de aprendizaje es:

Revisar el significado de sesgo, varianza y ruido;

La descomposición de la varianza del sesgo muestra que El rendimiento de la generalización está determinado por el algoritmo de aprendizaje. Está determinado por la capacidad, la idoneidad de los datos y la dificultad de la tarea de aprendizaje en sí. ¿Se le dio una tarea de aprendizaje? Para lograr un buen rendimiento de generalización, es necesario hacer que la desviación sea pequeña, es decir, ajustar completamente los datos y hacer que la varianza sea pequeña, incluso si el impacto de la perturbación de los datos es pequeño.

¿En general? Existe un conflicto entre sesgo y varianza, llamado dilema sesgo-varianza. Dada una tarea de aprendizaje, se supone que podemos controlar el grado de entrenamiento del algoritmo de aprendizaje. Cuando el entrenamiento es insuficiente, la capacidad de adaptación del alumno no es lo suficientemente fuerte y la perturbación de los datos de entrenamiento no es suficiente para que el alumno produzca una producción significativa. En este momento, el sesgo domina la tasa de error de generalización; a medida que el entrenamiento se profundiza, la capacidad de adaptación del alumno aumenta gradualmente, el alumno puede aprender gradualmente la perturbación de los datos de entrenamiento y la varianza domina gradualmente la tasa de error de generalización. Después de un entrenamiento suficiente, la capacidad de adaptación del alumno es muy fuerte. Una ligera perturbación en los datos de entrenamiento puede provocar cambios significativos en el alumno. Si el alumno aprende características no globales de los datos de entrenamiento, se sobreajustarán.

Referencia:

"Aprendizaje automático" Zhou Zhihua