Red de conocimientos sobre prescripción popular - Conocimiento del confinamiento - Capítulo 2 Evaluación y selección del modelo

Capítulo 2 Evaluación y selección del modelo

Durante el proceso de capacitación, se encontrarán algunos errores de reconocimiento de muestras en cada capacitación y prueba. A la proporción de muestras erróneas identificadas con respecto al número total la llamamos tasa de error y definimos la tasa de error, donde a es el número de muestras erróneas ym es el número total de muestras. La contraparte de esto se llama precisión. De manera más general, la diferencia entre el resultado real y el resultado verdadero se denomina error, el error en el conjunto de entrenamiento se denomina error de entrenamiento o error empírico y el error predicho en el momento de la prueba se denomina error de generalización. Por supuesto, esperamos obtener el modelo con el menor error, es decir, el modelo con mayor precisión. Entonces, ¿es un alumno con 100% de precisión el modelo que queremos? De hecho, la mayoría de estos modelos no tienen una fuerte capacidad de generalización, por lo que no serán seleccionados. Esto implica un ajuste insuficiente y un ajuste excesivo.

Cuando la precisión de la muestra de aprendizaje es demasiado alta, es muy probable que el alumno aprenda las características únicas de la muestra mientras ignora relativamente las características comunes de la mayoría de las muestras. Esta situación se denomina sobreajuste. Generalmente, un modelo de sobreajuste tiene poca capacidad de generalización. Por el contrario, el desajuste significa que la precisión del entrenamiento del modelo es demasiado baja y ni siquiera se aprenden las características generales de la muestra. La siguiente imagen explica muy bien ambas situaciones.

El problema del desajuste se puede resolver fácilmente añadiendo más datos y aumentando el número de tiempos de entrenamiento. El sobreajuste es problemático y no se puede evitar por completo en los algoritmos de aprendizaje automático. Excelentes algoritmos encontrarán formas de reducir el impacto del sobreajuste. Actualmente existen muchos algoritmos y métodos de ajuste de parámetros para construir modelos de aprendizaje automático, y esto implica la cuestión de la selección del modelo. Debe haber métodos de evaluación y selección correspondientes para encontrar el modelo con la mayor capacidad de generalización. A continuación se presentan algunos métodos para la evaluación y selección de modelos.

Ahora que tenemos un conjunto de datos conocido D, nuestro objetivo es dividirlo en un conjunto de entrenamiento S y un conjunto de prueba T, de modo que las capacidades de aprendizaje y generalización del modelo puedan desarrollarse tanto como sea posible. posible.

La idea del método de estantería es muy simple: dividir directamente el conjunto de datos D en dos conjuntos mutuamente excluyentes, uno como conjunto de entrenamiento y el otro como conjunto de prueba. El conjunto de datos también tiene requisitos para los detalles del segmento. Debemos asegurarnos de que los tipos de etiquetas de todo el conjunto de datos se distribuyan uniformemente cuando se divida, es decir, para garantizar que la máquina pueda encontrar todas las situaciones durante el entrenamiento y las pruebas. Los resultados de un solo uso del método de reserva no son lo suficientemente precisos, porque los resultados del entrenamiento y las pruebas de diferentes submétodos serán diferentes. Por lo tanto, el conjunto de entrenamiento y el conjunto de prueba se dividen aleatoriamente en múltiples tiempos para el entrenamiento y las pruebas. y se obtiene el promedio de las múltiples tasas correctas. No existe una solución perfecta para la relación entre el conjunto de entrenamiento y el conjunto de datos, y el valor empírico general es 2/3 ~ 4/5.

El método de validación cruzada primero divide el conjunto de datos D de m muestras en k subconjuntos mutuamente excluyentes de tamaño similar, y todos mantienen una distribución uniforme de etiquetas de datos. Cada vez se utilizan k-1 subconjuntos para entrenamiento y el subconjunto restante se utiliza para pruebas. Hay K intentos y finalmente devolvemos el promedio de los K resultados. La calidad de la verificación del algoritmo depende principalmente del valor de k, generalmente k = 10, por lo que el algoritmo también se denomina "validación cruzada diez veces" y su diagrama esquemático es el siguiente. En comparación con el método de estantería, la validación cruzada es obviamente más estable y justa.

Cuando k = m es un caso especial y cada muestra se considera propia, el método de evaluación se puede llamar LOO, que no se ve afectado por el orden aleatorio de la muestra, por lo que los resultados serán más precisos. Pero si el conjunto de datos es demasiado grande y hay demasiadas muestras, el tiempo de cálculo aumentará considerablemente.

Los dos primeros métodos necesitan separar el conjunto de entrenamiento y el conjunto de prueba del conjunto de datos para el aprendizaje y la predicción. El uso de diferentes métodos de partición conducirá a resultados diferentes, mientras que el método unidireccional no tiene esta situación. Pero los grandes conjuntos de datos aumentan la complejidad del algoritmo. Para combinar las dos ventajas del algoritmo anterior, aquí se propone un método de arranque.

La característica del método bootstrap es que tanto el conjunto de entrenamiento como el conjunto de prueba provienen del mismo conjunto de datos. Extraemos una muestra del conjunto de datos a la vez y la copiamos en el conjunto de entrenamiento, repitiendo M veces, para tener M muestras del conjunto de entrenamiento. Por supuesto, habrá muestras duplicadas, pero calculamos la probabilidad de que nunca se recopile una muestra de la siguiente manera:

Entonces, cuando haya suficientes muestras, también podemos tomar alrededor de 2/3 como entrenamiento. set y el resto sirve como conjunto de prueba. Este algoritmo permite extraer cada muestra, y esta prueba también se denomina "estimación fuera de bolsa". El método de arranque produce un conjunto de datos que cambia la distribución del conjunto de datos inicial, por lo que requiere la introducción de un sesgo de estimación. Nuevamente, para evitar problemas de cálculo, se recomienda utilizar los dos primeros y viceversa.

Además de los métodos de evaluación anteriores, cada algoritmo también necesita ajustar parámetros. Debido a que los resultados del entrenamiento de diferentes parámetros serán significativamente diferentes, el ajuste de parámetros también es muy importante y afecta los resultados de la evaluación final. De hecho, el ajuste de parámetros también es una elección de algoritmo. En realidad, a menudo utilizamos el método "probar" para obtener un resultado de parámetro relativamente bueno. Primero establezca el rango de valores para el parámetro y luego establezca el tamaño del paso para que la computadora pueda analizar cada situación y elegir el mejor resultado. Generalmente, el tamaño del paso debe elegirse con cuidado porque la ingeniería a gran escala tiene muchos parámetros. Cuanto más corto sea el tamaño del paso, mayor será la complejidad del algoritmo y más recursos informáticos consumirá.

Cuando hayamos terminado de evaluar y seleccionar un algoritmo, debemos entrenar utilizando todos los datos del conjunto de datos y entregar el modelo entrenado final. Además, en aras de la distinción, el conjunto de datos seleccionado para la evaluación del modelo también se denomina conjunto de validación. Por ejemplo, al estimar la capacidad de generalización de un modelo de entrenamiento, el conjunto de datos se divide en un conjunto de entrenamiento y un conjunto de validación, donde los resultados del conjunto de validación se utilizan principalmente para el ajuste de parámetros.

Las métricas de rendimiento se utilizan principalmente para evaluar cuantitativamente el rendimiento de los modelos de aprendizaje automático. Diferentes modelos y diferentes métodos de medición producirán resultados diferentes. Por lo tanto, los resultados de la evaluación son relativos y la calidad del modelo depende del algoritmo, los datos y los requisitos de la tarea. La medida de rendimiento más comúnmente utilizada es el error cuadrático medio, que se combina con la densidad de probabilidad para definir la representación. No los presentaré aquí. Aquí presentamos los métodos de medición del desempeño comúnmente utilizados en las tareas de clasificación. Antes de construir el modelo, haga la siguiente anotación:

Conjunto de muestra:

¿Dónde está la etiqueta correcta? Si el alumno está configurado en , entonces el resultado previsto.

Definición de tasa de error:

Definición de precisión:

Dónde está el símbolo binario, la corrección lógica entre paréntesis es 1 y el error es 0.

Estos son dos métodos comunes para tareas de clasificación, que son adecuados para tareas de dos clasificaciones y tareas de clasificación múltiple, respectivamente. De acuerdo con la definición de densidad de probabilidad, podemos utilizar la distribución de datos D y la distribución de probabilidad P para hacer una definición más general:

Definición de distribución de probabilidad de tasa de error:

Distribución de probabilidad de precisión Definición :

Aunque el método en 2.3.1 se usa comúnmente, a veces nos preocupamos por los datos de entrenamiento específicos en el conjunto de entrenamiento o conjunto de datos (cuántos puntos obtengo correctamente por una buena sandía, etc.) Y este método no satisface las necesidades en este momento. Aquí hay tres formas de medir su modelo con mayor precisión. Tomando la clasificación binaria como objeto de análisis aquí, podemos dividir los resultados de la predicción en cuatro tipos: ejemplos verdaderos, ejemplos falsos positivos, contraejemplos verdaderos y contraejemplos falsos, que están representados por las letras TP, FP, TN y FN respectivamente, donde t representa verdadero y f significa falso, p significa positivo, n significa negativo. La matriz de confusión se define de la siguiente manera:

Según el supuesto simbólico anterior, la precisión p y la tasa de recuperación r se definen de la siguiente manera:

La precisión y la recuperación son contradictorias. Es comprensible que a medida que se expanda el "rango" correcto del algoritmo (digamos, el número de especies de sandías), la precisión definitivamente disminuirá, y viceversa. Por lo tanto, se debe lograr un punto de equilibrio entre los dos para lograr el mejor efecto de evaluación del modelo de aprendizaje automático, y el punto de equilibrio se puede encontrar a través de la "curva P-R". La abscisa de la curva es la tasa de recuperación y la ordenada es la tasa de precisión. Después de ordenar los ejemplos de resultados de aprendizaje automático, la precisión de la calculadora y las tasas de recuperación pueden ser aproximadamente similares a la siguiente figura:

Según la Figura 4, sabemos que el punto donde se cruzan la curva y la línea recta es El punto de equilibrio (BEP), hay muchos puntos de equilibrio aquí. Generalmente creemos que cuanto mayor sea el área bajo la curva, mejor será el rendimiento, así que elija la más externa. Pero cuando vemos que las curvas de la capa más externa y la capa interna se cruzan, no podemos juzgar a simple vista. En este punto, podemos calcular el valor de la función del punto de equilibrio. Cuanto mayor sea el valor, mejor será el rendimiento. Sin embargo, el libro ofrece un método de comparación cuantitativo más preciso, a saber, el método de medición F1. La fórmula es la siguiente:

En realidad, es posible que prestemos atención diferente a la precisión y la recuperación, por lo que en este momento derivamos. La forma general de la medida F1, las letras y las fórmulas se definen de la siguiente manera:

Donde, cuando =1, degenera en la medida F1, cuando >:1, el peso de la tasa de recuperación es mayor. cuando

Ahora analicemos el caso más general. La medición anterior fue contra un conjunto de matrices de confusión, ahora aumentamos el número a n y la solución es muy simple. La primera solución es: la precisión macro y la recuperación macro se pueden obtener calculando el promedio de precisión y recuperación, y la métrica macro F1 se puede obtener incorporando la métrica macro F1 a la fórmula de F1. La segunda solución es obtener primero el valor promedio de cuatro tipos de datos, como ejemplos reales, y luego incorporar varios valores macro.

El método general de clasificación binaria del aprendizaje automático es: obtener un número del 0 al 1 según el modelo. Suponiendo que el umbral es 0,5, si es mayor que 0,5, es una categoría, y si es menor que 0,5, es otra categoría. Según los resultados de la clasificación del modelo, clasificamos las muestras de "más probable" a "menos probable", definimos un punto de corte y dividimos las muestras en ejemplos positivos y ejemplos negativos. El punto de corte se define de manera que si se le da un peso mayor a la precisión, el punto de corte se moverá hacia adelante, si a la recuperación se le da un peso mayor, el punto de corte se moverá hacia atrás. ROC utiliza los resultados de clasificación de los datos para calcular el rendimiento de generalización del alumno.

El nombre completo de ROC es característica operativa del receptor. El método es similar a la curva P-R, es decir, se dibuja una curva llamada "gráfico ROC", con la suma de las tasas de casos reales (TPR). la ordenada y la tasa de casos positivos (FPR) es la abscisa. Las dos nuevas dimensiones se definen de la siguiente manera:

A continuación se muestra un diagrama de ejemplo. Esperamos hacer un dibujo, pero debido a que los datos son discretos y limitados, solo podemos hacer un dibujo b.

El proceso de dibujo es el siguiente:

① Dado un ejemplo positivo y un ejemplo negativo, ordénelos según los resultados de predicción del modelo.

②Establezca el umbral de clasificación al máximo, suponiendo que todos los resultados son ejemplos negativos y ningún ejemplo positivo. Las coordenadas del punto actual son (0, 0).

(3) Proponer una secuencia a la vez y dividirla en ejemplos positivos Sean las coordenadas del punto anterior. El punto se marca como cuando se trata de una instancia y como si se trata de un contraejemplo.

④ Repita ③ hasta que todos los puntos estén clasificados como ejemplos positivos, es decir, las coordenadas del último punto son (1, 1).

El estándar para juzgar la calidad a partir del gráfico es muy similar al gráfico P-R, y la base para el juicio es el área bajo la curva ROC (AUC). Cuanto más grande sea, mejor será el rendimiento. Debido a que todos los puntos son discretos, usamos la suma para obtener el área. La fórmula es la siguiente:

Dejemos que d represente el conjunto de datos, + represente el ejemplo positivo, - represente el contraejemplo y luego defina el. clasificando la pérdida de la siguiente manera:

Su relación con el AUC es:

Cuando medimos la cuantificación en las secciones anteriores, consideramos que el bien y el mal son iguales internamente, es decir, sus pesos internos son igual. De hecho, este no es el caso. Un error en la identificación de una sandía le costó al agricultor 100 yuanes. Comparando la pérdida de cientos de millones causada por meter al ladrón en la bóveda por error, podemos ver que hay una diferencia entre errores porque los costos de las consecuencias son diferentes. Para medir diferentes errores, podemos asignar diferentes costos a los errores, lo que llamamos "costos desiguales".

Tome la segunda clasificación como ejemplo. Con base en la idea de costo, se puede diseñar una matriz de costos, como se muestra en la siguiente figura:

Donde costo representa el costo y el costo. Las marcas de las esquinas representan las filas y columnas de la matriz. Generalmente la diagonal principal de la matriz es 0 (haces exactamente lo mismo contigo mismo y no pagarás el precio). Teniendo en cuenta los costos desiguales, nuestro objetivo es minimizar el costo total del error. Si la clase 0 en la Figura 6 se usa como ejemplo positivo y la clase 1 se usa como ejemplo negativo, entonces la fórmula de la tasa de error de costo sensible se puede definir de la siguiente manera:

Podemos ver los cambios en la fórmula. Según el juicio original, se asignan diferentes ponderaciones de costos a diferentes situaciones, por lo que el costo afectará el costo final.

En el caso de costos desiguales, la curva ROC también debe cambiar para reflejar el verdadero costo total esperado, por lo que aquí se propone la curva de costos. El eje horizontal es el costo de tasa positiva de [0, 1] y el eje vertical es el costo normalizado de [0, 1]. Sus fórmulas son las siguientes:

Donde p representa la probabilidad de que la muestra sea una razón positiva. Entendamos estas dos fórmulas. Primero, según la Figura 6, solo habrá ejemplos de falsos negativos y ejemplos de falsos positivos que pueden pagar el costo incorrecto, por lo que el denominador representa el costo total. En segundo lugar, entre los ejemplos positivos, tendremos la posibilidad de ejemplos falsos positivos con probabilidad P, y la posibilidad de ejemplos falsos negativos con probabilidad p-1. Por lo tanto, según el significado de costo de ejemplo positivo, el numerador de la primera fórmula representa el número total de contraejemplos falsos. Finalmente, comprenda el costo total normalizado. Además de definir el mismo costo total que el costo de tasa positiva, el numerador también agrega una distinción entre diferentes probabilidades de error, por lo que el numerador de esta fórmula contiene dos detalles: el tipo de segmentación del error y el costo de la segmentación del error. Estas dos características son el costo total. De acuerdo con la fórmula y refiriéndose al método de dibujo de curvas en ROC, se puede obtener la siguiente imagen:

Debería haber hecho programación lineal en la escuela secundaria. En ese momento, usé ecuaciones de curvas y desigualdades para representar las partes sombreadas para limitar el alcance del área bidimensional. Lo mismo ocurre con la curva de costos.

La curva ROC no tiene una línea recta correspondiente al plano de costos, porque estas líneas rectas son el valor máximo (peor caso) bajo el costo actual, por lo que el costo total está debajo de cada línea recta, es decir, la unión de las áreas. bajo todas las líneas rectas está el costo total esperado. El rendimiento de los modelos se compara indirectamente calculando áreas de comparación.

Con los métodos de evaluación anteriores y los métodos de medición del desempeño, puedes comenzar a comparar modelos. La secuencia general es: primero utilizar el método de evaluación, seleccionar a los alumnos adecuados, utilizar métodos de medición del desempeño para probar diferentes resultados de aprendizaje y luego comparar. La comparación no es una simple comparación de tamaño, principalmente por las siguientes razones: ① Cómo comparar con mayor precisión el rendimiento de la "generalización", no solo el rendimiento en el "conjunto de prueba". ? ②El conjunto de prueba es aleatorio y los resultados de diferentes conjuntos de prueba son diferentes. ? ③Los algoritmos de aprendizaje automático son aleatorios y los resultados obtenidos con los mismos parámetros del modelo serán diferentes. Entonces, ¿cómo deberíamos comparar? Esta sección se centra en esto. Utilizamos principalmente el método de prueba de hipótesis en la teoría de la probabilidad. Esta sección presentará dos métodos de prueba de hipótesis de uso común y métodos de comparación de rendimiento del aprendizaje automático de uso común. Los símbolos de fórmula están configurados para representar tasas de error y mediciones de rendimiento.

En las estadísticas sólo se pueden calcular las tasas de error de prueba. La idea de este método es representar indirectamente la tasa de error de generalización a través de la tasa de error de prueba. Suponiendo un muestreo independiente, si hay m muestras en la prueba, la probabilidad total de error de la prueba se puede expresar mediante la distribución binomial de la siguiente manera:

Dada, la ecuación de derivada parcial de primer orden del par se puede resolver , se sabe que en y cuando es el máximo, para 10 muestras, la solución es la siguiente:

A través de la prueba binomial, se supone que el intervalo de confianza se calcula dentro de la probabilidad.

La prueba de hipótesis anterior tiene como objetivo un resultado de un modelo, pero a veces produciremos múltiples resultados, como al usar el método de reserva múltiple o el método de validación cruzada. En este caso, se puede usar la prueba t. Supongamos que se han probado k tasas de error y que su media es y su varianza se definen de la siguiente manera:

La k tasa de error de prueba puede considerarse como una muestra independiente de la tasa de error generalizada. Variables de prueba:

Cumplir con la distribución t con grados de libertad k-1, como se muestra en la siguiente figura:

Usando la hipótesis bilateral, la parte sombreada de la figura está entre y , si se incluye, entonces se acepta la hipótesis; en caso contrario, se rechaza.

Hay dos alumnos A y B, los cuales utilizan el método de validación cruzada K-fold. La tasa de error obtenida es la suma. El valor de I es de 1 a K. Un par se entrena con el. misma posición de plegado. Luego puede utilizar la "prueba t pareada", donde se cree que si dos alumnos son iguales, las tasas de error para los mismos números también serán las mismas. El método específico de este algoritmo es el siguiente:

(1) Calcular la media y la varianza.

② Encuentre la variable. Si es menor, acepte la hipótesis; de lo contrario, rechace la hipótesis. Un modelo con una tasa de error pequeña es mejor.

Mencionamos antes que el supuesto al calcular el error de generalización es que la tasa de error de la prueba es una muestra independiente de la tasa de error de generalización. La validación cruzada K-fold obviamente utiliza datos superpuestos en múltiples pruebas, lo que hace que el resultado del cálculo final sea más alto de lo normal. Para resolver este problema, se puede utilizar la validación cruzada. El siguiente es el proceso de implementación de este método:

① Realice una verificación cruzada del 20% 5 veces.

② Mezcle aleatoriamente los datos antes de cada prueba de doble cruce para que la distribución de datos de las cinco pruebas sea diferente.

(3) Suponga que la interpolación obtenida por el n-ésimo es la media y la varianza obtenidas para cada dos experimentos de cruce doble.

Utilizando los datos conocidos obtenidos en los tres pasos, se puede encontrar la variable T: obedece a la distribución T con n grados de libertad, y el resultado se puede obtener consultando la tabla.

Este método de prueba es más adecuado para problemas de clasificación binaria. Utilizando el método de estantería, se puede estimar la tasa de error de prueba del alumno AB, se puede obtener la diferencia en los resultados de la clasificación del alumno y mostrarla mediante una tabla de contingencia. Un ejemplo es el siguiente:

Si el desempeño de dos alumnos es similar, con una media de 1 y una varianza de 0, entonces la variable t:

obedece a un chi-cuadrado distribución con un grado de libertad de 1, y se establece Si la significancia es , entonces se acepta la hipótesis cuando el resultado de la variable es menor que el valor crítico, en caso contrario se rechaza la hipótesis.

Los métodos de prueba anteriores comparaban principalmente el rendimiento del aprendizaje de dos alumnos con el mismo conjunto de datos. Si bien se pueden comparar más algoritmos en pares, no es tan sencillo como la prueba de Friedman. Se basa en clasificaciones algorítmicas y se puede comparar directamente con múltiples algoritmos. Ahora supongamos que hay cuatro conjuntos de datos y tres algoritmos ABC, entonces el proceso del algoritmo es el siguiente:

① Utilice el método de reserva o el método de verificación cruzada para obtener los resultados de la prueba de cada algoritmo en cada conjunto de datos y complete Algoritmos, compare tablas de valores de secuencia.

② Clasifica el rendimiento de cada algoritmo en cada conjunto de datos y asigna valores 1, 2, 3, etc. Si el rendimiento de dos algoritmos es el mismo, tome el promedio. Un ejemplo de la tabla es el siguiente:

③Juzgue si el rendimiento de los algoritmos es el mismo a partir de la tabla. Si son iguales, los valores ordinales promedio son los mismos, en caso contrario se toma el promedio. Consulte la Figura 11 para ver un ejemplo.

Supongamos que hay n conjuntos de datos, compare k algoritmos, establezca el valor ordinal promedio que representa el algoritmo I-ésimo y configúrelo para que obedezca la distribución normal, con media y varianza, luego la variable t:< /p >

Cuando k y n son grandes, las variables obedecen a la distribución chi-cuadrado con k-1 grados de libertad. La fórmula anterior es algo conservadora. La fórmula mejorada cambia la distribución a distribución f para que los resultados sean más precisos, de la siguiente manera:

La variable obedece a la distribución F con k-1 grados de libertad. Los valores críticos se muestran en la siguiente figura:

Si la comparación de las pruebas anteriores niega la suposición de que "todos los algoritmos tienen el mismo rendimiento", significa que existen diferencias significativas en el rendimiento. El rendimiento de los algoritmos y las pruebas posteriores de Memenyi deben utilizarse para análisis posteriores. Calcula el rango de valores críticos de la diferencia de valores de secuencia promedio mediante la siguiente fórmula.

La siguiente figura muestra varios valores comunes:

Después de combinar los dos métodos de prueba anteriores para calcular los resultados, se pueden mostrar visualmente en el gráfico de prueba de Friedman. Los resultados obtenidos del ejemplo anterior del algoritmo ABC son los siguientes:

El eje horizontal de la figura es el valor ordinal promedio, representado por puntos, y la línea horizontal es el rango de valores críticos. Si las líneas horizontales entre algoritmos se superponen, no hay diferencia de primero en salir entre los dos algoritmos; de lo contrario, hay una diferencia significativa. En la Figura 15, A y B se superponen, por lo que no hay una diferencia significativa. A y C no se superponen. El valor de orden de A es mayor, lo que indica que el algoritmo A es mejor que el algoritmo C. (En realidad, hay un problema aquí. Algoritmo. B y el algoritmo C en la figura se superponen, lo que indica que no hay una diferencia significativa entre B y C. Entonces, según la relación de transferencia, ¿no hay una diferencia significativa entre los tres)<1>

Además de? Al evaluar el rendimiento de la generalización, a menudo necesitamos saber por qué el modelo muestra tal rendimiento y por eso necesitamos utilizar el método de "descomposición de sesgo-varianza" para explicarlo. La idea básica es descomponer la tasa de error de generalización esperada evaluada por el algoritmo de aprendizaje. Esta sección explica principalmente su implementación.

Para la muestra de prueba, let es una marca real en el conjunto de datos, que representa el resultado previsto del modelo de aprendizaje en el conjunto de entrenamiento d, tomando la tarea de regresión como ejemplo.

Definir expectativa Expectativa:

Definir diferencia:

Definir ruido:

La diferencia entre la salida esperada y los tokens reales se llama sesgo. que se define como:

Para facilitar la derivación, sea = 0. El libro del proceso de derivación es muy detallado e importante. La captura de pantalla es la siguiente:

Entonces se introducen las variables previamente definidas:

En otras palabras, el error de generalización se puede descomponer en la suma de sesgo, varianza y ruido.

En la fórmula, la desviación representa el error entre el resultado esperado y el resultado real, es decir, la capacidad de ajuste del algoritmo de aprendizaje automático; la varianza mide el cambio en el rendimiento del aprendizaje del mismo conjunto de entrenamiento; , es decir, el impacto de la alteración de los datos; el ruido representa el límite inferior del error de generalización, que es la dificultad de aprendizaje del problema en sí. Los resultados muestran que el error de generalización consta de estos tres factores.

En términos generales, la desviación y el error son contradictorios, como se muestra en la siguiente figura (la línea negra en la parte inferior representa la desviación y la línea negra en la parte superior representa el error de generalización), lo que significa que No podemos garantizar que cada indicador pueda lograrse lo mejor posible. Cuando el grado de entrenamiento es pequeño, la desviación de la predicción de los datos es grande debido al desajuste. En este momento, el principal factor que afecta el error de generalización es el sesgo. A medida que el nivel de entrenamiento aumenta gradualmente y el modelo se vuelve cada vez más perfecto, la desviación será menor y la varianza mayor. Cuando el entrenamiento es demasiado grande, el modelo está sobreajustado. Aunque el sesgo es pequeño, la varianza es grande. El principal factor que afecta el error de generalización en este momento es la varianza. Según la teoría, deberíamos dar el grado de formación sólo para minimizar el error de generalización.

En este capítulo, aprenderemos cómo evaluar y seleccionar modelos. En primer lugar, sabemos que los diferentes niveles de aprendizaje de los modelos de aprendizaje pueden conducir a un ajuste insuficiente o excesivo. Luego aprendimos los métodos de selección de modelos: método de espera, método de validación cruzada K-fold y método de arranque. Después de elegir un modelo de coche, mida el rendimiento. Este artículo utiliza el error de cálculo para expresarlo y menciona varios métodos, como tasa de error, precisión, tasa de precisión, tasa de recuperación, ROC, AUC, error sensible al costo y curva de costo. Después de calcular el rendimiento, todavía necesitamos comparar varios modelos.

Este artículo trata sobre la prueba de Friedman, la prueba de seguimiento de Memenyi y? ¿Prueba de McNema? ¿Prueba t de validación cruzada? Compare y pruebe estos métodos. Finalmente, abordamos el uso del sesgo y la varianza para comprender por qué un modelo produce resultados de rendimiento.