Red de conocimientos sobre prescripción popular - Cuidado de la salud en otoño - Serie de aprendizaje automático (24): validación cruzada y equilibrio de varianzas

Serie de aprendizaje automático (24): validación cruzada y equilibrio de varianzas

Anteriormente aprendimos que el conjunto de datos de prueba se puede utilizar para corregir el fenómeno de sobreajuste del modelo, pero esto en realidad es problemático. Cada vez que usamos el conjunto de datos de prueba para ver qué tan bueno es el modelo, si encontramos que el modelo funciona mal, ajustaremos los parámetros del modelo para optimizarlo. Equivalemos a ajustar los parámetros de este conjunto de datos de prueba, por lo que es probable que el modelo final se ajuste demasiado al conjunto de datos de prueba.

El conjunto de prueba es muy valioso y equivale a datos nuevos encontrados por el modelo. Un modelo de aprendizaje automático realmente bueno debe tener una buena capacidad de predicción de datos nuevos, por lo que el conjunto de datos de prueba generalmente no participa en el proceso de creación y capacitación del modelo, y solo se usa para la evaluación final una vez que se completa la capacitación del modelo.

Por lo tanto, en estudios anteriores, no era apropiado dividir el conjunto de entrenamiento y el conjunto de prueba. La solución es dividir el conjunto de datos en conjunto de entrenamiento, conjunto de validación y conjunto de prueba. Ahora el conjunto de validación hace lo que hizo el conjunto de prueba en el estudio anterior: ajustar los hiperparámetros y finalmente utilizar el conjunto de prueba para evaluar el rendimiento final del modelo. Por supuesto, el conjunto de validación puede estar sobreajustado debido a datos extremos individuales, por lo que tenemos validación cruzada.

Aquí hay una validación cruzada triple, que divide los datos de entrenamiento en tres partes, dos de las cuales son el entrenamiento 1, que se utiliza para verificar los parámetros de ajuste. De esta forma se pueden obtener tres modelos y el promedio de los resultados de estos tres modelos se toma como resultado final del ajuste de parámetros, lo cual es mucho mejor que tener un solo conjunto de validación. A continuación usaremos el algoritmo knn para realizar una validación cruzada en el conjunto de datos de dígitos escritos a mano para ver cómo funciona. Primero, echemos un vistazo a la situación sin validación cruzada:

Resultados de búsqueda:

Sin validación cruzada, los parámetros óptimos son k=2 y p=2, la precisión la tasa alcanza el 99,2.

Utilizar validación cruzada:

Buscar parámetros óptimos mediante validación cruzada:

Validación cruzada de parámetros óptimos:

Cruzar -prueba de verificación La precisión del modelo óptimo centralizado;

Generalmente, la precisión óptima del modelo óptimo obtenido mediante validación cruzada es ligeramente menor que la sin validación cruzada, porque sin validación cruzada, el sobreajuste ocurrir.

De hecho, la validación cruzada no necesariamente se divide en tres partes, pero puede ser más. Este es solo un ejemplo, existe una validación cruzada correspondiente de k veces. La validación cruzada de K veces es equivalente a entrenar modelos K, por lo que el rendimiento general será K veces más lento. Pero los parámetros de este tipo de entrenamiento serán más confiables. Tiene un caso extremo de dejar un Loo-CV (dejar uno fuera de validación cruzada), es decir, k es igual al número de muestras en el entrenamiento. conjunto, que no se verá afectado en absoluto por la aleatoriedad. El impacto es el más cercano al índice de rendimiento real del modelo, pero la cantidad de cálculo también será enorme.

Los errores inevitables existen objetivamente, como el ruido en los propios datos. Estos algoritmos de error son impotentes. Pero el sesgo y la variación se pueden optimizar mediante algunos métodos. El sesgo suele deberse a suposiciones incorrectas sobre el problema en sí. Por ejemplo, la regresión lineal se utiliza para datos no lineales y el sesgo suele estar relacionado con el desajuste. La varianza significa que una pequeña perturbación de los datos tendrá un gran impacto en el modelo. Esto generalmente se debe a que el modelo utilizado es demasiado complejo, como la regresión polinómica de alto orden. La varianza generalmente está relacionada con el sobreajuste, lo que introducirá en gran medida la varianza. .

Algunos algoritmos en sí mismos son algoritmos de alta varianza, como knn. El aprendizaje no paramétrico suele ser un algoritmo de alta varianza porque no se hacen suposiciones sobre los datos. Algunos algoritmos son inherentemente algoritmos de alto sesgo, como la regresión lineal. El aprendizaje de parámetros suele ser un algoritmo de alto sesgo debido a fuertes suposiciones sobre los datos. El sesgo y la varianza son a menudo contradictorios. Reducir el sesgo aumentará la varianza, y reducir la varianza aumentará el sesgo. Sin embargo, en general, el algoritmo puede equilibrar adecuadamente el sesgo y la varianza ajustando los parámetros. ¡El principal desafío en el aprendizaje automático proviene de la variación (resolver el problema de sobreajuste)! , los métodos para resolver una alta varianza generalmente incluyen los siguientes:

Entre ellos, la regularización del modelo es un método muy común e importante para reducir el sobreajuste en el aprendizaje automático, que se presentará en el próximo capítulo.