Algoritmos de clasificación supervisados
La clasificación supervisada (clasificación supervisada), también conocida como método de campo de entrenamiento, es una tecnología basada en el establecimiento de funciones de identificación estadística como base teórica y clasificación basada en métodos de entrenamiento de muestra típicos.
Regresión: en el proceso de modelado, se deben incluir tanto las variables independientes x como las variables dependientes y, que es un algoritmo de aprendizaje supervisado. La variable de salida es discreta.
Introducción principal: logística, árbol de decisión, bosque aleatorio, KNN, Naive Bayes
Consejos: el árbol de decisión, el bosque aleatorio y KNN también se pueden utilizar para la predicción de variables continuas.
Regresión logística:
Ideología:
Alta o baja.
La logística se utiliza para juzgar variables dependientes discretas, como si el cliente es de alta calidad, la probabilidad de abandono de clientes, etc.
Convierta los valores predichos de la regresión lineal en valores de probabilidad mediante la función Logit no lineal. Solución de parámetros: combine la iteración con el descenso de gradiente para cada parámetro desconocido. La longitud del paso de la tasa de aprendizaje generalmente puede ser 0.1, 0.05, 0.01. Si es demasiado pequeña, se requerirán demasiadas iteraciones y la velocidad de convergencia será demasiado lenta. Si es demasiado grande, será difícil obtener el valor ideal. Sólo un mínimo local. Explicación del parámetro: la relación entre la razón de posibilidades y la relación de incidencia. Por ejemplo, cada aumento de unidad en el volumen del tumor hará que la relación de incidencia de cáncer cambie el parámetro varias veces.