¿Qué es un árbol de decisión?
Referencia:
Árbol de decisión (árbol de clasificación, árbol de regresión)
Árbol de decisión: Las ilustraciones de este blog son realmente hermosas y fáciles de entender. Jajaja risa
Explicación detallada del árbol de decisión
El árbol de decisión es un algoritmo de aprendizaje supervisado comúnmente utilizado para clasificación y regresión. Este artículo solo analiza cuestiones de clasificación.
El modelo de árbol de decisión es una estructura de árbol utilizada para clasificación y regresión. Un árbol de decisión consta de nodos y aristas dirigidas. Normalmente, un árbol de decisión contiene un nodo raíz, varios nodos internos y varios nodos hoja. El proceso de toma de decisiones del árbol de decisión debe comenzar desde el nodo raíz del árbol de decisión, comparar los datos que se van a probar con los nodos de características en el árbol de decisión y seleccionar la siguiente rama de comparación según los resultados de la comparación hasta la hoja. El nodo es el resultado de la decisión final.
En resumen, un árbol de decisión es un modelo de clasificación múltiple que utiliza un modelo de árbol para tomar decisiones.
Para encontrar las características de segmentación óptimas, primero debemos comprender algunos conocimientos de la teoría de la información:
Pureza:
Puedes comprender el proceso de construcción de la árbol de decisión como hallazgo puro El proceso de división. Matemáticamente, podemos representar la pureza. Otra forma de interpretar la pureza es minimizar la diferencia en la variable objetivo.
Incertidumbre de la información.
En teoría de la información, la probabilidad de eventos discretos aleatorios es incierta. Para medir la incertidumbre de esta información, Shannon, el padre de la informática, introdujo el concepto de entropía de la información.
Cuanto mayor es la incertidumbre, mayor es la cantidad de información contenida y mayor es la entropía de la información.
Cuanto mayor es la entropía de la información, menor es la pureza. Cuando todas las muestras de la colección se mezclan uniformemente, la entropía de la información es la mayor y la pureza la más baja.
Hay tres indicadores clásicos de "impureza", a saber, ganancia de información (algoritmo ID3), tasa de ganancia de información (algoritmo C4.5) e índice de Gini (algoritmo Cart).
Ganancia de información:
La ganancia de información significa que la división puede mejorar la pureza y reducir la entropía de la información. Su fórmula de cálculo es la entropía de información del nodo principal menos la entropía de información de todos los nodos secundarios.
Tasa de ganancia de información
Tasa de ganancia de información = ganancia de información/entropía de atributo
Índice de Gini
Índice de Gini (impureza de Gini): representación La probabilidad de que una muestra seleccionada al azar del conjunto de muestras esté mal clasificada.
Es decir, índice de Gini (impureza de Gini) = probabilidad de que una muestra sea seleccionada * probabilidad de que una muestra sea mal clasificada.
El coeficiente de Gini tiene las mismas propiedades que la entropía de la información: mide la incertidumbre de las variables aleatorias;
Cuanto mayor g, mayor es la incertidumbre de los datos;
Cuanto menor es g, menor es la incertidumbre de los datos;
G = 0, todas las muestras del conjunto de datos pertenecen a la misma categoría.
Referencia detallada: Aprendizaje automático - Índice de Gini
El algoritmo ID3 se basa en la navaja de Occam (se pueden hacer las cosas bien con menos): cuanto más pequeño es el árbol de decisión, menor es la decisión árbol Cuanto mejor.
El núcleo del algoritmo ID3 es seleccionar las características que se dividirán en función de la ganancia de información de cada nodo del árbol de decisión y luego construir recursivamente el árbol de decisión. El algoritmo utiliza una búsqueda codiciosa de arriba hacia abajo para recorrer el espacio de posibles árboles de decisión.
Métodos específicos:
Limitaciones de ID3:
C4.5 es similar a ID3, pero una de sus principales características es que supera el enfoque de ID3 en la número de características Desventaja: La tasa de ganancia de información se introduce como criterio de clasificación.
La implementación de C4.5 se mejora sobre la base de ID3;
La tasa de ganancia de información está sesgada hacia características con valores esperados más bajos (cuanto menor es el denominador, mayor en general), por lo que C4 .5 no divide directamente las características con la mayor tasa de ganancia, sino que utiliza un método heurístico: primero encuentre las características con una ganancia de información mayor que el promedio de las características de división candidatas y luego seleccione las características con la tasa de ganancia más alta.
Limitaciones de C4.5:
Las ramas y escala de los árboles de decisión generados por ID3 y C4.5 son muy grandes. La dicotomía del algoritmo CART puede simplificar el tamaño del árbol de decisión y mejorar la eficiencia de generar el árbol de decisión.
Cart (árbol de regresión de clasificación) es un algoritmo de árbol de regresión de clasificación que se puede utilizar tanto para clasificación como para regresión. En esta parte, generamos principalmente primero su árbol de clasificación. A diferencia de ID3 y C4.5, CART supone que el árbol de decisión es un árbol binario, los valores de las características del nodo interno son "sí" y "no", la rama izquierda es la rama con el valor "sí". y la rama derecha es la rama de valor "no". Un árbol de decisión de este tipo equivale a dividir recursivamente cada característica en dos y dividir el espacio de entrada (es decir, el espacio de características) en un número finito de unidades.
El árbol de clasificación de CART utiliza el índice de Gini para seleccionar el punto de división óptimo para la característica óptima. El proceso específico es el siguiente.
Poda es adelgazar el árbol de decisiones. El objetivo de este paso es obtener buenos resultados sin juzgar demasiado. La razón de esto es evitar el "sobreajuste".
Sobreajuste: significa que los resultados del entrenamiento del modelo son "demasiado buenos", pero aparecerán "rígidos" en el proceso de aplicación real, lo que provocará errores de clasificación.
Underfitting: se refiere a los resultados de entrenamiento insatisfactorios del modelo.
Método de poda:
Referencia: Árbol de decisión de aprendizaje automático (1)-ID3, C4.5, CART (muy detallado)
Hay más modelos en Continuamente actualizado. . . .