Lenguaje R-17 Árbol de decisión
Es un modelo de predicción, dividido en árbol de decisión de regresión y árbol de decisión de clasificación. Entrena un modelo de árbol basado en muestras conocidas y luego predice la variable dependiente de la nueva muestra en función del modelo para obtener la. valor predicho o valor predicho Clasificación
Una ruta desde el nodo raíz al nodo hoja corresponde a una regla. Todo el árbol de decisión corresponde a un conjunto de reglas de expresión. Los nodos de hoja representan los valores predichos obtenidos según esta regla. Como se muestra en la figura siguiente, el modelo de árbol de decisión obtiene las reglas sobre si el préstamo se puede pagar en función de los tres atributos de bienes raíces, matrimonio e ingresos mensuales.
El núcleo es cómo seleccionar atributos representativos de muchos atributos como nodos de rama del árbol de decisión.
Existen tres métodos básicos de medición para seleccionar atributos
1. Ganancia de información (algoritmo ID3)
Entropía de información
An información Qué El símbolo enviado por la fuente es incierto y puede medirse en términos de la probabilidad de que ocurra. Cuanto mayor sea la probabilidad, mayores serán las posibilidades de que ocurra y cuanto menor sea la incertidumbre, de lo contrario, la incertidumbre será mayor; La función de incertidumbre f es una función decreciente de la probabilidad P. La incertidumbre producida por dos símbolos independientes debe ser igual a la suma de sus respectivas incertidumbres, es decir, f(P1, P2) = f(P1) f(P2). La función f que satisface estas dos condiciones al mismo tiempo es una función logarítmica, es decir,
En la fuente de información lo que se considera no es la incertidumbre de la aparición de un solo símbolo, sino todas las posibles. ocurrencias de la fuente de información. La incertidumbre promedio de la situación. Por tanto, la entropía de la información se define como
Proceso de clasificación del árbol de decisión
2. Tasa de ganancia (algoritmo C4.5)
Debido a las desventajas de la ganancia de información: tendencia Es ventajoso seleccionar atributos con una gran cantidad de valores porque los atributos con una gran cantidad de valores corresponden a una pequeña cantidad de datos por atributo y tienden a tener una mayor pureza de información. Por lo tanto, la tasa de ganancia utiliza la proporción de ganancia de información/entropía del sistema reemplazada por este atributo (similar a la proporción de entropía del sistema calculada reemplazando el juego con este atributo en el paso anterior), tratando de superar esta deficiencia.
g(D, A) representa la ganancia de información del atributo A del conjunto de datos D,
3. Índice de Gini (algoritmo CART)
Índice de Gini:
Representado en el conjunto de muestras Cuanto menor sea la probabilidad de que una muestra seleccionada al azar esté mal clasificada, menor será la probabilidad de que la muestra seleccionada en el conjunto esté mal clasificada, lo que significa que la pureza del conjunto es mayor
Nota:
1. pk representa la probabilidad de que la muestra seleccionada pertenezca a la categoría k, luego la probabilidad de esta muestra. estar mal clasificado es (1-pk)
2. Hay K categorías en el conjunto de muestras. Una muestra seleccionada al azar puede pertenecer a cualquiera de las k categorías, por lo que las categorías se suman
<. p> 3. Cuando es una clasificación de dos clases, Gini(P) = 2p(1-p)El índice de Gini divide el atributo A en binario, por lo que lo que se obtiene es un árbol binario. es un atributo discreto, las categorías del atributo discreto se dividirán en dos categorías. Dos combinaciones, calcule el índice de Gini.
Por ejemplo:
Por ejemplo, la característica Temperatura anterior tiene tres valores de característica: "Caliente", "Suave", "Frío",
Cuando se usa La característica de "educación" para dividir el conjunto de muestra D, hay tres valores de división, por lo que hay tres conjuntos posibles de divisiones. Los subconjuntos divididos son los siguientes:
Para cada una de las divisiones anteriores, usted. Puede calcular la pureza de dividir el conjunto de muestras D en dos subconjuntos en función de la característica de división = un determinado valor de característica:
Proceso de clasificación del número de decisión
Podar primero: detenerse temprano El árbol es construido podando el árbol Al construir el árbol, se utiliza la ganancia de información, la significación estadística, etc. Cuando la división de un nodo da como resultado un umbral predefinido por debajo de la métrica anterior, se detiene la división adicional. Pero determinar el umbral es difícil.
Poda posterior: se utiliza más comúnmente, primero se obtiene el árbol completamente desarrollado y luego se trabaja de abajo hacia arriba, reemplazando el nudo con las hojas del nudo más bajo.
El CART utiliza el costo Algoritmo de rama de poda de complejidad: calcula la complejidad del costo de cada nodo después de la poda y antes de la poda. Si el nodo se poda, la complejidad del costo es menor (la complejidad es una función del nodo del árbol y la tasa de error del árbol, es decir. , el índice de clasificación errónea ), luego córtelo.
C4.5 usa poda pesimista: similar a la complejidad de costos, pero CART usa el conjunto de poda para evaluar la complejidad de costos, y C4.5 usa el conjunto de entrenamiento más una penalización para evaluar la tasa de error p>
Escalabilidad de los árboles de decisión
ID3\C4.5\CART están diseñados para conjuntos de datos más pequeños y todos restringen las primitivas de entrenamiento para que permanezcan en la memoria para resolver la escalabilidad. Problema, otros algoritmos como
RainForest (selva tropical): mantienen un conjunto de AVC para cada atributo y describen la tupla de entrenamiento del nodo, por lo que solo necesita colocar el conjunto de AVC en la memoria
Algoritmo optimista de arranque BOAT: utiliza estadísticas para crear muestras más pequeñas de datos de entrenamiento dados. Cada muestra construye un árbol, lo que da como resultado múltiples árboles y luego los usa para construir un nuevo árbol. La ventaja es que se puede actualizar incrementalmente cuando se insertan o eliminan datos, solo se actualiza el árbol de decisión sin reconstrucción.
Minería visual de árboles de decisión
El sistema PBC permite a los usuarios especificar múltiples puntos de división, lo que da como resultado múltiples ramas. Los atributos numéricos de los algoritmos de árboles de decisión tradicionales son divisiones binarias. Y puedes construir árboles de forma interactiva.
rpart utiliza el algoritmo de carrito, tipo continuo "anova"; tipo discreto "clase"
2) Función para poda: prune()
3) Calcule MAE para evaluar el error del modelo de árbol de regresión. Aquí, la muestra se divide en un conjunto de entrenamiento y un conjunto de prueba, y testdata es el conjunto de prueba
rt.mae es el modelo de árbol de decisión obtenido en función de. conjunto de entrenamiento en la variable dependiente del conjunto de prueba El error absoluto promedio entre los resultados previstos y el valor real de la variable dependiente en el conjunto de prueba.