Red de conocimiento de divisas - Cuestiones de seguridad social - ¿Qué es un árbol de decisión?

¿Qué es un árbol de decisión?

El árbol de decisiones (árbol de decisiones) se utiliza a menudo para estudiar modelos de relación de predicción y atribución de categorías. Por ejemplo, cuatro características personales, como si fuma, bebe, envejece y pesa, pueden afectar "si desarrolla cáncer". ." Lo anterior Las cuatro características personales se denominan 'características', que son las variables independientes (los factores que influyen X), y 'si tienes cáncer' se denominan 'etiquetas', que son las variables dependientes (los elementos afectados Y). Cuando se utiliza el modelo de árbol de decisión, primero se puede dividir la edad, por ejemplo, se utiliza 70 años como límite. Cuando la edad es mayor a 70 años, es más probable que se clasifique como "cáncer". luego se divide el peso, por ejemplo, cuando pesa más de 50 kilogramos, es más probable que se clasifique como "cáncer". El ciclo continúa en secuencia después de la combinación lógica de características (como la edad). mayor de 70 años, peso mayor a 50 kilogramos), le corresponderá la etiqueta de si tiene cáncer.

El árbol de decisión es un modelo de predicción. Para tener una buena capacidad de predicción, los datos generalmente deben dividirse en dos grupos, a saber, datos de entrenamiento y datos de prueba. Los datos de entrenamiento se utilizan para establecer el modelo, es decir, para establecer la correspondencia entre la combinación de características y la etiqueta. Después de obtener dicha correspondencia (después del modelo), los datos de prueba se utilizan para verificar la calidad del modelo actual. . En circunstancias normales, la proporción entre los datos de entrenamiento y los datos de prueba suele ser 9:1, 8:2, 7:3, 6:4 o 5:5 (por ejemplo, 9:1 significa que el 90% de todos los datos se utilizan como datos de entrenamiento). modelos, y los 10 restantes utilizados como modelo de prueba). La proporción específica depende de la cantidad de datos de la investigación y no existe un estándar fijo. Si los datos de la investigación son pequeños, como solo unos pocos cientos de datos, puede considerar usar 70, 60 o incluso 50 de los datos para la capacitación. y los datos restantes para realizar pruebas. Lo anterior incluye la construcción y predicción del modelo. Si el modelo obtenido a partir de los datos de entrenamiento es excelente, puede considerar guardarlo e implementarlo para su uso (esta es una aplicación en ingeniería informática y SPSSAU aún no la proporciona); Una vez construido el modelo de árbol de decisión, se pueden hacer predicciones, como si un nuevo paciente desarrollará cáncer y qué probabilidad hay de que lo desarrolle.

El modelo de árbol de decisión se puede utilizar para juzgar la calidad de las características, como los cuatro elementos anteriores, como si fuma, bebe, edad, peso, etc. La importancia de estos cuatro elementos para predecir ' Si tienes cáncer se puede clasificar para filtrar las funciones más útiles.

Al construir un modelo de árbol de decisión, es necesario establecer parámetros con el fin de construir un buen modelo (el estándar para un buen modelo suele ser: los resultados de la evaluación del modelo obtenidos a partir de los datos de entrenamiento son buenos, y los resultados de la evaluación al probar los datos). Una cosa que necesita especial atención es que los resultados de la evaluación del modelo en los datos de entrenamiento pueden ser muy buenos (incluso la precisión y otros indicadores son 100), pero los resultados de la evaluación en los datos de la prueba son realmente malos. Esta situación se llama ". sobreajuste'. Por lo tanto, es necesario prestar especial atención a esta situación en los datos de investigación reales. Al construir un modelo, generalmente cuanto más compleja sea la configuración de los parámetros, mejores serán los resultados de la evaluación del modelo en los datos de entrenamiento, pero los resultados de las pruebas serán muy pobres. Por lo tanto, al construir un árbol de decisiones, se debe prestar especial atención. a la configuración relacionada de los parámetros. A continuación, usaremos datos de casos para ilustrar esto.

En principio, el primer paso del modelo de árbol de decisión es encontrar la característica óptima y su punto de división. Por ejemplo, la característica que afecta si usted tiene cáncer es la edad más probable, y el punto de división puede ser. tener 70 años. Los menores de 70 años pueden clasificarse como "que no padecen cáncer", y los de 70 años o más pueden clasificarse como "que padecen cáncer". Este primer paso implicará dos términos profesionales, a saber, "estándar de división de nodos" y "método de división de nodos". El segundo paso es encontrar las características subóptimas y sus puntos de segmentación y continuar dividiendo. El ciclo continúa.

Cuando se trata de modelos de árbol de decisión, generalmente intervienen los siguientes valores de parámetros, de la siguiente manera:

Criterio de división de nodos: Se refiere al método de cálculo que debe encontrar el modelo. La prioridad de las características hay dos tipos, respectivamente, el coeficiente de Gini y el coeficiente de entropía. Las dos funciones son solo la diferencia entre los estándares de cálculo y son completamente consistentes.

SPSSAU funciona de la siguiente manera:

上篇: Salario de fotografía de retrato de tía 下篇: Qué es un fondo mutuo (explica qué es un fondo mutuo)
Artículos populares