Red de conocimiento de divisas - Conocimiento de préstamos - Cómo abordar el problema del desequilibrio de muestras

Cómo abordar el problema del desequilibrio de muestras

Las soluciones relevantes al problema del desequilibrio de la muestra son las siguientes:

Primero, observe las seis dimensiones del proceso de modelado de ingeniería a partir de los datos, que incluyen:

Comprensión empresarial: inicio. Del negocio real, aclarar las necesidades del negocio.

2. Comprensión de los datos: basándose en datos reales, aclare las características de los datos, como el ciclo de actualización de los datos.

3. Preprocesamiento de datos: limpie, procese y realice ingeniería de funciones y muestree muestras.

4. Modelado: introduzca métodos de modelo relevantes para completar los requisitos del modelo.

5. Evaluación general del modelo: realice efectos del modelo para garantizar que los efectos del modelo cumplan con los requisitos reales. 6. Expresión de datos: el documento de licitación para todo el proceso de aplicación y modelado de datos.

Esta vez, nos centramos principalmente en el proceso de preprocesamiento de datos en el proceso de modelado y realizamos una selección de muestras para garantizar que la distribución de la muestra satisfaga las necesidades de modelado o que las muestras del modelo puedan expresar con precisión las necesidades comerciales.

1. ¿Qué es el desequilibrio de muestra?

El llamado desequilibrio significa que los tamaños de muestra de diferentes categorías varían mucho, o que una pequeña cantidad de muestras representan los datos clave del negocio, por lo que debes aprender el patrón de una pequeña cantidad de muestras. . La distribución desigual de clases de muestra ocurre principalmente en problemas de modelado relacionados con la clasificación.

La distribución desigual de las categorías de muestra se puede dividir en dos tipos: distribución desigual de big data y distribución desigual de datos pequeños según el tamaño de los datos:

(1) Distribución desigual de big data —— La escala general de datos es grande y cierto tipo de muestra representa una proporción relativamente pequeña. Por ejemplo, en un conjunto de datos con 654,38 millones de registros, una pequeña cantidad de muestras de clasificación que representan 50.000 registros cae convenientemente en esta situación.

(2) Los datos pequeños se distribuyen de manera desigual: si el tamaño general de los datos es pequeño, la cantidad de muestras en una determinada categoría también será pequeña. En este caso, debido a que el número de muestras pequeñas es demasiado pequeño, es difícil extraer características para el aprendizaje de algoritmos supervisados/no supervisados, lo cual es un problema cuando la distribución de muestras de datos pequeñas es muy desigual. Por ejemplo, hay 100 muestras, 20 muestras A y 80 muestras B.

2. En proyectos reales, ¿cuáles son los escenarios de desequilibrio de muestra?

(1) Escenarios de detección anormales, como cepillado malicioso, pedidos de reventa, fraude con tarjetas de crédito, robo de electricidad, fallas de equipos, etc. , la proporción de estas muestras de datos suele ser una pequeña fracción de la muestra general. Tomando como ejemplo el fraude con tarjetas de crédito, la tasa de fraude de las tarjetas de crédito físicas generalmente está dentro del 0,1.

(2) Escenario de pérdida de clientes: la cantidad de pérdida de clientes de las grandes empresas suele ser muy pequeña en comparación con el total de clientes, especialmente para los gigantes de la industria con posiciones monopólicas, como las telecomunicaciones, el petróleo, los operadores de redes, etc. .

(3) Análisis de eventos raros: la diferencia entre el análisis de eventos raros y los eventos anormales es que la detección de anomalías generalmente se basa en reglas y lógica predefinidas. La mayoría de los eventos anormales tienen un impacto negativo en las operaciones de las empresas sociales. Por lo tanto, es muy importante detectar y prevenir eventos anormales; sin embargo, los eventos raros son impredecibles y no tienen ningún impacto positivo o negativo obvio; Los eventos anormales a menudo se detectan mediante métodos de detección de anomalías, que se presentarán más adelante.

(4) Eventos poco frecuentes: estos eventos son esperados o planificados, pero ocurren con baja frecuencia. Por ejemplo, el evento anual Doble 11 generalmente genera mayores ventas, pero a lo largo del año, es probable que la proporción de ventas en este día sea inferior a 1, especialmente para las empresas que rara vez participan en eventos. Este es un evento típico de baja frecuencia.

3. ¿Cómo abordar el problema del desequilibrio de la muestra durante el proceso de ingeniería?

(1) Submuestreo: cuando el número de muestras minoritarias no afecta el entrenamiento del modelo, al submuestrear la mayoría de las muestras, se puede lograr un equilibrio entre muestras minoritarias y muestras mayoritarias.

(2) Sobremuestreo: cuando el número de muestras minoritarias no admite el entrenamiento del modelo, el equilibrio entre las muestras minoritarias y las muestras mayoritarias se puede lograr sobremuestreando las muestras minoritarias.

(3) Algoritmo de modelo: al introducir un algoritmo de modelo muy dependiente, se centra en ajustar una pequeña cantidad de muestras y mejora el aprendizaje de las características de una pequeña cantidad de muestras.

Cuarto, procesamiento de ecualización de muestras

4.1 Ecualización-submuestreo de muestras

El método de submuestreo (también llamado submuestreo, EE. UU.) reduce la mayoría de las clasificaciones El número de muestras en la categoría para lograr el equilibrio de la muestra. El submuestreo pierde parte de información de la mayoría de las muestras y retiene una pequeña cantidad de muestras. Después del submuestreo, el número total de muestras disminuye.

4.1.1 Eliminación aleatoria

La eliminación aleatoria significa eliminar aleatoriamente algunas muestras grandes para equilibrar el número de muestras pequeñas y grandes.

Los principales métodos de eliminación aleatoria son los siguientes:

1. Determinar el número de muestras múltiples y pequeñas en el conjunto de muestras. el número de muestras múltiples en el conjunto de muestras La proporción de una muestra a una pequeña cantidad de muestras;

3. Basado en una pequeña cantidad de muestras, determine el número total de muestras de múltiples muestras;

p>

4. Muestreo aleatorio de una gran cantidad de muestras.

En este algoritmo, puede utilizar la función random.sample() que viene con Python como semilla, como

4.1.2 Generación de prototipos

Método de generación de prototipos El conjunto de datos se regenerará en función del conjunto de datos original. El tamaño de muestra del conjunto de datos recién generado es menor que el tamaño de muestra del conjunto de datos original y las muestras del conjunto de datos recién generado no están en el conjunto de datos original.

En otras palabras, el conjunto de datos obtenido mediante el método de generación de prototipos se genera en lugar de seleccionarse a partir de las muestras originales. El algoritmo de generación de prototipos más común se implementa mediante agrupación. Por ejemplo, después de que el algoritmo k-means obtiene el centro del grupo, genera nuevas muestras basadas en el centro del grupo.

El método específico es el siguiente:

1. A partir del número total de muestras pequeñas, determine el número total de muestras múltiples después del equilibrio.

2; A partir de varias muestras, utilice k- El algoritmo de medias calcula aleatoriamente los centros de k muestras múltiples;

3. Se cree que el punto central de k-medias puede representar las características de la agrupación de muestras. el punto central representa la agrupación de muestras;

4. Repita 2/3 pasos para generar un nuevo conjunto de muestras múltiples, y

La siguiente imagen es un conjunto de 2000 puntos de muestra en Tres categorías. La dimensión de cada muestra es 2, es decir, hay dos muestras entre ellas. Una vez que el algoritmo PG completa el equilibrio de la muestra, la distribución general de la muestra no cambia.

La siguiente imagen es una colección de 2000 puntos de muestra en tres categorías. Cada muestra tiene una dimensión de 8, es decir, hay 8 características en la muestra porque son datos de alta dimensión. , el diagrama de dispersión muestra t -El resultado después de la reducción de dimensionalidad SNE. Se puede ver que en casos de alta dimensión, la relación entre muestras ha cambiado después de la ecualización, es decir, en casos de alta dimensión, el centro de clase de K-medias no puede representar bien las características de los grupos de muestras.

4.1.3 Selección de prototipos

A diferencia de la generación de prototipos, la selección de prototipos se extrae directamente del conjunto de datos original. Es decir, el tamaño de muestra del conjunto de datos recién generado es menor que el tamaño de muestra del conjunto de datos original, y el tamaño de muestra del conjunto de datos recién generado es menor que el del conjunto de datos original. Los métodos de extracción se pueden dividir en dos categorías:

(1) Tecnología de submuestreo controlado, es decir, muestrear varias muestras para obtener el conjunto de muestras equilibrado requerido. Los métodos específicos pueden ser el muestreo aleatorio, el muestreo basado en bootstrap y el muestreo de reglas heurísticas.

(2) Tecnología de submuestreo limpia: este algoritmo incluye principalmente tres subcategorías:

A) Método de identificación de enlaces basado en la distancia de Tomek

b) Algoritmo basado en; vecino más cercano;

c) Método de construcción basado en el clasificador 1-NN La principal diferencia entre los métodos anteriores es que los algoritmos para seleccionar múltiples muestras son diferentes, pero todos usan la muestra original, es decir, la nueva muestra generada.

4.1.4 Integración de algoritmos

La integración de algoritmos puede entenderse como el proceso en el que un conjunto de datos desequilibrado alcanza el equilibrio a través de múltiples subconjuntos equilibrados. Con la ayuda de la idea de Boost, se logra la fusión de múltiples subconjuntos.

El algoritmo BOOST es un algoritmo de aprendizaje general que puede mejorar el rendimiento de cualquier algoritmo de aprendizaje determinado.

Su idea se origina en el modelo de aprendizaje PAC (PAC) "posiblemente apropiado y correcto" propuesto por Valiant en 1984. En el modelo PAC se definen dos conceptos: algoritmo de aprendizaje fuerte y algoritmo de aprendizaje débil.

El concepto es que si un algoritmo de aprendizaje logra una alta tasa de reconocimiento al aprender un conjunto de muestras, se denomina algoritmo de aprendizaje fuerte. Si la tasa de reconocimiento es solo ligeramente superior a la de las conjeturas aleatorias y su precisión de conjetura es superior a 50, se denomina algoritmo de aprendizaje débil.

El método de integración basado en submuestreo incluye los siguientes pasos:

1. Tome la muestra equilibrada como una oración, muestree una gran cantidad de muestras y use k muestras para formar un entrenamiento. set;

2. Aprenda el conjunto de entrenamiento y obtenga el primer clasificador if;

3 Introduzca nuevos datos, combínelos con los datos mal clasificados y construya un nuevo conjunto de entrenamiento de k muestras. y obtenga el segundo clasificador if aprendiendo Un clasificador débil;

4. Continúe con el tercer paso para crear un nuevo conjunto de muestra y un clasificador débil. El número de entrenamientos n es un hiperparámetro;

5. Después de N entrenamientos, todos los clasificadores se integran para finalmente obtener un clasificador fuerte, es decir, la clasificación de una muestra se determina mediante votación mayoritaria.

El método anterior es un método de integración básico basado en submuestreo. El número de integradores débiles y el algoritmo de votación final se pueden mejorar de acuerdo con las necesidades reales, como ponderar la precisión de cada clasificador.

Para la integración de algoritmos, C.Seiffert (2010) propuso un algoritmo basado en AdaBoost. Impulso M2-RUS. El flujo del algoritmo es el siguiente:

4.2 Sobremuestreo de equilibrio de muestra

El método de sobremuestreo logra el equilibrio de muestra aumentando el número de muestras minoritarias en la clasificación. El método más directo es simplemente copiar algunas muestras para formar varios registros. La desventaja de este método es que puede provocar un sobreajuste si las características de la muestra son pocas.

El método de sobremuestreo mejorado genera nuevas muestras sintéticas agregando ruido aleatorio, datos de interferencia o algún tipo de reglas a la clase minoritaria. El algoritmo correspondiente se presentará más adelante.

4.2.1 Sobremuestreo: replicación aleatoria

La replicación aleatoria se refiere a copiar una pequeña cantidad de muestras para lograr el equilibrio de la muestra y mejorar el efecto del modelo. Como se muestra en la figura siguiente, antes de copiar, el SVC lineal solo encontró un hiperplano, es decir, consideró que solo había dos tipos de muestras en el conjunto de muestras. Después de la replicación aleatoria, el SVC lineal descubrió dos hiperplanos adicionales.

4.2.2 Construcción de sobremuestreo-muestra

Basado en sobremuestreo aleatorio, por un lado, reduce el riesgo de sobreajuste causado por la copia directa de muestras y, por otro lado, logra el equilibrio de la muestra. Los métodos típicos de construcción de muestras incluyen SMOTE y sus algoritmos derivados.

(1) El algoritmo SMOTE se basa en la suma de las muestras filtradas del pequeño conjunto de muestras y el número aleatorio correspondiente 0

Dado que el algoritmo SMOTE combina aleatoriamente puntos de muestra y establece parámetros al construir la muestra, por lo tanto, hay dos problemas:

1) Al construir un número pequeño de muestras, no se considera la distribución de las muestras. Para regiones con muestras escasas, la misma probabilidad dará como resultado muestras construidas más cercanas al límite que para regiones con muestras densas. Simplemente interpola entre vecinos similares sin tener en cuenta la distribución de las muestras mayoritarias alrededor de las muestras minoritarias.

2) Cuando la dimensión de la muestra es demasiado alta, la distribución espacial de la muestra será muy escasa, lo que puede hacer que la muestra construida no pueda representar las características de un pequeño número de muestras.

(2) Se propone un algoritmo de muestreo sintético adaptativo basado en SMTOE. Su característica más importante es que utiliza un determinado mecanismo para determinar automáticamente cuántas muestras sintéticas deben generarse para cada muestra minoritaria, en lugar de sintetizar la misma cantidad de muestras para cada muestra minoritaria como SMOTE. El flujo del algoritmo es el siguiente:

(3) Una serie de métodos derivados: SMOTEBoost, Borderline-SMOTE, Kmeans-SMOTE, etc.

1) SMOTEBoost combina el algoritmo SMOTE y el algoritmo Boost, y aumenta el peso de las muestras minoritarias en cada ronda de aprendizaje de clasificación, lo que permite a los estudiantes básicos prestar más atención a las muestras minoritarias.

2) Al construir muestras, Borderline-Smote considera que las muestras se distribuyen alrededor de una pequeña cantidad de muestras y selecciona un pequeño conjunto de muestras (conjunto peligroso): sus nodos vecinos tienen una gran cantidad de muestras y una pequeña cantidad de muestras y múltiples El número de muestras no es mayor que un pequeño número de puntos de muestra para construir nuevas muestras.

3) Kmeans-SMOTE incluye tres pasos: agrupamiento, filtrado y sobremuestreo. Una vez que el algoritmo Kmeans completa la agrupación, los grupos de muestras se filtran y el algoritmo SMOTE se utiliza para construir nuevas muestras en cada grupo de muestras.

Al comparar las estructuras de muestra obtenidas por diferentes algoritmos, se pueden sacar las siguientes conclusiones:

1) Utilizando el método de construcción de muestras, se puede obtener una pequeña cantidad de muestras nuevas;

2) El número y la distribución de nuevas muestras construidas por diferentes algoritmos son diferentes. Las nuevas muestras construidas por el algoritmo SMOTE se verán afectadas por puntos de "ruido" porque no consideran la distribución de las muestras originales. . De manera similar, el algoritmo ASASYN solo considera la densidad de distribución y no la distribución de la muestra, y las nuevas muestras construidas también se verán afectadas por puntos de "ruido".

Dado que el algoritmo Borderline-SMOTE considera la distribución de muestras, las nuevas muestras pueden evitar la influencia de puntos de "ruido". El algoritmo Kmeans-SMOTE está limitado en la cantidad de muestras nuevas que se pueden construir porque necesita encontrar grupos antes de construir nuevas muestras.

Nota: Los puntos de "ruido" pertenecen a una pequeña cantidad de muestras en la categoría correspondiente, pero se distribuyen cerca del límite o se mezclan con una gran cantidad de muestras.

4.3 Algoritmo del modelo de equilibrio de muestra

El sobremuestreo y el submuestreo anteriores superan el desequilibrio de la muestra desde el nivel de muestra y también pueden superar el desequilibrio de muestra desde el nivel del algoritmo. En las tareas de la vida real, a menudo hay situaciones en las que diferentes tipos de errores tienen diferentes consecuencias.

Por ejemplo, en el diagnóstico médico, diagnosticar erróneamente a los pacientes como personas sanas y diagnosticar erróneamente a las personas sanas como pacientes parece ser un "error", pero el impacto de esto último es aumentar la dificultad de realizar exámenes adicionales y. la consecuencia de lo primero puede ser que se pierda la mejor oportunidad de salvar vidas;

Otro ejemplo es que el sistema de control de acceso bloquea por error a las personas accesibles desde la puerta, lo que hará que la experiencia del usuario sea pobre, pero por error bloquea a extraños Colocarlo dentro de la puerta provocará graves accidentes de seguridad;

En la inspección de robo de tarjetas de crédito, si el uso normal se confunde con un robo, puede incomodar al usuario, pero si el robo se confunde con normal Si se usa, los usuarios sufrirán enormes pérdidas.

Para sopesar las diferentes pérdidas causadas por diferentes tipos de errores, a los errores se les puede asignar "costes desiguales".

Algoritmo sensible a los costos

El elemento central del método de aprendizaje sensible a los costos es la matriz de costos, como se muestra en la Tabla 1. Representa el costo de predecir una muestra de clase I como una muestra de clase J. En términos generales, si la categoría 0 se considera categoría 1, la pérdida será mayor. Cuanto mayor sea la diferencia en el grado de pérdida, mayor será la diferencia entre y. Cuando es igual a , este es un problema de aprendizaje que no tiene en cuenta los costos.

Basado en métodos sensibles a los costos, este análisis se puede dividir aproximadamente en tres categorías:

1 A partir del modelo de aprendizaje, reformar métodos de aprendizaje específicos para adaptarlos al aprendizaje con datos desequilibrados. . Los investigadores no mencionaron sus versiones sensibles al costo para diferentes modelos de aprendizaje como perceptrones, máquinas de vectores de soporte, árboles de decisión, redes neuronales, etc.

Tomando como ejemplo el árbol de decisiones sensible a los costos, se puede modificar desde tres aspectos para adaptarse al aprendizaje de datos desequilibrados, a saber, la selección de umbrales de decisión, la selección de criterios de división y la poda. estos tres aspectos Se puede introducir una matriz de costos en este aspecto.

2. Basado en la teoría del riesgo de Bayes, el aprendizaje sensible a los costos se considera un posprocesamiento de los resultados de la clasificación: aprende un modelo de acuerdo con los métodos tradicionales y ajusta los resultados con el objetivo de minimizar las pérdidas. . La ventaja de este método es que puede ser independiente del clasificador específico utilizado, pero la desventaja también es obvia y requiere que el valor de salida del clasificador sea probabilidad.

3. Desde la perspectiva del preprocesamiento, el costo se utiliza para ajustar el peso para que el clasificador cumpla con las características sensibles al costo.

La primera categoría es principalmente:

1) Método de poda del árbol de decisión sensible al costo Cómo podar el árbol de decisión en condiciones sensibles al costo para minimizar la pérdida. En El método de poda del método laplaciano se pueden lograr los mejores resultados. Método de división de nodos para árboles de decisiones de aprendizaje sensibles a los costos.

2)Boosting: Algoritmo de Boosting sensible al coste Ada-Cost.

3) Red neuronal: un método de aprendizaje sensible al coste basado en el algoritmo de clasificación de perceptrones. Este artículo propone reglas de actualización de parámetros no clasificables sensibles a los costos. Por ejemplo, el nuevo algoritmo de retropropagación de la red neuronal puede cumplir con los requisitos del aprendizaje sensible a los costos.

4) Desde la perspectiva del riesgo estructural mínimo, se propone un algoritmo de clasificación de máquinas de vectores de soporte sensible al costo.

Solo debes recordar que el primer tipo de método es cuando construyes el modelo, le digo al modelo que debes prestar atención a las características de una pequeña cantidad de muestras.

Esta lección toma como ejemplo el algoritmo adacost. El algoritmo AdaCost aprende un clasificador mediante iteraciones repetidas y actualiza el peso de la muestra en función del rendimiento del clasificador actual.

Como se muestra en el cuadro rojo de la figura, la estrategia de actualización es reducir el peso de las muestras clasificadas correctamente y aumentar el peso de las muestras clasificadas incorrectamente. El modelo final es una combinación lineal ponderada de múltiples modelos iterativos. . Cuanto más precisa sea la clasificación, mayor será el peso.

La segunda categoría es principalmente:

1) Se basa en el posprocesamiento de los resultados de la clasificación, es decir, aprender un modelo de clasificación de acuerdo con los métodos de aprendizaje tradicionales y luego ajustar el clasificación según la teoría bayesiana del riesgo. Como resultado, se consiguen pérdidas mínimas.

2) En comparación con el primer método de aprendizaje sensible al costo, la ventaja de este método es que no depende del clasificador específico utilizado. 3) Un proceso llamado MetaCost, que trata el clasificador subyacente como una caja negra sin hacer suposiciones ni cambios en el clasificador, y se puede aplicar a cualquier número de clasificadores base y cualquier forma de matriz de costos.

Esta lección toma como ejemplo el algoritmo de metacosto. Proceso del algoritmo de metacosto:

1) Muestreo varias veces en el conjunto de entrenamiento para generar múltiples modelos.

2) Basado en múltiples modelos, obtenga la probabilidad de que cada registro en el conjunto de entrenamiento pertenezca a cada categoría.

3) Calcule el costo de cada registro perteneciente a cada clase en el conjunto de entrenamiento y modifique la etiqueta de clase de acuerdo con el costo mínimo.

4) Entrenar el conjunto de datos modificado para obtener un nuevo modelo.

La tercera categoría es principalmente:

1) Basado en el modelo de aprendizaje tradicional, los modelos sensibles a los costos se entrenan cambiando la distribución de los datos de entrenamiento originales.

2) Por ejemplo, en el modelo jerárquico, los datos de entrenamiento distribuidos de manera no uniforme se ajustan a datos con muestras positivas y negativas distribuidas uniformemente.

3) Según la idea de proporción de costos, ajuste el peso de los datos de entrenamiento. En aplicaciones prácticas, similar al algoritmo Boosting, se puede lograr ajustando los pesos del modelo de clasificación y el muestreo.

4) Se discutió cómo implementar el aprendizaje sensible a los costos en problemas de clasificación de clases múltiples y se propuso un nuevo método de aprendizaje iterativo.

Esta lección toma como ejemplo la pérdida de un dado. En el problema del desequilibrio de datos, se utiliza la pérdida de dados en lugar de la entropía cruzada estándar como función objetivo. Al equilibrar la importancia de FP y FN en la función objetivo, el problema del desequilibrio muestral se puede resolver de manera específica.

En el trabajo de modelado real, además del equilibrio de muestras, también hay una serie de trabajos como evaluación de la calidad de los datos, selección de muestras, construcción de indicadores, selección de métodos de modelo, optimización de modelos y monitoreo de modelos.

上篇: ¿Puede Tmall Genie conectarse a hoteles de forma inalámbrica? 下篇: Las chicas no son ensayos ordinarios de 500 palabras
Artículos populares