Cuatro formas de lidiar con los valores perdidos
1. Eliminar los casos con valores faltantes.
Existen principalmente métodos de eliminación y métodos de ponderación simples. La eliminación simple es la forma más primitiva de lidiar con los valores faltantes. Eliminará los casos con valores faltantes. Este enfoque es más eficaz si el problema de los datos faltantes se puede abordar simplemente eliminando una pequeña cantidad de muestras. Cuando el tipo de valores faltantes es incompleto y falta al azar, el sesgo se puede reducir ponderando los datos completos.
Después de marcar los casos con datos incompletos, se dan diferentes pesos a los casos con datos completos. Los pesos de los casos se pueden obtener mediante regresión logística o probit. Este método puede reducir efectivamente el sesgo si hay variables entre las variables explicativas que determinan los factores de la línea de estimación ponderada. Si las variables explicativas y las ponderaciones no están correlacionadas, no se puede reducir el sesgo.
Cuando faltan varios atributos, se deben dar diferentes pesos a las combinaciones faltantes de diferentes atributos, lo que aumentará en gran medida la dificultad del cálculo y reducirá la precisión de la predicción. Aquí es cuando el método del peso no es ideal.
2. Los valores faltantes se interpolan a partir de los valores posibles.
La idea es que interpolar los valores faltantes con los valores más probables causará menos pérdida de información que eliminar todas las muestras incompletas.
En la minería de datos, normalmente nos encontramos ante una gran base de datos con decenas o incluso cientos de atributos. Como falta un valor de atributo, renunciamos a muchos otros valores de atributo. Este tipo de eliminación es una gran pérdida de información, por lo que surgió la idea y el método de interpolar los valores faltantes con los valores posibles. Los métodos comúnmente utilizados son los siguientes.
(1) Interpolación media. Los atributos de los datos se dividen en tipos de rango fijo y no fijo. Si el valor faltante pertenece al tipo de distancia fija, el valor faltante se interpola por el promedio de los valores existentes del atributo si el valor faltante es una distancia no fija, de acuerdo con el principio de moda en estadística, la moda de; el atributo (es decir, la frecuencia de aparición) se utiliza el valor más alto) para completar los valores faltantes.
(2) Utilice una interpolación media similar. El mismo método de interpolación media también pertenece a la interpolación de valor único, pero la diferencia es que utiliza un modelo de agrupamiento jerárquico para predecir el tipo de variables faltantes y luego usa la media de ese tipo para la interpolación. Supongamos que X=(X1,X2?Xp) es una variable con información completa e Y es una variable con valores faltantes. Luego, primero agrupe la clase X o sus filas de subconjunto y luego interpola las medias de las diferentes clases según la clase de los casos faltantes.
Si las variables explicativas introducidas e Y necesitan analizarse en análisis estadísticos posteriores, este método de interpolación introducirá autocorrelación en el modelo, provocando obstáculos al análisis.
(3) Estimación de máxima verosimilitud. Bajo la condición de que el tipo faltante sea aleatorio, suponiendo que el modelo sea correcto para la muestra completa, los parámetros desconocidos se pueden estimar con máxima probabilidad mediante la distribución marginal de los datos observados. Este método también se denomina estimación de máxima verosimilitud y ignora los valores faltantes. El método de cálculo comúnmente utilizado para la estimación de parámetros de máxima verosimilitud es la maximización de expectativas.
Este método es más atractivo que la eliminación de casos y la interpolación de un solo valor, y tiene una premisa importante: es adecuado para muestras grandes. El número de muestras válidas es suficiente para garantizar que la estimación de máxima verosimilitud sea asintóticamente insesgada y siga una distribución normal. Sin embargo, este método puede caer en valores extremos locales, la velocidad de convergencia no es muy rápida y el cálculo es muy complicado.
(4) Imputación múltiple. La idea de interpolación de valores múltiples proviene de la estimación bayesiana, que cree que el valor a interpolar es aleatorio y su valor proviene del valor observado. En la práctica, el valor a interpolar generalmente se estima primero y luego se agregan diferentes ruidos para formar múltiples conjuntos de valores de interpolación opcionales. Seleccione el valor de interpolación más apropiado según algunos criterios de selección.