Red de conocimiento de divisas - Consulta hotelera - 20 Análisis discriminante de datos

20 Análisis discriminante de datos

Distancia de Mahalanobis

Definición: La distancia de Mahalanobis fue propuesta por el estadístico indio P. C. Mahalanobis y representa la distancia de covarianza de los datos. Es un método eficaz para calcular la similitud de dos conjuntos de muestras desconocidos. A diferencia de la distancia euclidiana, tiene en cuenta la conexión entre varias características y es independiente de la escala, es decir, independiente de la escala de medición. Para un vector multivariable con media μ y matriz de covarianza Σ, su fórmula de distancia de Mahalanobis es:

Discriminación de distancia

El algoritmo de discriminación de distancia se escribe como función de distancia discriminante. la función, las variables de entrada TrnX1 y TrnX2 representan las muestras de entrenamiento de la clase X1 y la clase X2 respectivamente. El formato puede ser matriz o marco de datos. La variable de entrada TstX es la muestra de prueba. .equal Es una variable lógica, VERDADERO significa que las matrices de covarianza son las mismas, el valor predeterminado es diferente, la función genera una matriz unidimensional compuesta por "1" y "2", "1" significa que la muestra de prueba pertenece a X1 clase, "2" significa que pertenece a la clase X2.

La discriminación de distancia utiliza principalmente la función mahalanobis(), el formato es:

mahalanobis(data,center,cov)

datos: vector compuesto por datos de muestra o Matriz

centro: centro de muestra

cov: covarianza de muestra

Al comparar con la muestra original, se puede ver que las muestras 11, 12 y 16 fueron juzgado incorrecto

p>

Muestra 11 12 19 25 27 30 32 fue juzgado incorrecto

Discriminación de Bayes

Escriba el algoritmo de discriminación de Bayes en una función llamado discriminant.bayes En la función, las variables de entrada TrnX1 y TrnX2 representan las muestras de entrenamiento de la clase X1 y el valor predeterminado es 1, var.equal es una variable lógica, VERDADERO significa que las matrices de covarianza son las mismas, el valor predeterminado. es diferente, la función genera una matriz unidimensional compuesta de "1" y "2", "1" significa que la muestra de prueba pertenece a la clase X1, "2" significa que pertenece a la categoría X2.

La muestra 12 19 25 27 28 35 se consideró incorrecta

La muestra 11 12 25 30 32 se consideró incorrecta

Juicio de Fisher

Fisher (Fischer) El criterio de discriminación requiere que la varianza dentro de una clase sea lo más pequeña posible y la varianza entre clases sea lo más grande posible. Escriba el algoritmo de discriminación de Fisher en una función denominada discriminant.fisher. En la función, las variables de entrada TrnX1 y TrnX2 representan las muestras de entrenamiento de la clase X1 y la clase X2 respectivamente. El formato puede ser una matriz o un marco de datos. La variable TstX es la muestra de prueba. El formato es una matriz, marco de datos o vector, var.equal es una variable lógica, VERDADERO significa que las matrices de covarianza son las mismas, el valor predeterminado es diferente, la función genera una matriz unidimensional compuesta de. "1" y "2", "1" significa que la muestra de prueba pertenece a la clase X1, "2" significa que pertenece a la clase X2.

La muestra 11 12 19 25 27 30 32 se consideró incorrecta

Comparación de los tres métodos de discriminación

1. El método de discriminación de distancia y el método de discriminación de Fisher no no evaluar la población La distribución plantea requisitos específicos, mientras que el método discriminante de Bayes requiere que la distribución general sea clara.

2. Bajo la condición de una matriz de codiferencia igual normal, el método discriminante de Bayes (sin considerar la influencia de la probabilidad previa) es equivalente al criterio discriminante de distancia y al método discriminante lineal de Fisher.

3. Cuando la linealidad vectorial media *** de K poblaciones es relativamente alta, el método discriminante de Fisher puede utilizar menos funciones discriminantes para la discriminación.

4. Las deficiencias del método de discriminación de distancia y del método de discriminación de Fisher son que no consideran la probabilidad de ocurrencia de cada población y no pueden dar estimaciones de la probabilidad posterior predicha y la tasa de errores de juicio, así como la pérdidas después de un error de juicio. Y estas deficiencias son los puntos fuertes de Bayes. Sin embargo, si la probabilidad previa dada no se ajusta a la realidad objetiva, el método discriminante de Bayes también puede llevar a conclusiones erróneas.

Cuando las matrices de covarianza de muestras de diferentes clases son iguales, podemos usar la función lda del paquete MASS en R para implementar la discriminación lineal. Utilice la función de tabla para crear una matriz de confusión y comparar la categoría real y la categoría predicha.

Tasa lineal correcta

Tasa correcta de Bayes

Análisis discriminante lineal univariante (tecnología LDA)

Utilice el teorema de Bayes para la clasificación. Suponga que las observaciones se dividen en K categorías, K>=2, es decir, la variable de respuesta cualitativa Y puede tomar k valores desordenados diferentes. Sea πk la probabilidad previa (antes) de que una observación seleccionada al azar provenga de la k-ésima clase, denotada por πk=P(Y=k). Sea f(X)=Pr(X=x|Y=k) la densidad de probabilidad de X que representa el k-ésimo tipo de observación.

Fórmula del teorema de Bayes:

Dado que hay muchos datos en el conjunto de datos de Smarket, usamos la función lda para seleccionar muestras de variables Lag1 y Lag2 para el análisis, y usamos la Datos anteriores a 2005 como muestras de entrenamiento, los datos de 2005 se utilizan como muestra de prueba.

El grupo de medias calcula el promedio de cada variable en cada categoría y se utiliza para estimar el parámetro μ. Como se puede ver en la matriz de medias del Grupo: cuando las acciones caen, el retorno de la inversión en los primeros dos días tenderá a ser positivo; cuando las acciones suben, el retorno de la inversión en los primeros dos días tenderá a ser negativo; Los coeficientes de discriminantes lineales son los coeficientes del modelo lineal, lo que significa que cuando -0.642Log-0.513Log es muy grande, el clasificador LDA predice un aumento; cuando -0.642Log-0.513Log es muy pequeño, la predicción disminuye;

上篇: El salario promedio de los empleados en la ciudad de Zhuhai el año anterior en 2022 下篇: ¿Cuál es la traducción de toro? ¿Cuál es la traducción de toro?
Artículos populares