Red de conocimiento de divisas - Preguntas y respuestas sobre contabilidad - Descripción de la dispersión de datos en estadística básica

Descripción de la dispersión de datos en estadística básica

Hay muchos tipos de indicadores de dispersión, los siguientes son los más utilizados.

El rango, también llamado rango, es la diferencia entre los valores máximo y mínimo en los datos. Si se usa R para representar la escala completa y Xmax y Xmin se usan para representar los valores máximo y mínimo de los datos respectivamente, la fórmula de la escala completa es: R = Xmax-Xmin. Por ejemplo, en los dos conjuntos de datos mencionados anteriormente, el rango completo del primer conjunto de datos es r = 21–19 = 2, y el rango completo del segundo conjunto de datos es r = 25–15 = 10. Con los valores de escala completa, podemos determinar que el segundo conjunto de datos es más discreto. De esto podemos recordar una conclusión general: cuanto más pequeños son los datos del indicador discreto, menor es la variación en los datos; mayor es el valor, mayor es la variación en los datos; Por supuesto, esta conclusión sólo tiene sentido cuando se comparan indicadores discretos similares.

Aplicación del índice de escala completa

El significado del índice de escala completa es fácil de entender y el cálculo también es muy simple. Por tanto, tiene usos especiales en determinadas situaciones. Por ejemplo, no hay mejor indicador para explicar el comportamiento de la temperatura de un área que la diferencia de temperatura. La diferencia entre el precio más alto y el precio más bajo es un valor característico comúnmente utilizado al describir la volatilidad de una acción. Además, en el método de control de calidad de productos terminados, el gráfico de control R también es una aplicación en toda su gama. El rango completo solo está relacionado con los dos valores extremos en el cálculo, por lo que no puede reflejar la dispersión de otros datos. La gama completa es sólo una medida aproximada a este respecto. Si se requiere una interpretación completa y precisa de la dispersión de los datos, no se debe utilizar el rango completo.

La desviación media absoluta es el promedio de la suma de los valores absolutos de las diferencias entre cada valor y su media. La diferencia promedio está representada por MAD y su fórmula es:

La llamada dispersión es un concepto relativo y debe medirse mediante un estándar. Dado que el promedio es la métrica más importante y comúnmente utilizada, se convierte en una medida común de dispersión. El método consiste en restar la suma de varios datos de la media. Esta diferencia a menudo se denomina desviación. El valor de desviación puede describir el grado de desviación de los datos. Sin embargo, se puede demostrar que la suma de las desviaciones positivas y negativas de la media es igual. Para resolver el problema de compensar los valores positivos y negativos de la desviación, los estadísticos usan el método del valor absoluto, como la diferencia promedio, y más comúnmente el método del cuadrado, como la varianza, y luego usan el método promedio. para eliminar el impacto del número de elementos de datos en la desviación, es decir, del indicador En el sentido de, el valor de diferencia promedio representa la distancia promedio de todos los datos a la media. Es más fácil de entender usando estos datos para explicar. el grado de dispersión de los datos.

Aplicación de la diferencia promedio

Aunque la diferencia promedio es fácil de entender, debido al uso de valores absolutos, es inconveniente para cálculos posteriores y no se usa tan ampliamente como otros discretos. indicadores en aplicaciones prácticas. Sin embargo, en el campo de la previsión, esta métrica se utiliza a menudo para explicar los errores.

La varianza es el promedio de las varianzas al cuadrado de todos los datos. La fórmula de cálculo para la representación de la varianza poblacional es:

La varianza supera el problema del valor absoluto de la diferencia de medias y se convierte en un indicador importante para describir el grado de dispersión. Sin embargo, es difícil interpretar el significado numérico de la varianza. Dado que la unidad de varianza es el cuadrado de la unidad de datos, el grado de dispersión de los datos es exagerado, lo que dificulta que las personas comprendan intuitivamente el significado numérico. Por tanto, la raíz cuadrada aritmética de la varianza se suele utilizar como indicador para describir el grado de dispersión, es decir, la desviación estándar. La fórmula para la desviación estándar de la población es la siguiente:

Si utilizamos los datos anteriores para calcularla, podremos entender fácilmente el significado de estos datos. =Aplicación de la varianza y la desviación estándar La varianza de la población representa la desviación estándar de la población utilizada

, mientras que la varianza de la muestra está representada por S2 y la desviación estándar de la muestra está representada por S, que no se puede confundir. Las fórmulas para calcular la varianza muestral y la desviación estándar son las siguientes:

Como puede ver, las fórmulas para la varianza muestral y la desviación estándar son ligeramente diferentes a las fórmulas para la varianza poblacional y la desviación estándar. El denominador de la varianza muestral y la desviación estándar es n-1 en lugar de n. Debido a que la varianza muestral y la desviación estándar se utilizan a menudo como estimadores de la varianza poblacional y la desviación estándar, la varianza poblacional se puede obtener dividiendo el denominador por n-. 1 en lugar de n y un mejor estimador de la desviación estándar.

El coeficiente de variación es la relación entre la desviación estándar y la media.

Generalmente expresado por v. El coeficiente de dispersión de la población se expresa como:

El coeficiente de dispersión de la muestra se expresa como:

Aplicación del coeficiente de dispersión

El coeficiente de dispersión es esencialmente relativo al tamaño de la desviación estándar de la media. Por lo tanto, si se compara la dispersión relativa de dos conjuntos de datos con medias diferentes, es más preciso utilizar el coeficiente de dispersión que la desviación estándar. Por ejemplo, supongamos que hay dos trabajadores, A y B. A produce un promedio de 40 piezas por hora con una desviación estándar de 5 piezas. b La producción promedio por hora es de 80 piezas, con una desviación estándar de 6 piezas. Entonces, ¿qué trabajador tiene mejor estabilidad? Según la definición de desviación estándar, cuanto menor es la desviación estándar, menor es la dispersión, por lo que la producción de A es más estable que la de B. Sin embargo, aunque la desviación estándar de B es ligeramente mayor que la de A, su producción De hecho, la capacidad es el doble que la de A (80/40). En otras palabras, el cambio de 6 con respecto a 80 es menor que el cambio de 5 con respecto a 40, que es el coeficiente de dispersión. El proceso de cálculo es el siguiente:

Se puede ver que el coeficiente de dispersión de B es menor que A, por lo que la producción de B es relativamente estable que la de A. El coeficiente de dispersión es un número desconocido, que es la mayor diferencia entre este y otros indicadores de dispersión. La escala completa, la desviación media y la desviación estándar son números bien conocidos cuyas unidades son consistentes con los datos originales. Esta característica del coeficiente de dispersión permite explicar no sólo la dispersión relativa de cosas similares, sino también la dispersión relativa de diferentes tipos de cosas. Por ejemplo, cuando estamos interesados ​​en comparar la dispersión de altura o de peso de un grupo de personas, no se pueden utilizar otros indicadores de dispersión para comparar porque las unidades de altura y peso son inconsistentes. El coeficiente discreto se puede comparar porque elimina completamente el efecto de la unidad.

上篇: ¿Qué piscinas en Qifu New Village tienen piscinas para niños? 下篇: ¡Tarjeta de viaje de celebridades online! ¿Qué debo hacer si se cambia un hotel de “cinco estrellas” a un hotel de “estrellas”?
Artículos populares