Conocimientos básicos de estadística: Descripción de la dispersión de los datos.
El indicador de tendencia central es una característica de los datos, y otra característica de los datos es el indicador de dispersión. En el análisis estadístico, el índice de dispersión puede explicar qué tan representativo es el indicador de tendencia central y también puede usarse para calcular el tamaño del error en la inferencia estadística. Además, el índice de dispersión también se utiliza para explicar el equilibrio, el ritmo y la estabilidad de las cosas en proceso de desarrollo y cambio. Por ejemplo, hay dos conjuntos de datos, el primer conjunto es 19, 20, 21 y el segundo conjunto es 15, 20, 25. Si solo nos basamos en la media (la media de ambos grupos es 20) no podremos distinguir la diferencia entre los dos conjuntos de datos. Pero obviamente los dos conjuntos de datos son diferentes. En este caso, es necesario utilizar un índice de dispersión para describir qué grupo está más disperso. El siguiente es el conocimiento que les he brindado sobre la descripción de la discreción de datos. Bienvenido a leer.
Existen muchos tipos de indicadores de dispersión. Los siguientes son algunos de los más utilizados.
El rango, también conocido como rango, se refiere a la diferencia entre el valor máximo y el valor mínimo en los datos. Si se usa R para representar el rango completo y Xmax y Xmin se usan para representar los valores máximo y mínimo de los datos respectivamente, entonces la fórmula del rango completo es: R = Xmax-Xmin. Por ejemplo, en los dos conjuntos de datos mencionados anteriormente, el rango completo del primer conjunto de datos es R = 21? 19 = 2, y el rango completo del segundo conjunto de datos es R = 25? . A través del valor del rango completo, podemos determinar que el segundo conjunto de datos es más discreto. De esto podemos recordar una conclusión general: cuanto más pequeños sean los datos del indicador discreto, menor será el grado de variabilidad de los datos; cuanto mayor sea el valor, mayor será el grado de variabilidad de los datos. Por supuesto, esta conclusión sólo será significativa al comparar indicadores discretos similares.
Problemas de aplicación de los indicadores de rango completo
El significado de los indicadores de rango completo es fácil de entender y el cálculo también es muy simple. Por tanto, tiene usos especiales en determinadas situaciones. Por ejemplo, no hay mejor indicador para describir la temperatura de una región que la diferencia de temperatura. Al describir la volatilidad de una acción, la diferencia entre el precio más alto y el precio más bajo es un valor característico comúnmente utilizado. Además, en el método de control de calidad del producto terminado, el gráfico de control R también es una aplicación de rango completo. Sin embargo, el rango completo solo está relacionado con dos valores extremos en el cálculo, por lo que no puede reflejar la dispersión de otros datos. En este sentido, el rango completo es solo un índice de medición relativamente aproximado. Si es necesario describir de forma exhaustiva y precisa el grado de dispersión de los datos, no es apropiado utilizar toda la gama.
La Desviación Absoluta Media es el promedio de la suma de los valores absolutos de las diferencias entre cada valor y su media. MAD se utiliza para representar la diferencia promedio y su fórmula es:
La llamada dispersión es un concepto relativo y debe medirse mediante un estándar. Debido a que la media es el indicador más importante y comúnmente utilizado, se ha convertido en un estándar comúnmente utilizado para medir el grado de dispersión. El método consiste en restar cada dato de la media. Esta diferencia suele denominarse desviación. El tamaño del valor de desviación puede indicar el grado de desviación de los datos. Sin embargo, se puede demostrar que la suma de las desviaciones positivas y negativas de la media es igual. Para resolver el problema de cancelar los valores positivos y negativos de la desviación, los estadísticos usan el método del valor absoluto, como la diferencia promedio, y más a menudo el método del cuadrado, como la varianza, y luego usan el promedio. método para eliminar las diferencias debidas a los elementos de datos El impacto del número en el valor de dispersión, es decir, desde el significado del indicador, el valor de la diferencia promedio representa la distancia promedio de todos los datos de la media. Los datos para ilustrar el grado de dispersión de los datos son más fáciles de entender.
Problemas de aplicación de la diferencia promedio
Aunque la diferencia promedio es simple y fácil de entender, debido a que utiliza valores absolutos, es inconveniente para cálculos posteriores, por lo que no se usa tan ampliamente en Aplicaciones prácticas como otros indicadores discretos. Sin embargo, en el campo de la previsión, este indicador se utiliza a menudo para explicar errores.
La varianza es el promedio de las desviaciones al cuadrado de todos los datos. La varianza global está representada por la fórmula de cálculo:
La varianza supera el problema del valor absoluto de la diferencia de medias y se convierte en un indicador importante para describir el grado de dispersión.
Sin embargo, se encuentran dificultades al interpretar el significado numérico de la varianza. Debido a que la unidad de varianza es el cuadrado de la unidad de datos, el grado de dispersión de los datos es exagerado, lo que dificulta que las personas comprendan intuitivamente el significado numérico. Por lo tanto, la raíz cuadrada aritmética de la varianza generalmente se toma como indicador para describir el grado de dispersión, es decir, la desviación estándar (StandardDeviation). La fórmula para la desviación estándar general es la siguiente:
Si se calcula utilizando los datos anteriores, podemos entender fácilmente su significado para estos datos. =Problemas de aplicación de varianza y desviación estándar. La varianza poblacional está representada por
, mientras que la varianza muestral está representada por S2 y la desviación estándar muestral está representada por S. No se pueden confundir. Las fórmulas de cálculo para la varianza muestral y la desviación estándar son las siguientes:
Se puede observar que las fórmulas de cálculo para la varianza muestral y la desviación estándar son ligeramente diferentes de las de la varianza poblacional y la desviación estándar. El denominador de la varianza muestral y la desviación estándar es n-1 en lugar de n. Debido a que la varianza y la desviación estándar de la muestra se utilizan a menudo como estimadores de la varianza y la desviación estándar de la población, dividir el denominador por n-1 en lugar de n puede obtener un mejor estimador de la varianza y la desviación estándar de la población.
El coeficiente de variación (Coeficiente de Variación) es la relación entre la desviación estándar y la media. Generalmente representado por V. El coeficiente de dispersión de la población se expresa como:
El coeficiente de dispersión de la muestra se expresa como:
Cuestiones de aplicación del coeficiente de dispersión
El coeficiente de dispersión es esencialmente la desviación estándar relativa al tamaño medio. Por lo tanto, al comparar la dispersión relativa de dos conjuntos de datos con medias diferentes, es más preciso utilizar el coeficiente de dispersión que la desviación estándar. Por ejemplo, supongamos que hay dos trabajadores, A y B, y A produce un promedio de 40 piezas por hora, con una desviación estándar de 5 piezas. B produce un promedio de 80 piezas por hora, con una desviación estándar de 6 piezas. Entonces, ¿qué trabajador tiene mejor estabilidad? Según la definición de desviación estándar, cuanto menor es la desviación estándar, menor es la dispersión, por lo que la producción de A es más estable que la de B. Sin embargo, vemos que aunque la desviación estándar de B es ligeramente mayor que la de A, su capacidad de producción es de hecho el doble que la de A (80/40). En otras palabras, el cambio de 6 con respecto a 80 es menor que el cambio de 5 con respecto a 40. Esto significa el coeficiente de dispersión. El proceso de cálculo es el siguiente:
Se puede ver que el coeficiente de dispersión de B es menor que el de A, por lo que la producción de B es relativamente estable que la de A. El coeficiente discreto es un número anónimo, que es su mayor diferencia con otros indicadores discretos. El rango, la desviación media y la desviación estándar son números con nombre cuyas unidades son consistentes con las de los datos originales. Esta característica del coeficiente de dispersión le permite explicar no sólo la dispersión relativa de cosas similares, sino también la dispersión relativa de diferentes tipos de cosas. Por ejemplo, cuando nos interesa comparar si un grupo de personas tiene mayor dispersión en altura o peso, no se pueden utilizar otros indicadores de dispersión para comparar porque las unidades de altura y peso son inconsistentes. El coeficiente discreto se puede comparar porque elimina por completo la influencia de la unidad. ;