Un número cuenta toda la historia.
Este es el discurso en el XVI Informe de Labor de Gobierno. ¿Qué puedes decir del discurso?
En este párrafo del XVI Informe de Labor del Gobierno aparecen dos cifras: los años medios de educación de la población en edad de trabajar son 10,23 años y 10,8 años respectivamente. Puede que no parezca haber mucha diferencia entre estas dos figuras, pero cuando se las regresa al ámbito de la vida diaria, pueden explicar muchos problemas.
En términos generales, antes de la universidad, si una persona no repite ni se salta un grado, generalmente tiene que pasar por seis años de escuela primaria, tres años de escuela secundaria y tres años de escuela secundaria. Por lo tanto, antes de recibir educación superior, es necesario realizar 12 años de educación básica. El número medio de años de educación de la población en edad de trabajar reflejado en el informe del Primer Ministro es inferior a 11 años, lo que hace sentir que la mayoría de la gente no ha terminado la escuela secundaria y sólo ha completado el primer grado como máximo, y muchos Incluso acabo de terminar la escuela secundaria.
Según esta idea, es cierto que la tasa de matrícula en la escuela secundaria era del 50% en 2005 y del 56% en 2014. Esto significa que casi la mitad de la gente no fue a la escuela secundaria, y mucho menos a la escuela secundaria. recibir un año de educación secundaria. Una educación.
Lo que nos da este entendimiento son los datos de estos dos años, 10.23 y 10.8. En el centro de ambas cifras está la palabra promedio. La media es una de las estadísticas más básicas e importantes de la estadística, a través de la cual podemos descubrir mucha información a partir de datos simples.
Buscar orden en el caos: el papel de las estadísticas
Al igual que el hallazgo promedio de que sólo la mitad de las personas puede ir a la escuela secundaria, las estadísticas a menudo pueden encontrar una manera de encontrar una manera de de un montón de datos complicados.
A partir de unas simples estadísticas, podemos conocer rápidamente la información más importante. Además del promedio, las estadísticas comúnmente utilizadas aquí incluyen la mediana, los valores máximos y mínimos, rangos y varios cuantiles. La media, la mediana y el cuantil pueden representar la distribución general, y los rangos de valores máximo, mínimo y extremo pueden reflejar los extremos de los datos.
En resumen, utilizando estas estadísticas, podemos ordenar rápidamente la situación general de los datos. Se pueden analizar rápidamente múltiples conjuntos de datos sin más divisiones ni comparaciones, simplificando así lo complejo. Al mismo tiempo, se estandariza el cálculo de diversos datos estadísticos. A veces, durante el análisis, los datos se pueden estandarizar calculando la relación entre estadísticas relevantes, unificando así las dimensiones.
En promedio, es así de grande.
El promedio es la estadística más básica e importante. Muestra el tamaño aproximado de un conjunto de datos. Cuando se obtienen dos conjuntos de datos, las diferencias entre los dos conjuntos de datos a veces pueden explicarse comparando los promedios.
Al igual que los datos de la tabla, no podemos encontrar claramente la diferencia entre los dos conjuntos de datos simplemente mirándolos. Hay números en el grupo A que son mayores que todos los datos del grupo B, y también hay números que son menores que todos los datos del grupo B, lo que no se puede explicar de manera simple. Pero después de calcular el promedio de los dos grupos, podemos saber que el promedio del grupo A es 23 y el promedio del grupo B es 29. En términos generales, los datos del grupo B son mayores que los del grupo A.
Para el promedio, suele haber un promedio aritmético y un promedio ponderado y, por supuesto, también hay un promedio geométrico más complejo. En términos relativos, la media aritmética y la media ponderada se utilizan con mayor frecuencia. Para la media aritmética, es la suma de todos los datos y luego se divide por el valor numérico. Un promedio ponderado es cada valor de datos multiplicado por su peso más cada producto, donde todos los pesos son 1. De las definiciones de los dos promedios, podemos encontrar que el promedio aritmético es en realidad un promedio ponderado especial. En la media aritmética, cada valor tiene el mismo peso. Si hay n números, el peso es un tercio de n.
Además de comparar las diferencias de tamaño de los datos en diferentes grupos, el valor promedio también puede comparar la relación entre el objeto dividido y el población. Cuando se divide la población, la suma de los valores divididos suele ser el valor total. El valor de cualquier objeto es menor que el valor total de todos modos, por lo que no es comparable. Sin embargo, una vez que haya calculado la media de la población, puede comparar el valor de cada objeto con la media para ver qué objetos son promedio y cuáles están muy por debajo o por encima del promedio.
Hay 14 provincias en el ejemplo * * *, y el PIB promedio de estas provincias es de 2,46 billones.
Como puede verse en el gráfico, sólo 4 provincias tienen un PIB superior al promedio y las 10 provincias restantes están todas por debajo del promedio. También se puede ver en la figura que el PIB de cada provincia está distribuido de manera desigual. El PIB de Jiangsu es más del doble del promedio, mientras que el PIB de Shanxi es sólo la mitad del promedio.
Mediana - mitad y mitad
La media puede darte una idea del tamaño aproximado, sobre todo al comparar. Sin embargo, los promedios no cuentan toda la historia. Por ejemplo, diversos problemas de "promedio" en los últimos años han hecho que el promedio sólo desempeñe un papel unilateral. Por ejemplo, yo, un grupo de gente común, Jack Ma y Wang Jianlin alcanzamos un ingreso promedio de 100 millones en diez años. Todo el mundo sabe que los ingresos de Jack Ma y Wang Jianlin son mucho más altos que los de un grupo de gente corriente, e incluso varios ceros más que la suma de la gente corriente. Entonces, en este caso, el promedio tiene limitaciones. Si conocemos la media y la distribución, podemos obtener información más completa de los datos.
La distribución se refiere a la distribución de los datos. La estadística comúnmente utilizada es el cuantil y la mediana es el cuantil más típico. La mediana es sólo el número del medio. Cuando un conjunto de N valores se organiza de pequeño a grande, si N es un número impar, la mediana es el valor en la posición N/2+1; si N es un número par, la mediana es N/2; y N/2+1 posiciona el promedio de los valores en.
Al ordenar, podemos saber que cuando se excluye la mediana de este conjunto de datos, el 50% es mayor que la mediana y el 50% es menor que la mediana.
Al combinar el promedio y la mediana, puede examinar la distribución aproximada y el tamaño de un conjunto de datos al mismo tiempo, y ver rápida y fácilmente si existe una distribución desigual en los datos.
Al igual que en el ejemplo de salario de la tabla, el salario promedio para todos es 380.000 y el salario medio es 65.438+ millones. El valor promedio es mucho mayor que la mediana, lo que indica que la distribución es desigual y presenta un estado "promedio", es decir, hay una gran cantidad de datos numéricos pequeños y una pequeña cantidad de datos numéricos grandes en los datos.
El valor promedio puede conocer el tamaño aproximado de los datos, pero la distribución de los valores de tamaño no está clara. Después de sumar el valor de la mediana, puede conocer la diferencia en la distribución de los datos.
Cuartiles: de la distribución a la desviación
De la media a la mediana, puedes conocer el tamaño aproximado y la distribución de los datos. Aunque podemos conocer la distribución aproximada, así como los valores máximo y mínimo, todavía no sabemos qué intervalo se encuentra en la mayoría de los conjuntos de objetos. En este momento, los cuartiles pueden desempeñar el papel de distribución concentrada y eliminación de sesgos.
Como sugiere el nombre, los cuartiles son una estadística que divide un conjunto de datos en cuatro partes iguales. El cuartil no es un número, sino tres cuartiles, que pueden dividir un conjunto de datos en cuatro partes, de mayor a menor.
En los cuartiles, hay tres números, el percentil 75, el percentil 50 y el percentil 25. 50% es el valor medio, 50% es alto y 50% es bajo. El percentil 75 es similar al percentil 50, solo un número mayor que el 75% y menor que el 25%. El percentil 25 es lo opuesto al percentil 75, que es mayor que el 25% y menor que el 75%. Por lo tanto, el percentil 75 y el percentil 25 se pueden entender de la siguiente manera: el percentil 75 es la mediana por encima del intervalo [percentil 50, máximo], y el percentil 25 es [mínimo, máximo] percentil 50] la mediana por encima del intervalo. Al mismo tiempo, se forma un intervalo entre el percentil 25 y el percentil 75, y el 50% de los objetos de un conjunto de datos se concentran en este intervalo, por lo que se puede entender que el 50% de los objetos de este conjunto de datos los datos se concentran en [ésimo percentil 25, percentil 75].
El diagrama de caja es un gráfico que puede reflejar visualmente los cuartiles. Se puede observar que el diagrama de caja presenta los límites superior e inferior, es decir, el valor máximo y el valor mínimo están en los extremos superior e inferior. El percentil 75, el valor medio y el percentil 25 forman un cuadro, en el cual. la mitad superior de la parte del cuadro es el percentil 75, la mitad inferior es el percentil 25 y la línea media es la mediana.
Al presentar los datos de esta manera, el alcance y la concentración de los datos pueden ser particularmente evidentes. También se pueden comparar diferentes objetos utilizando el diagrama de caja del indicador. La figura muestra una comparación de varias categorías sobre una variable. Se puede observar que los datos de la categoría B están más concentrados que los de AC.
Similar a la idea de un diagrama de caja, el gráfico de líneas K muestra la distribución y las tendencias a través de cuatro números. El gráfico de líneas K tiene cuatro números, el precio de cierre y el precio de apertura en el cuadro, y los datos más altos y más bajos en ambos lados del cuadro. Cuando el precio de cierre es mayor que el precio de apertura, se muestra en rojo, y cuando el precio de cierre es menor que el precio de apertura, se muestra en verde.
Entonces, en comparación con el gráfico de cajas, el gráfico de líneas K también refleja cambios.
A medida que cambia el tiempo, se pueden crear varios gráficos de líneas K para mostrar las fluctuaciones de precios durante este período. El gráfico de líneas K se usa comúnmente en el campo financiero y también existen libros y artículos especializados que analizan los diversos cambios del gráfico de 7 líneas.
Percentiles: observe situaciones extremas
Desde la media, la mediana hasta los cuartiles, básicamente puedes encontrar la distribución de los objetos. Por supuesto, esta es una situación aproximada. En los datos de un objeto, a veces hay casos extremos en los que los valores están lejos de la mediana y la media. Por lo tanto, en este caso, cómo ver estos datos y cómo determinar el grado de dispersión de estos datos requiere una exploración más profunda de la distribución de los datos. Los percentiles son estadísticas que analizan información más detallada.
Cuatro puntos es dividir un conjunto de datos en cuatro intervalos: 25%, 50% y 75%. Cuando el intervalo de los datos se divide en 25% y 10%, se puede obtener información más detallada de los datos. El percentil 10 es un intervalo separado por 10%. El intervalo formado por el primer percentil 10 y el último decil, es decir, el intervalo [10%, 90%], representa el rango del 80% del conjunto de datos, que es. mayor que lo anterior Los datos con un límite menor que el límite inferior ya no se consideran convencionales.
Cuando el cuantil se reduce aún más al intervalo del 5%, hay dos puntos, el cuantil 95 y el cuantil 5. En estadística, el 5% suele considerarse un evento de probabilidad pequeña, por lo que puede considerarse como una situación mayor que el percentil 95 o menor que el percentil 5.
Uno de los usos de los percentiles es ignorar los extremos. Para números superiores al 95% y inferiores al 5%, pueden ignorarse como valores extremos. El análisis se centra en los datos del intervalo [5%, 95%].
Además, los percentiles también pueden centrarse en situaciones extremas. En el sistema de control de calidad Six Sigma, existen intervalos de [0,25%, 99,75%] como rango de calidad normal, de los cuales 99,75% es el límite superior de calidad y 0,25% es el límite inferior de calidad. Cuando es superior o inferior al límite superior de calidad, se puede considerar una situación anormal y es necesario analizar enfáticamente la causa.
Percentil - Variable de Pareto acumulativa
Otra aplicación típica de los percentiles es la idea de Pareto acumulativa, es decir, la regla 80-20. Esto lo resume el estadístico italiano Pareto, quien descubrió que el 20% de las personas de la sociedad ocupan el 80% de la riqueza social. En un grupo de objetos, unos pocos objetos tienen valores mayores y la suma de estos valores representa la gran mayoría de la suma de todos los valores.
A menudo las pequeñas cantidades de objetos representan el 20% en cantidad y el 80% en valor. La regla 80-20 a menudo refleja la concentración de objetos en la producción y la vida diaria. Por ejemplo, el 20% de los clientes proporcionan el 80% de los ingresos, el 20% de las marcas fuertes representan el 80% de la participación y el 80% de las cuentas por cobrar. concentrado en un 20% de clientes y así sucesivamente.
La implementación de la regla 80-20 consiste en ordenar los objetos según el valor del indicador de pequeño a grande, luego calcular la proporción del valor de cada objeto en el valor total correspondiente y luego acumular el proporciones en secuencia. El siguiente gráfico compuesto, que consta de un gráfico de barras y de líneas, refleja la contribución de cada cliente a las ventas; las barras representan las ventas y las líneas de puntos representan el porcentaje acumulado de ventas.
Como se puede ver en la imagen, los cuatro clientes frente a los 10 clientes representan el 90% de las ventas.
Además, la regla 80-20 también se aplica a la gestión de inventario. En el cuadro de gestión de inventario de materiales ABC, podemos encontrar que los materiales de Clase A representan menos del 20% de todos los materiales, pero representan casi el 80% de los fondos.
Por lo tanto, es necesario centrarse en la gestión. Los fondos ocupados por la Categoría B y la Categoría C están disminuyendo en secuencia, por lo que los requisitos para la gestión también están disminuyendo en secuencia.
De la estadística a la distribución
De la media a la mediana, de los cuartiles a los percentiles, estas estadísticas en realidad describen la distribución de un conjunto de datos. Cuando conoce la distribución general a través de estadísticas, puede saber cuál es la tendencia de los datos, qué valores son valores raros, qué valores son valores comunes, cómo se concentran aproximadamente los datos del objeto y cuáles son los valores principales. entre ellos.
Un conjunto de datos puede presentar diversas distribuciones, siendo las más comunes la distribución normal y la distribución de ley potencial.
La distribución normal significa que el valor medio y el valor medio son el mismo valor, y la distribución de varios valores en ambos extremos es consistente, es decir, cuanto más cerca del valor medio, más. más valores, y cuanto más lejos esté del valor medio, cuanto más lejos esté el valor, más pequeño será.
En un gráfico con el eje horizontal representando la magnitud de un valor y el eje vertical representando la probabilidad de un valor, la distribución normal toma forma de campana. En el análisis de datos, la distribución normal se utiliza a menudo para examinar valores atípicos que están lejos de la mediana.
Cuando nos centramos en el objeto completo, normalmente consideramos eliminar los valores atípicos, es decir, ignorar los extremos del gráfico. Cuando nos centramos en el valor atípico en sí, normalmente nos centramos en el valor atípico, mientras que en la gestión Six Sigma, tendemos a centrarnos en la aparición de valores atípicos en ambos extremos.
La distribución de la tarifa de energía es simplemente diferente de la distribución normal. Los datos en la distribución de la tarifa de energía son desiguales, con una pequeña cantidad de valores máximos y una gran cantidad de valores mínimos.
Para la curva de distribución de energía, el eje vertical representa el tamaño del valor y el eje horizontal representa el número de valores. De la imagen de la distribución de energía, podemos encontrar que la distribución de energía tiene una cabeza imponente y una cola larga. En la distribución de datos, la distribución de la ley de potencia se utiliza para examinar valores grandes y pequeños. Cuando te centras en valores grandes, en realidad necesitas descubrir los objetos clave, tal como el principio 80-20 mencionado anteriormente. Cuando se presta atención a valores pequeños, en realidad se refleja el efecto de cola larga. Un ejemplo comercial son algunos productos especializados en el mercado. De hecho, la demanda combinada es incluso mayor que la de los productos convencionales.
Descripción general del pensamiento estadístico
El pensamiento estadístico es el segundo tipo de pensamiento en el análisis de datos. Con la ayuda del pensamiento estadístico, podemos conocer rápidamente la forma y distribución de un conjunto de datos.
Cuando vemos un conjunto de datos, podemos entender el esquema de este conjunto de datos al observar las estadísticas relevantes y observar el tamaño, la distribución y otras características de este conjunto de datos de parte a todo. . Las estadísticas comunes incluyen valores promedio, máximo y mínimo, mediana, percentil, etc. A menudo, se puede utilizar el promedio para ver el tamaño aproximado de sus datos. La mediana se puede utilizar para probar la distribución aproximada, es decir, la mitad de los datos es mayor que este valor y la otra mitad de los datos es menor que este valor. Se pueden utilizar cuartiles para examinar la dispersión. Con base en la mediana, podemos saber que hay muchas unidades que son mayores que el otro 25% y el 75%. Por supuesto, los percentiles pueden ser más finos. Además, mediante la comparación cruzada de datos estadísticos, cuando el promedio coincide con la mediana, se puede saber qué tan grande es la dispersión. Yo tengo 10.000, tú tienes 10.000, Jack Ma tiene 50 mil millones y el promedio de nosotros tres es 25 mil millones. Por supuesto, la mediana sigue siendo 100.000, que es un ejemplo típico.
El primer punto del análisis estadístico se basa en las estadísticas y el segundo punto se basa en las reglas de predicción de distribución.
Cuando conocemos la distribución de un conjunto de datos, podemos saber cómo ver la aparición de algunos valores. Cuando aparece un valor particularmente grande o pequeño, ¿es un fenómeno común o un fenómeno raro? Por ejemplo, las alturas de un grupo de adultos suelen estar distribuidas normalmente. Una persona mide 1,4 metros y la otra mide 1,9 metros. Los datos son extremadamente escasos. La hora de llegada de los autobuses suele ser una distribución de potencia, es decir, hay más casos de llegadas de corta duración y menos casos de llegadas de larga duración. Cuando espera mucho tiempo, puede considerar si hay algún problema en la carretera o si necesita cambiar su automóvil.
La ley de predicción de la distribución también se puede utilizar en la producción y en la vida. Por ejemplo, la distribución de las contribuciones de los clientes es la distribución del poder. Algunos clientes aportan grandes contribuciones y una gran cantidad de clientes aportan contribuciones pequeñas y diversas. Algunos fabricantes optan por satisfacer a los grandes clientes, mientras que otros optan por satisfacer a los clientes contribuyentes pequeños y diversos, lo que supone aprovechar los beneficios de cola larga de la curva de distribución de energía.
¡Volver a publicar el texto original será de gran mérito!