1 Dispersión
Midiendo el grado de dispersión entre los valores de variables aleatorias, puede reflejar la diferencia entre los individuos observados, reflejando así la representatividad del indicador en el centro de la distribución con respecto al valor de la variable observada.
Midiendo la dispersión entre los valores de una variable aleatoria, podemos reflejar qué tan delgada o gruesa es la curva de densidad de la variable aleatoria.
1.1 Medición de indicadores de dispersión
Existen muchos indicadores que se pueden utilizar para medir las diferencias entre los valores de las variables observadas. Los indicadores más utilizados en el análisis estadístico y la inferencia son el rango y el promedio. diferencia y desviación estándar.
1.1.1 Rango límite
El rango, también conocido como fondo de escala, es la desviación entre el valor máximo y el valor mínimo de la variable observada, es decir, el valor máximo y suma de la variable observada El intervalo entre los valores mínimos. La fórmula de cálculo del rango es:
R=? Máximo (xi) Mínimo (xi)
Diferencia promedio 1.1.2
La diferencia promedio es la media aritmética del valor absoluto de la desviación de cada símbolo unitario de su media aritmética. Refleja de manera integral el grado de cambio en el valor del signo unitario general. Cuanto mayor sea la diferencia promedio, mayor será el cambio de signo y viceversa.
1.1.3 Desviación estándar
La desviación estándar es la raíz cuadrada aritmética de la desviación cuadrática media de una variable aleatoria. Es el indicador más utilizado para reflejar el grado de dispersión de. una variable aleatoria. La desviación estándar se puede calcular a partir de los datos de la muestra y la distribución teórica de las variables observadas, que se denominan desviación estándar de la muestra y desviación estándar de la población, respectivamente.
La desviación estándar es una medida de cuánto se desvía un conjunto de valores de la media. Una desviación estándar grande significa que la mayoría de los valores son muy diferentes de su media; una desviación estándar más pequeña significa que los valores están más cerca de la media.
Por ejemplo, la media de los dos conjuntos de números {0, 5, 9, 14} y {5, 6, 8, 9} es 7, pero el segundo conjunto tiene una desviación estándar más pequeña.
La desviación estándar se puede utilizar para medir la incertidumbre. Por ejemplo, en las ciencias físicas, cuando se realizan mediciones repetidas, la desviación estándar de un conjunto de mediciones representa la precisión de esas mediciones. La desviación estándar de los valores medidos juega un papel decisivo a la hora de determinar si los valores medidos coinciden con los valores previstos: si el valor medio medido está demasiado lejos del valor previsto (y en comparación con el valor de desviación estándar al mismo tiempo). tiempo), se considera que el valor medido contradice el valor previsto. Esto es fácil de entender, porque los valores quedan fuera de un cierto rango de valores y se puede inferir razonablemente si el valor predicho es correcto.
2 Centro de Distribución
El centro de distribución de una variable aleatoria es el representante de todos los valores de la variable aleatoria y puede usarse para reflejar el nivel aproximado de su valor.
El centro de distribución de una variable aleatoria puede revelar la posición concentrada de todos los valores de la variable aleatoria en el sistema de coordenadas cartesiano y puede usarse para reflejar la posición central de la curva de densidad de distribución de la variable aleatoria. , es decir, el centro de simetría o posición máxima.
Existen muchos indicadores para medir el centro de distribución de variables aleatorias. La media aritmética, la mediana y la moda se utilizan habitualmente en el análisis y la inferencia estadística.
2.1 Media aritmética
La media aritmética, también llamada media aritmética, es la relación entre la suma de todos los valores observados de una variable aleatoria y el número de observaciones.
2.2 Mediana
La mediana se refiere a los datos ordenados por tamaño para formar una secuencia, ubicados en el medio de la secuencia. La mediana la expreso yo.
Se puede observar de la definición de mediana que la mitad de los datos estudiados son menores que la mediana y la otra mitad son mayores que la mediana. La mediana funciona como la media aritmética y es un valor representativo de los datos que se estudian. En una secuencia aritmética o una secuencia de distribución normal, la mediana es igual a la media aritmética.
Cuando aparecen valores de variables extremos en la secuencia, es mejor usar la mediana como valor representativo que la media aritmética, porque la mediana no se ve afectada por los valores de las variables extremas si el propósito de; el estudio debe reflejar los niveles intermedios, por supuesto también se utiliza la mediana. La mediana se puede utilizar en el procesamiento y análisis de datos estadísticos.
2.3 Modo
La moda se refiere a los datos que aparecen con mayor frecuencia en un conjunto de datos. Un conjunto de datos puede tener o no múltiples patrones.
Distribución tridimensional
Las series de emisión (¿Edición? Serie) se basan en agrupaciones estadísticas, todas las unidades de la población se agrupan y clasifican según ciertos signos, y cada grupo El total El número de unidades en cada grupo se resume y organiza en un orden determinado para formar una distribución del número total de unidades en cada grupo, también llamada distribución de frecuencia.
Logotipo: Logotipo es un nombre utilizado para describir las características de la unidad en general. Por ejemplo, al estudiar la situación de los trabajadores, todos los trabajadores son un todo y cada trabajador es una unidad completa. Si el sexo de un trabajador es masculino, su edad es 32 años, su salario mensual es de 100 yuanes y su tipo de trabajo es torno, entonces se llama visa. Género, edad, tipo de trabajo y salario mensual son los nombres de los signos; hombre, 32 años, 100 yuanes, trabajador de torno es la encarnación específica de estos signos. El nombre del logotipo y su desempeño específico pueden reflejar la situación específica de cada unidad en general.
El número de unidades distribuidas en cada grupo se llama frecuencia o frecuencia, representada por f. La relación entre el número de veces en cada grupo y el número total de veces se llama frecuencia, representada por f/f. La distribución de frecuencia puede mostrar el grupo. Las características de distribución de todas las unidades en cada grupo se utilizan para estudiar el nivel promedio de un símbolo en el grupo y sus reglas cambiantes. Por ejemplo, la secuencia de distribución de la población dentro de cada grupo formado al agrupar la población por género; la secuencia de distribución del número de estudiantes en cada grupo formado al agrupar a los estudiantes por edad es una secuencia de distribución de frecuencias.
La secuencia de distribución de cantidades muestra intuitivamente las características de distribución y la estructura de la unidad general. Sobre esta base, se puede estudiar más a fondo su composición, nivel promedio y sus reglas cambiantes.
La tabla 1 es un ejemplo de una serie de distribución numérica.
3.1 Clasificación de secuencias de distribución
Según las diferentes características de las marcas de agrupación, las secuencias de distribución se pueden dividir en secuencias de distribución de atributos y secuencias de distribución de variables.
3.1.1 Serie de distribución de atributos
La serie de distribución de números formada por la agrupación de marcas de calidad se denomina serie de distribución de atributos, generalmente denominada serie de calidad, y consta de dos elementos: el grupo nombre y número de cada grupo. Para las series de calidad, si los signos de agrupación se seleccionan adecuadamente y los estándares de agrupación se establecen adecuadamente, las diferencias en la naturaleza de las cosas serán más claras y la división de grupos en la multitud será más fácil de resolver, reflejando así con precisión las características de distribución. del fenómeno multitud.
3.1.2 Serie de distribución variable
La secuencia de distribución numérica formada al agrupar los símbolos de cantidad se denomina secuencia de distribución variable. Generalmente se denomina secuencia de variable. valor y el número de cada grupo de composición. El número de veces en cada grupo refleja el papel de cada grupo de valores variables en el conjunto.
En la tabla 2 se muestra una serie de cualidades que reflejan la composición étnica de la población de una determinada zona. El Cuadro 3 muestra una serie de variables que reflejan la estructura de edades de la población en una determinada región.
Según sea continua o no, las secuencias de distribución se pueden dividir en secuencias de distribución discontinuas y secuencias de distribución continua.
3.1.3 Series de distribución discontinua
También llamadas series de distribución discontinua. Es una secuencia de distribución que solo puede aparecer en forma de números enteros y no en forma decimal, como la secuencia de distribución por edad, la secuencia de distribución del número de empleados, la secuencia de distribución del número de equipos, etc.
3.1.4 Serie de distribución continua
Se refiere a la secuencia de distribución que se puede expresar en forma decimal, como la secuencia de distribución de salarios, la secuencia de distribución del valor de producción, la secuencia de distribución de ventas de productos básicos, etc. .
La tabla 4 es un ejemplo de una secuencia de distribución discontinua.
La tabla 5 es un ejemplo de una serie de distribución continua.
3.2 Distribución de frecuencia acumulada
La secuencia de distribución en sí no solo puede reflejar la distribución de frecuencia general, sino también estudiar más a fondo la frecuencia y la distribución de frecuencia basándose en la distribución de frecuencia en el análisis estadístico. La distribución de frecuencia acumulada, frecuencia acumulada y frecuencia respectivamente, representa el número y la proporción de valores de observación en la población con un determinado valor de signo inferior a un determinado valor y resume las características de distribución de todas las unidades de la población.
Existen dos formas de distribución de frecuencia acumulativa: acumulación ascendente y acumulación descendente.
3.2.1 Frecuencia o ratio acumulativo ascendente
La distribución de frecuencia acumulada ascendente es el número o ratio de cada grupo acumulado desde el grupo con valor variable bajo hasta el grupo con valor variable alto. La frecuencia acumulada ascendente indica la suma de unidades por debajo de un determinado límite superior; la frecuencia acumulativa ascendente indica la proporción de la suma de cada grupo de unidades por debajo de un determinado límite superior con respecto al total de unidades.
3.2.2 Frecuencia o ratio acumulativo descendente
La distribución de frecuencia acumulada descendente es el número o ratio de cada grupo acumulado desde el grupo con valor de variable alto hasta el grupo con valor de variable bajo.
La frecuencia acumulada descendente representa la suma de unidades por encima de un determinado límite inferior; la frecuencia acumulativa descendente representa la proporción de la suma de cada grupo de unidades por encima de un determinado límite inferior con respecto al número total de unidades.
La Tabla 6 muestra la forma específica de la distribución de frecuencia acumulada.
Según la Tabla 6, 4 estudiantes reprobaron, lo que representa el 5,0% del total de estudiantes. Hubo 18 estudiantes con puntuaciones inferiores a 70, lo que representa el 22,5% de todos los estudiantes. Hay 40 estudiantes con puntajes de 80 o más, lo que representa el 50,0% de todos los estudiantes; 16 estudiantes tienen puntajes excelentes (90 puntos), lo que representa el 20,0% de todos los estudiantes.
Las características de la distribución de frecuencia acumulada son: primero, la frecuencia acumulada del primer grupo es igual a la frecuencia del primer grupo; segundo, la frecuencia acumulada del último grupo es igual al número total; de unidades.
Las características de la distribución de frecuencia acumulada son: primero, la frecuencia acumulada del primer grupo es la frecuencia del primer grupo; segundo, la frecuencia acumulada del último grupo es igual a 1 (o 100%). ).
3.3 Principales tipos de distribución de frecuencia
3.3.1 Distribución normal
La distribución normal también se denomina distribución en forma de campana, que se caracteriza por "grandes en el medio y el pequeño en ambos extremos "”, es decir, los valores de las variables cerca del medio se distribuyen con más frecuencia y los valores de las variables cerca de los dos extremos se distribuyen con menos frecuencia, como se muestra en la Figura 1.
Muchos fenómenos socioeconómicos tienen distribuciones en forma de campana. Por ejemplo, fenómenos como la altura y el peso de las personas, las calificaciones de los estudiantes, el rendimiento de los cultivos, los precios de mercado, las tolerancias de las piezas, etc., pertenecen todos a la distribución normal.
3.3.2 Distribución en forma de U
La distribución en forma de U se caracteriza por una pequeña cantidad de valores variables cerca del medio y una gran cantidad de valores variables cerca Ambos extremos, formando "dos extremos y un medio grande" características de distribución "pequeñas". Este patrón se muestra tanto en la distribución de las tasas de mortalidad de la población por edad como en la distribución de las tasas de fallas de productos mecánicos por edad (ver Figura 2).
La curva de la Figura 2 muestra que la tasa de mortalidad de los bebés y los ancianos es mayor, y la tasa de mortalidad de las personas jóvenes y de mediana edad es menor, o la tasa de fallas es mayor cuando se coloca la máquina. en uso, y luego cae bruscamente y se repara durante un período de tiempo considerable. Las tasas de fallas aumentaron dramáticamente. La parte media de esta curva de distribución ocupa la mayor parte de toda la curva.
Distribución en forma de J
La distribución en forma de J se caracteriza por "un lado es pequeño y el otro es grande", es decir, la mayoría de los valores de las variables están distribuidos en un extremo. Hay dos tipos de curvas en forma de J positivas y curvas en forma de J inversa. El primero muestra que el número de veces aumenta con el aumento del valor de la variable, como la relación de cambio mutuo entre el monto de la inversión y la tasa de ganancia, como se muestra en la Figura 3 (a); con el aumento del valor de la variable, como el cambio del producto básico. La relación entre el volumen de ventas y el precio se muestra en la Figura 3(b).
El tipo de distribución de frecuencia depende principalmente de la naturaleza del fenómeno socioeconómico en sí. Las secuencias y gráficos de distribución de números compilados a veces pueden comportarse de manera diferente debido a diferentes condiciones objetivas generales, pero sus formas aún deben ajustarse a las características de distribución de este fenómeno.
4 Distribución normal
Distribución normal, también llamada “distribución normal”, también llamada distribución gaussiana. Una curva normal tiene forma de campana, baja en ambos extremos y alta en el medio, simétrica, por eso la gente suele llamarla curva en forma de campana.
Si la variable aleatoria X obedece a la distribución normal con expectativa matemática μ y varianza σ 2, se registra como N(μ, σ 2). La función de densidad de probabilidad es el valor esperado μ de la distribución normal que determina su posición, y su diferencia de calibración σ determina la amplitud de la distribución. Cuando μ = 0, σ = 1, la distribución normal es la distribución normal estándar.
4.1 Significado del parámetro
La distribución normal tiene dos parámetros, a saber, la expectativa (media) μ y la desviación estándar σ, donde σ2 es la varianza.
La distribución normal es una distribución de variables aleatorias continuas con dos parámetros μ y σ 2. El primer parámetro μ es la media de la variable aleatoria que obedece a la distribución normal, y el segundo parámetro σ 2 es la varianza de esta variable aleatoria, por lo que la distribución normal se registra como N(μ, σ2).
μ es el parámetro de posición de la distribución normal, que describe la posición de tendencia central de la distribución normal. La ley de la probabilidad es que la probabilidad de tomar un valor cercano a μ es alta y la probabilidad de tomar un valor alejado de μ es pequeña. La distribución normal tiene X = μ como eje de simetría y los lados izquierdo y derecho son completamente simétricos. La expectativa, la media, la mediana y la moda de la distribución normal son todas iguales y todas son iguales a μ.
σ describe el grado de dispersión de datos distribuidos normalmente. Cuanto mayor es σ, más dispersa está la distribución de datos, y cuanto menor es σ, más concentrada está la distribución de datos. σ también se conoce como parámetro de forma de la distribución normal. Cuanto mayor es σ, más plana es la curva; por el contrario, cuanto menor es σ, más delgada es la curva.
4.2 Características Gráficas
Concentración: El pico de la curva normal está en el centro, que es donde está la media.
Simetría: La curva normal está centrada en la media y es simétrica de izquierda a derecha. Los dos extremos de la curva nunca se cruzan con el eje horizontal.
Variación uniforme: la curva normal comienza desde donde está la media y disminuye gradualmente de manera uniforme hacia los lados izquierdo y derecho.
El área entre la curva y el eje horizontal es siempre igual a 1, lo que equivale a la probabilidad de la función que integra la función de densidad de probabilidad desde infinito positivo hasta infinito negativo hasta 1. Es decir, la suma de frecuencias es 100%.
Acerca de la simetría μ, el valor máximo se toma en μ, el valor se toma en el infinito positivo (negativo), hay un punto de inflexión en μ σ y la forma es alta en el medio y baja en ambos lados. La curva de función de densidad de probabilidad de la distribución normal tiene forma de campana, por lo que la gente suele llamarla curva en forma de campana.
4.3 Tabla estándar de distribución de actitudes positivas
(Tucao: Parece que aprendí esta forma de cálculo y se la devolví al profesor...)
Nivel del encabezado de la tabla La dirección representa el segundo dígito después del punto decimal, y la dirección vertical del encabezado es la parte entera y el primer dígito después del punto decimal se combinan para formar un completo, 1,1, el valor correspondiente es 0,05; es 0,8749.