Por ejemplo: queremos estudiar la edad de la población de Beijing. Seleccionamos al azar a 200 personas todos los días durante un mes.
Población: contiene todas las muestras de la investigación, en este ejemplo, todos los beijineses de todas las edades
Muestra: 200 personas contadas en un día determinado
Tamaño de la muestra: Población Término general para los elementos a examinar que se extraen de la muestra, es decir, los individuos de la muestra
Individual: los individuos seleccionados en un día determinado son todos individuos
Un método para inferir las características cuantitativas de la población a través de datos de muestra. Sobre la base de describir los datos de la muestra, hacemos inferencias en forma de probabilidades sobre las cantidades desconocidas de la población estadística.
La estimación puntual es. use estadísticas de muestra para reemplazar los parámetros de población
Aquí usamos la longitud promedio de los pétalos del iris para estimar la media de la población
La estimación de intervalo calcula un intervalo posible y una probabilidad basada en las estadísticas de la muestra, indicando qué tan probable serán los parámetros de la población en el intervalo.
El intervalo especificado por la estimación del intervalo es el intervalo de confianza, y la probabilidad especificada por la estimación del intervalo se denomina nivel de confianza.
La diferencia entre la estimación puntual y la estimación por intervalo es: la estimación puntual utiliza un valor para reemplazar el valor del parámetro general, mientras que la estimación por intervalo utiliza un intervalo de confianza y un nivel de confianza para indicar la probabilidad de que el parámetro general esté dentro este rango
De esta manera podemos sacar la conclusión:
La desviación estándar bajo la distribución media muestral se llama error estándar
En la distribución normal. , la proporción de distribución de datos es la siguiente:
Nuestro intervalo de confianza con un nivel de confianza de 0,95 está centrado en la media, y el intervalo compuesto por más o menos dos desviaciones estándar es el intervalo de confianza. En otras palabras, tenemos un 95% de confianza en que la probabilidad media general del 95% estará dentro del intervalo de confianza.
Tomemos un caso para ilustrar:
La fábrica tomó una muestra de 100 tornillos y calculó que el radio medio es de 5,1 mm y la desviación estándar es de 0,25 mm. Luego, el valor medio de todos. Los tornillos en nuestra fábrica pueden ser ¿cuánto? (Nivel de confianza de 95)
5.1 Suma y resta (0,25) / signo raíz 100
¿Por qué es necesario dividir 0,25 entre 10 porque la desviación estándar de la muestra es grande? suficiente y puede considerarse como una muestra La desviación estándar de es la desviación estándar de la población
La prueba de hipótesis también se llama prueba de significancia, que utiliza las estadísticas de la muestra para juzgar la diferencia con los parámetros de la población. Primero hacemos ciertas suposiciones sobre los parámetros generales y luego utilizamos los datos recopilados para verificar si las suposiciones que hicimos antes son razonables. Estableceremos dos hipótesis completamente opuestas, a saber, la hipótesis nula H0 y la hipótesis alternativa H1, y luego nos basaremos en ellas. Analice y juzgue la información de la muestra para elegir si acepta la hipótesis nula o la hipótesis alternativa.
La prueba de hipótesis se utiliza para comprobar si existen diferencias restrictivas entre las estadísticas de la muestra y los parámetros de la población. Entonces, ¿qué probabilidad se considera significativa? Este valor de probabilidad es el valor P. Esta probabilidad es la probabilidad de respaldar la hipótesis nula. Debido a que en las pruebas de hipótesis, la hipótesis nula suele ser una hipótesis de equivalencia, el valor P también representa las estadísticas de la muestra. parámetros de población, la probabilidad de que no haya diferencia, luego establecemos un umbral de antemano, que es el nivel de significancia α, generalmente α es 0.05 y 1-α es el nivel de confianza.
Cuando el valor del valor P es mayor que α, se apoya la hipótesis nula; de lo contrario, se rechaza la hipótesis nula.
La prueba Z se utiliza para determinar si la media de la muestra es significativamente diferente de la media de la población. La prueba Z se basa en la teoría de la distribución normal Para inferir que se produce la diferencia:
La prueba t es similar a la prueba z y se utiliza para determinar si la media muestral es significativamente diferente de la media poblacional . Sin embargo, la prueba t se basa en la distribución t y la prueba t es adecuada para:
Sin embargo, a medida que aumenta el tamaño de la muestra, la distribución t se acerca gradualmente a la distribución normal y en este momento es similar a la prueba z.