Análisis de resumen de varianza

¿Cómo comparar las diferencias entre dos poblaciones?

Investigar muestras y analizar la población a través de muestras de investigación. De hecho, la población objeto de estudio suele ser infinita y los parámetros de la población no se pueden observar ni calcular. De manera similar, la media poblacional a menudo es imposible de calcular, por lo que la media muestral se utiliza a menudo como una estimación de la media poblacional, porque la expectativa matemática de la media muestral es igual a la media poblacional.

Análisis del significado de las palabras

La desviación media se refiere a la desviación de cada observación de la media.

El error cuadrático medio de una muestra es una estimación insesgada de la varianza poblacional.

La desviación estándar es la raíz media positiva de la varianza y se utiliza para expresar el grado de variación de los datos.

La desviación estándar de la distribución muestral también se denomina error estándar y puede medir cambios en la distribución muestral.

Coeficiente de variabilidad

La desviación estándar tiene la misma unidad que el valor observado y representa el grado de variación de la muestra. Si compara el grado de variación entre dos muestras, la desviación estándar no se puede utilizar para la comparación directa porque las unidades o las medias son diferentes. En este momento, la desviación estándar de la muestra se puede calcular como un porcentaje de la media, lo que se denomina coeficiente de variación.

Dado que el coeficiente de variación es la relación entre la desviación estándar y la media, y se ve afectado por la desviación estándar y la media, cuando se utiliza el coeficiente de variación para expresar el grado de variación de la muestra, la media y la desviación estándar deben enumerarse al mismo tiempo; de lo contrario, puede causar malentendidos.

Distribución normal

La ecuación de distribución normal estandarizada se basa en la distribución normal, donde U es la media de la distribución normal y S es la varianza de la distribución normal.

Debido a que la media y la varianza de diferentes poblaciones son diferentes, se convierten en la ecuación de distribución normal estándar. De esta manera, para calcular la probabilidad de una distribución normal, solo es necesario convertir y en un valor de u. y luego busque la tabla. Obtenga la probabilidad de que y caiga en un intervalo determinado.

Prueba de hipótesis

La distribución de la media de muestreo aleatorio se puede inferir de la población hipotética, calculando así la probabilidad de un valor específico de la media de muestra, estudiando así la relación entre la muestra y la población. Realizar pruebas de hipótesis, que es el principio básico de las pruebas de hipótesis.

Prueba t

La prueba f también se denomina prueba de homogeneidad de varianzas. La prueba t de dos muestras utiliza la prueba f. Al realizar la prueba t, debemos considerar si las varianzas son iguales, lo que se puede analizar con la prueba f.

Prueba u y prueba t

Prueba U: prueba de hipótesis que utiliza distribución U, se conoce la varianza de la población o se desconoce la varianza pero la muestra es grande;

Prueba T: prueba que utiliza una distribución T con varianza poblacional desconocida y es una prueba de muestra pequeña.

La prueba U se calcula basándose en el principio de distribución normal estandarizada. Prueba U Se conoce la varianza de la población o se desconoce la varianza. El tamaño de una sola muestra es bastante grande y la varianza de la muestra se puede utilizar directamente como varianza de la población.

De manera similar, la prueba T también se analiza basándose en este principio. Sin embargo, dado que la muestra de la prueba T es relativamente pequeña (generalmente menos de 30, cuando la muestra es mayor que 30, está cerca de. una distribución normal), y se desconoce la varianza general, así que úsela primero. La varianza de la muestra estima la varianza de la población y luego analiza y calcula la probabilidad.

Datos emparejados, porque las condiciones experimentales de las dos unidades de prueba en el mismo par son muy similares, y la diferencia en las condiciones entre diferentes pares puede eliminarse por la diferencia en el mismo par, porque el error experimental Es controlable y la precisión es alta.

Análisis de varianza

Para un conjunto de datos de prueba repetidos procesados, el cuadrado medio entre procesos y el cuadrado medio intraproceso (cuadrado medio del error) se estiman descomponiendo la suma de cuadrados y los grados de libertad totales, use f para probar si la diferencia expresada entre tratamientos es verdadera (mayor que el error específico).

El análisis de varianza se basa en un determinado modelo aditivo lineal. El llamado modelo aditivo lineal consiste en descomponer cada variable de la población en varios componentes lineales según las razones de su cambio. Esta es la base teórica del análisis de varianza.

Supuestos básicos del análisis de varianza

prueba f

En una población normal con media U y varianza S, se seleccionan aleatoriamente dos muestras independientes, ambas Los cuadrados son s1 y s2 respectivamente. La relación de s1 y s2 se define como F, y el valor de F tiene los grados de libertad de s1 y s2.

En el sistema de análisis de varianza, la prueba f se puede utilizar para detectar si realmente existe la correspondencia o varianza de un factor de variación, por lo que al calcular el valor F se tiene en cuenta el error cuadrático medio del factor de variación. probado es siempre el numerador y el error cuadrático medio de otra variación (como el término de error experimental) es el denominador. Es decir, si el factor de variación detectado existe, su cuadrado medio es mayor que el cuadrado medio finito según la relación entre los grados de libertad.

Comparaciones múltiples

El método de diferencia menos significativa (esencialmente una prueba T), el método Q y el nuevo método de rango múltiple LSD.

Métodos para expresar resultados de comparación múltiples

El método de corte y el método de letras primero organizan los valores promedio de mayor a menor y luego dividen los insignificantes en el mismo grupo.

Métodos de estimación de parámetros

Método de momentos, método de mínimos cuadrados, método de máxima verosimilitud

Análisis de varianza conjunta

Múltiples puntos utilizados para muchos años Análisis experimental

Coeficiente de correlación y coeficiente de determinación

Para dos variables cuyos puntos de coordenadas muestran una tendencia lineal, si no necesita usar X para estimar Y, solo necesita Para saber si X e Y están realmente relacionados y sus propiedades de correlación (correlación positiva o negativa), primero debemos calcular las estadísticas que representan el grado y las propiedades de X e Y: el coeficiente de correlación (R se usa para representar el coeficiente de correlación). El coeficiente de determinación se define como el Y causado por diferentes X. La relación entre la suma de los cuadrados de Y y la suma de las sumas de los cuadrados de Y (el coeficiente de determinación está representado por R).

El coeficiente de regresión es el efecto de x sobre y.

Coeficiente de regresión parcial

El coeficiente de regresión parcial es el efecto de una variable sobre la variable dependiente cuando otras variables independientes permanecen sin cambios.

El coeficiente de correlación parcial significa que otras variables mantienen la relación entre una determinada variable y la variable dependiente.

Covariables

En general, son variables que afectan a la variable dependiente distinta de la independiente, así como algunas variables incontrolables que se pueden medir. En un diseño experimental, una covariable es una variable independiente que el experimentador no puede manipular, pero que aún afecta los resultados del experimento.

La covarianza es una técnica estadística basada en el análisis de varianza y el análisis de regresión integral, que estudia cómo ajustar el impacto de las covariables sobre las variables dependientes para analizar de manera más efectiva los efectos de los tratamientos experimentales. En pocas palabras, es un análisis de covariables.

Si desea obtener el intervalo de confianza en el análisis de regresión, puede analizar-regresión-regresión lineal-estadísticas-coeficiente de regresión-representación del gráfico de barras de error en el análisis de regresión.

Análisis de covarianza

Regresión lineal y puntos de aplicación relacionados (muy importante)

Sesgo

Mide el grado en que los datos se desvían de la distribución normal, describe la simetría de la función de distribución. Cuando la asimetría es positiva, la distribución está sesgada hacia mayor que la media, y cuando la asimetría es negativa, la distribución está sesgada hacia menos que la media. Cuando el valor absoluto de la asimetría es mayor que 2, la distribución está seriamente sesgada.

Kurtness

Mide la altura del pico cuando los datos siguen una distribución normal, que describe el grado de concentración y dispersión de diferentes tipos de distribuciones. Cuando la curtosis es mayor que 3, la distribución es pronunciada y el estado máximo es obvio, es decir, la distribución de la variable general está relativamente concentrada.

La asimetría y la curtosis son indicadores importantes para juzgar la distribución normal.

Un experimento completamente aleatorio es un ANOVA simple unidireccional.

Sin embargo, en la prueba de bloques aleatorios, se puede utilizar el análisis de varianza de dos factores no repetidos, porque los bloques, como medio de control local, son bastante efectivos para reducir errores (generalmente no hay pruebas entre bloques). f prueba, porque el propósito de la prueba no es estudiar los efectos de bloque).

Experimento de tira

En experimentos multifactoriales, dado que cada nivel de cada factor necesita tener un área grande para el experimento, el mismo tratamiento también se realiza en la parcela dividida conectada entre sí. basado en el diseño. De esta manera, los dos factores A y B se tratan como primarios y secundarios entre sí, y el procesamiento cruzado de los dos factores es la combinación del procesamiento en cada nivel. Este es un diseño de barra.

Experimento de diagrama dividido

El experimento de diagrama dividido divide los factores experimentales en factores principales y factores auxiliares, por lo que el experimento de diagrama dividido tiene dos términos de error de variación, mientras que el experimento de bloque aleatorio general El experimento solo tiene un término de error.

/s/blog _ ab3e DDB 50102 vz 3 I. html utiliza personalización de un solo factor y luego diseña el modelo por sí mismo: bloque efecto primario bloque (efecto primario) efecto secundario efecto primario * efecto secundario. Modifíquelo en Archivo-Nueva-Sintaxis.

Experimento de tira

Análisis factorial único y factorial completo en spss

Análisis de varianza (spss) de datos de un solo grupo con el mismo número de observaciones en un grupo : Análisis unidireccional simple.

Análisis de varianza (spss) para datos de un solo grupo con diferente número de observaciones en el grupo: factor único, tipo 1.

Análisis de varianza para datos agrupados (spss): factor único, y luego modificar el modelo a {agrupación de factores (factor) subgrupo (factor * agrupación).

}

No se preocupe por las diferencias entre combinaciones de tratamientos en un ANOVA multivariado.

Conjunto de fuente de alimentación suplementaria (abreviatura de conjunto de fuente de alimentación suplementaria)

En muchos problemas prácticos, no es suficiente confiar únicamente en la descripción estadística y en métodos simples de inferencia estadística. En el mundo real, la relación entre variables es compleja y, a menudo, es necesario considerar los efectos de múltiples factores al mismo tiempo y construir un modelo multivariado para ellos.

Términos de uso común

1. Factores y niveles

Los factores, también conocidos como factores, se refieren a variables categóricas que pueden tener un impacto en la variable dependiente. y los diferentes niveles de variables categóricas (categorías) se denominan niveles.

2. Célula

A una célula también se le llama combinación horizontal, o célula, que es una combinación de varios factores en varios niveles.

3. Elemento

Elemento se refiere a la unidad más pequeña utilizada para medir el valor de la variable dependiente. Dependiendo del diseño experimental específico, una celda puede tener múltiples elementos, o solo uno, o incluso ningún elemento.

4. Equilibrio

Si en un diseño experimental, cualquier factor o nivel aparece el mismo número de veces en una misma celda, y los elementos en cada celda si los números son los mismos. , el experimento está equilibrado; de lo contrario, se denomina desequilibrado. El diseño experimental de no equilibrio tiene un análisis más complejo y requiere configuraciones especiales del modelo de análisis de varianza para obtener resultados de análisis correctos.

Los tamaños de muestra de los dos tratamientos son diferentes, lo que supone un experimento desequilibrado. Los valores de los estadísticos T calculados por heterocedasticidad e igual varianza en experimentos no balanceados son diferentes, mientras que los valores de los estadísticos T calculados por heterocedasticidad e igual varianza en experimentos balanceados son los mismos, pero los grados de libertad son diferentes. En este momento, los resultados de los dos métodos son relativamente similares, por lo que generalmente se requiere un experimento de equilibrio en el diseño experimental.

La situación en la que las diferencias entre dos o más tratamientos son iguales se denomina homogeneidad de varianzas. Estrictamente hablando, no hay dos tratamientos que tengan exactamente la misma variación. Cuando decimos varianzas homogéneas, simplemente pensamos que las varianzas de los dos tratamientos no son muy diferentes y que el grado de variación de la varianza no es suficiente para afectar la exactitud de los resultados del análisis estadístico. En este momento, el impacto de las diferencias de varianza en los resultados del análisis estadístico se puede reducir aún más mediante pruebas equilibradas. Bajo la premisa de homogeneidad de varianzas, la eficiencia estadística de la prueba equilibrada es la más alta. Si se puede determinar antes del experimento que las varianzas son heterogéneas, entonces se deben asignar tamaños de muestra más grandes a los tratamientos con varianzas mayores.

En aplicaciones prácticas, las variaciones son homogéneas en la mayoría de los casos. Cuando el número de tratamientos en el experimento es más de dos, se debe utilizar el análisis de varianza para comparar las diferencias promedio entre múltiples tratamientos. El requisito previo para el análisis de varianza es la homogeneidad de las varianzas, por lo que el supuesto de varianzas iguales es universal.

5. Covarianza

La covarianza se refiere a variables continuas que pueden afectar a la variable dependiente y deben controlarse durante el análisis. De hecho, los factores y las covariables pueden entenderse simplemente como variables independientes categóricas y variables independientes continuas, respectivamente.

6. Interacción

Si la utilidad de un factor es significativamente diferente en diferentes niveles de otro factor, se dice que existe una interacción entre los dos factores.

7. Factores fijos y factores aleatorios.

Un factor fijo significa que el factor ocurre en todos los niveles posibles en la muestra.

Factor aleatorio significa que en la muestra no aparecen todos los valores posibles del factor, o es imposible que aparezcan todos.

Condiciones aplicables del modelo de análisis de varianza

1. Condiciones teóricas aplicables

*Independencia de cada muestra: Dado que cada muestra es independiente, y del muestreo aleatorio real, se puede garantizar que la variación es aditiva (descomponible) como expresión del modelo;

*Normalidad: dado que cada conjunto de términos de error aleatorios está configurado para obedecer una distribución normal, el modelo requiere que el residual de cada La celda debe seguir una distribución normal.

*Homogeneidad de las varianzas: también por el término de error aleatorio. Dado que se supone que cualquier combinación de términos de error aleatorio en el modelo obedece a la misma distribución normal, el modelo requiere que todas las unidades cumplan el requisito de homogeneidad de varianza (el mismo grado de variación).

2. Dominar las condiciones aplicables en las operaciones reales.

(1) Análisis de varianza unidireccional

Dado que el modelo tiene un solo factor, el diseño es simple y la muestra tiene suficiente información para examinar la normalidad y la homogeneidad de la varianza. Estos se han convertido en los pasos de análisis estándar.

Sin embargo, muchas personas entienden que la normalidad significa que la variable dependiente debe distribuirse normalmente, lo que obviamente es diferente del requisito real.

Sin embargo, debido a la solidez del modelo, los resultados del análisis generalmente son estables sólo cuando la distribución de la variable dependiente no está significativamente sesgada.

En cuanto a la homogeneidad de las varianzas, cabe señalar que, según los resultados de la investigación de Box, en el análisis de varianza unidireccional, si el número de casos en cada grupo es el mismo (es decir, equilibrado), o la distribución general se distribuye normalmente. Entonces, el modelo de análisis de varianza tiene una cierta tolerancia para variaciones ligeramente desiguales, siempre que la relación entre la varianza máxima y la varianza mínima sea inferior a 3, los resultados del análisis son estables.

(2) Análisis de varianza de datos repetidos dentro de una unidad

El análisis de varianza en el diseño de compatibilidad es el más típico. En este momento, la normalidad y homogeneidad de la varianza sí lo hacen. No es necesario considerar la propiedad, porque la consideración de normalidad y homogeneidad de la varianza se basa en celdas. En este momento, solo hay un elemento en cada celda y no se puede realizar el análisis en este momento. Con excepción de ANOVA para diseños de compatibilidad, los diseños cruzados y los diseños normales pueden no tener datos repetidos. Sin embargo, cabe señalar que las condiciones aplicables no pueden considerarse aquí simplemente porque sean insuficientes. Esto no significa que estas dos cuestiones puedan ignorarse por completo. Si cree que puede haber problemas con la normalidad y la homogeneidad de la varianza en diferentes celdas según el conocimiento profesional, debe evitar utilizar este esquema de diseño sin datos repetidos.

Por supuesto, desde la perspectiva del modelo, hay otra forma de considerar la normalidad de los datos en las operaciones reales, que es hacer un gráfico de análisis residual después del ajuste. Si los residuos se distribuyen aleatoriamente, sabrá que los datos originales (en las celdas) satisfacen la condición de normalidad.

(3) Análisis multivariado de varianza de datos repetidos.

Debido a que la prueba de normalidad y homogeneidad de varianzas se basa en celdas, la cantidad de celdas suele ser mayor en este momento y la cantidad promedio de muestras por celda es en realidad menor.

Por otro lado, es posible que la prueba falle porque solo unas pocas celdas tienen varianzas desiguales. Según la experiencia práctica, de hecho, en el análisis de varianza multivariante, la influencia de los valores extremos es mayor que la influencia de la homogeneidad de las varianzas, por lo que la distribución de la variable dependiente se puede examinar directamente en el análisis real. Si la distribución de los datos no está obviamente sesgada, no habrá valores extremos, pero en términos generales, la homogeneidad de las varianzas y la normalidad no serán un problema demasiado grande, y básicamente se pueden garantizar valores finales infinitos dentro de las celdas. Por lo tanto, en el análisis multivariado de la varianza, la homogeneidad de las varianzas a menudo se limita a discusiones teóricas. Pero para investigaciones más importantes, el análisis residual después del modelado es muy importante.

Método LSD: De hecho, se requiere comparar cada grupo con un nivel de referencia.

Método S-N-K: los resultados de la comparación por pares son más claros.

1. Primero, ordenará cada grupo según el tamaño del valor medio en la dirección vertical de la tabla.

2. , lo dividirá en varios subgrupos, los valores p de diferentes subgrupos son todos menores que 0.05, mientras que no hay diferencia en los valores promedio de cada grupo en el mismo subgrupo, y los valores p comparativos son todos mayores que 0,05.

Cuando una variable independiente se correlaciona con otras variables independientes o covariables, no existe una forma clara de evaluar la contribución de la variable independiente a la variable dependiente. Por ejemplo, un diseño factorial desequilibrado de dos factores de los factores A, B y la variable dependiente Y tiene tres efectos: el efecto principal de A y B, y el efecto de interacción de A y B. Suponga que utiliza la siguiente expresión para simular el datos:

Y ~ A + B + A:B

Hay tres formas de descomponer la varianza de Y, explicadas por los efectos en el lado derecho de la ecuación.

Tipo I (tipo secuencial)

Ajusta el efecto según el efecto que aparece primero en la expresión. A no se ajusta, B se ajusta según A y el término de interacción A:B se ajusta según A y B.

Tipo II (tipo jerárquico)

El efecto se basa en el mismo nivel o efecto de nivel inferior Realice ajustes. A se ajusta a B, B se ajusta a A y la interacción A:B se ajusta tanto a A como a B.

Tipo III (Borderline)

Cada efecto se ajusta según los demás efectos del modelo. Ajuste A según B y A:B, ajuste la interacción A:B según A y B.

Para experimentos de equilibrio, se pueden usar ambos modelos, pero para experimentos de no equilibrio, use el tipo I.

r llama al método de tipo I de forma predeterminada, y otro software (como SAS, SPSS) llama al método de tipo III de forma predeterminada.

En términos generales, cuanto más básico sea el efecto, más será necesario colocarlo delante de la expresión. Específicamente, primero hay términos de covariables, luego términos de efectos principales, luego términos de interacción de dos factores, luego términos de interacción de tres factores, y así sucesivamente.

Para los efectos principales, las variables más básicas se colocan antes de la expresión, por lo que el género se coloca antes del método de tratamiento.

El análisis de varianza se utiliza ampliamente en la investigación de análisis cuantitativo en muchos campos como los negocios, la economía, la medicina y la agricultura. Por ejemplo, en la publicidad comercial, la eficacia de la publicidad puede verse afectada por muchos factores, como el estilo de la publicidad, el tamaño regional, el tiempo de transmisión, la frecuencia de transmisión, etc. Utilice el análisis de varianza para estudiar cuáles de los muchos factores son dominantes y cómo influyen en ellos. En la gestión económica, el análisis de varianza se utiliza a menudo para analizar la relación entre variables, como el impacto del tipo de cambio del RMB en los rendimientos de las acciones, el impacto de las tasas de interés de depósitos y préstamos en el mercado de bonos, etc.

La covarianza es una técnica estadística basada en el análisis de varianza y el análisis de regresión integral, que estudia cómo ajustar el impacto de las covariables sobre las variables dependientes para analizar de manera más efectiva los efectos de los tratamientos experimentales.

8.1 Implementación de ANOVA unidireccional y R

(1) Prueba de normalidad

Para la normalidad de los datos se utiliza la prueba normal de Shapiro-Wilk La normalidad El método de prueba (prueba W) se usa generalmente para probar si la muestra se ajusta a la distribución normal cuando el tamaño de la muestra es n≤50.

En R, la función shapiro.test() proporciona la estadística W y el valor P correspondiente, por lo que el valor P se puede utilizar directamente como criterio de juicio. Su formato de llamada es shapiro.test(x). , el parámetro X es el conjunto de datos que se va a probar, que es un vector con una longitud de 35.000.

Ejemplo:

Un determinado banco estipula que el saldo promedio mensual de la cuenta de los clientes VIP debe alcanzar 6,5438+0 millones de yuanes como indicador para comparar el desempeño de las sucursales. Aquí la sucursal es el factor y el saldo de la cuenta es el indicador a medir. Primero, se seleccionaron al azar siete cuentas de clientes VIP de tres sucursales. Para determinar si este indicador de desempeño de las tres sucursales es el mismo mediante un análisis de varianza de un factor, primero realice una prueba normal en los saldos de cuentas de las dos sucursales.

Todos los valores de p son mayores que el nivel de significancia a=0,05, por lo que no se puede rechazar la hipótesis nula, lo que indica que todos los datos están en los tres niveles del factor a.

Proviene de la distribución normal.

QQPlot se utiliza para verificar visualmente si un conjunto de datos proviene de una determinada distribución, o si dos conjuntos de datos provienen de la misma distribución (familiar). En la enseñanza y el software, a menudo se utiliza para probar si los datos provienen de una distribución normal.

El gráfico Qq es un gráfico de cuantiles normal. La ordenada es el valor de la variable. La clave es la abscisa, que se refiere al blog del blogger. Escribí un programa en R para verificar. Básicamente no hay problema.

El nombre completo de qqplot debe ser gráfico de cuantiles normal. El método de abscisas es el siguiente:

Primero organice las variables en orden de pequeña a grande y calcule la longitud de la variable. , es decir, el total * * *, cuántos valores hay, y luego calcula el porcentaje acumulado de todos los valores de la variable en secuencia. El llamado porcentaje acumulativo puede considerarse como probabilidad acumulativa. Por ejemplo, si hay 10 valores y el primer valor en orden ascendente es 1, entonces su porcentaje es 65438. El porcentaje del último valor también será del 10%, pero el valor de probabilidad acumulada es del 20%, calculado secuencialmente, porque el porcentaje acumulado del último valor es del 100%, que es igual a 1. Si calcula el cuantil de su probabilidad de distribución normal, este valor es infinito, por lo que es necesario corregirlo. Es por este valor. Por lo tanto, si resta un número adecuadamente pequeño del porcentaje acumulado total calculado, el porcentaje acumulado corregido es casi el mismo que el porcentaje original, pero evita el problema de que el último valor sea 1 y no se pueda calcular.

Con el porcentaje acumulado, corresponde al valor de probabilidad acumulada. Después de corregir el valor de probabilidad acumulada, se obtiene la probabilidad acumulada. Por ejemplo, tomando 10 valores como ejemplo, la probabilidad acumulada del primer valor es 0,05 y el valor z correspondiente de la distribución normal es -1,64. Estos son los datos de abscisas de qqplot. Tomemos como ejemplo 10 datos y 30 datos.

(2) Prueba de homogeneidad de varianzas

Otro supuesto del análisis de varianza: homogeneidad de varianzas, que requiere probar si las varianzas de los datos en diferentes niveles son iguales. La prueba de Bartlett más utilizada en r, el formato de llamada de bartlett.test() es

bartlett.test(x, g...)

donde el parámetro x es un vector de datos o lista; G es un vector de factores, y si X es una lista, G se ignora.

Cuando se utiliza un conjunto de datos, la función también se llama con la fórmula:

bartlett.test(formulario, datos, subconjunto, na.action...)

La fórmula es el varianza de la forma fórmula de análisis lhs-rhs; representación de datos Conjunto de datos: subconjunto es opcional y se puede utilizar para especificar un subconjunto de observaciones para el análisis: na. Las acciones representan las acciones a realizar cuando se encuentran valores faltantes.

Continuando con el ejemplo anterior:

Debido a que el valor P es mucho mayor que el nivel de significancia a=0,05, la hipótesis nula no se puede rechazar y creemos que los datos en diferentes niveles tienen variaciones iguales.

8.1.2 ANOVA unidireccional

La función aov() en R se utiliza para el cálculo del análisis de varianza. Su formato de llamada es:

aov(. fórmula, datos = nulo, proyección = falso, qr = verdadero, contraste = nulo,...)

La fórmula del parámetro representa la fórmula de ANOVA, que es x ~ A en ANOVA unidireccional; los datos representan el marco de datos para el análisis de diferencias: las proyecciones son un valor lógico, que indica si se debe devolver el resultado de la predicción; qr también es un valor lógico, que indica si se debe devolver el resultado de la descomposición QR. El valor predeterminado es VERDADERO. Lista de algunos factores en la fórmula. Los resultados detallados de las tablas ANOVA se pueden enumerar mediante el resumen de funciones().

El ejemplo anterior ha probado la normalidad y homogeneidad de las varianzas de los datos, y luego F puede usarse para el análisis de la varianza:

Prueba de Levene

Prueba de Levene prueba Tiene las características de robustez y resultados de prueba ideales, y puede usarse para datos distribuidos normalmente, datos distribuidos no normalmente o datos de distribución desconocida.

El paquete car de R proporciona la función de prueba de levene Levene.test().

Debido a que el valor p es mayor que a=0,05, la hipótesis nula no se puede rechazar y creemos que los datos en diferentes niveles tienen varianzas iguales.

8.1.3 Prueba t múltiple

El análisis de varianza unidireccional muestra que, en general, existen diferencias significativas en las medias de cada efecto, pero es imposible saberlo en en qué niveles la media es diferente de otras, por lo que necesitamos comparar las medias de cada par de muestras una por una, es decir, realizar múltiples comparaciones de las medias.

El valor P modificado será mucho mayor que el original, lo que hasta cierto punto supera el problema de aumentar el número de errores de Tipo I causados ​​por múltiples pruebas T.

Desventajas de la probabilidad. A juzgar por los resultados de la prueba, los valores p de la prueba t para cada par de muestras son muy pequeños, lo que indica que existen diferencias obvias entre varias muestras.

8.1.4Prueba de suma de rangos de Kruskal-Wallis

rLa función incorporada kruskal.test() puede completar la prueba de suma de rangos de Kruskal-Wallis y se utiliza de la siguiente manera:

g Kruskal.test(x,...)

Kruskal.test(x, g,...)

kruskal.test(fórmula, datos, sub set, na.action, ...)

Ejemplo:

Un fabricante contrató empleados de tres universidades locales como gerentes. Recientemente, el departamento de Recursos Humanos de la empresa recopiló información y evaluó el desempeño anual. Se seleccionaron aleatoriamente tres muestras independientes de empleados de tres universidades, con tamaños de muestra de 7, 6 y 7 respectivamente. Los datos se muestran en la tabla. El fabricante quiere saber si el desempeño de los empleados en puestos directivos en estas tres universidades diferentes es diferente, y sacamos conclusiones mediante la prueba de suma de rangos de Kruskal-Wallis.

El resultado de la prueba es p = 0,0112

8.2 Implementación de ANOVA de dos factores y R

8.2.1 Análisis sin interacción

Ejemplo :

Datos de ventas de un producto en diferentes regiones y diferentes envases.

Primero, para establecer un conjunto de datos, se introduce la función g1() que genera niveles de factores, y su formato de llamada es:

gl(n, k, length= n k, etiqueta = 1: n, ordenado = FALSO)

n es el número de niveles del factor; k representa el número de repeticiones en cada nivel; longitud = n k representa el número total de factores; en diferentes niveles se pueden marcar con etiquetas de parámetros; Ordenado es un valor lógico que indica si se debe ordenar.

Antes del análisis, pruebe los factores A y B para determinar la homogeneidad de las varianzas y utilice la función bartlett.test().

Los valores p del factor A y del factor B son mucho mayores que el nivel de significancia de 0,05 y la hipótesis nula no se puede rechazar, lo que indica que todos los niveles del factor A y del factor B cumplen con la homogeneidad. de variaciones. En este momento, se realiza nuevamente el análisis de varianza de dos factores y se ingresan las instrucciones.

Conclusión de la prueba: el valor P del factor B = 0,0219; 0,05, la hipótesis nula no se puede rechazar, por lo que no hay razón suficiente para demostrar que el método de embalaje tiene un impacto significativo en las ventas.

Análisis interactivo

r todavía usa la función aov() para realizar un análisis de varianza de dos factores, pero cambia la fórmula a la forma de x A+B+A:B o xa * b.

Ejemplo:

Datos de tiempo de viaje de diferentes tramos de carretera y diferentes períodos de tiempo

Primero, construya un conjunto de datos para probar la homogeneidad de las varianzas de los factores A y B. Y use la función bartlett.test().

El valor p del resultado de la prueba es mucho mayor que el nivel de significancia de 0,05, lo que indica que cada nivel de los dos factores cumple con los requisitos de homogeneidad de varianzas y se pueden realizar análisis de varianza adicionales. Para dibujar un gráfico para observar las características de los datos, el primero es un diagrama de caja.

Se puede encontrar en la figura que existen diferencias obvias entre factores en diferentes niveles al observar el impacto de los períodos de tiempo y las secciones de la carretera en el tiempo de viaje. Para examinar si existe interacción entre factores, utilice la función interacción.plot() para dibujar el diagrama de efectos de interacción:

interacción.plot(x.factor, trace.factor, respuesta, diversión = media , tipo = c("l", "p", "b", "o", "c"), leyenda = VERDADERO, etiqueta de seguimiento = deparse(sustituto(rastreo. factor)), fijo = FALSO, xlab =. deparse(sustituir (x . factor)), ylab = ylabel, ylim = range(cells, na.rm =TRUE), lty = nc:1, col = 1, pch =c(1:9, 0, letter

xtick = FALSE, xaxt = par("xaxt "), axes = TRUE,...)

X.factor representa el factor del eje horizontal

Trace.factor representa. Factores para gráficos categóricos.

La respuesta es un vector numérico y es necesario ingresar una variable de respuesta.

Diversión significa la forma de resumir los datos y los. El valor predeterminado es calcular el promedio para cada nivel de factor.

El tipo especifica el tipo de gráfico.

La leyenda es un valor lógico que indica si se genera una leyenda. p>Trace.label proporciona la etiqueta en la leyenda. p>

Las curvas no se cruzan e inicialmente se puede juzgar que no debería haber interacción entre los dos factores. Confirmado mediante análisis de diferencias:

Según el valor p de los resultados de la prueba, se considera que el tiempo de avance A y el tramo de carretera B tienen un efecto significativo en el tiempo de conducción y el valor p de la interacción A: B = 0,42 > 0,05; por lo que no se puede rechazar la hipótesis original de H0, lo que indica que no existe un efecto de interacción obvio entre estos dos factores.

8.3 Análisis de covarianza e implementación de R

Para mejorar la precisión. y la precisión del experimento, se deben tomar medidas efectivas para controlar estrictamente todas las condiciones excepto los factores de investigación para que puedan equilibrarse completamente entre factores en diferentes niveles. Sin embargo, puede ser consistente, lo cual es control experimental. Con grandes esfuerzos de control, a menudo nos encontramos con diferentes condiciones iniciales de los individuos experimentales. Si estos factores no se tienen en cuenta, los resultados pueden distorsionarse. Estos factores incontrolables, este tipo de análisis de varianza se llama análisis de covarianza, que es un método que combina. análisis de regresión y análisis de varianza Su principio básico es: algunas variables X (desconocidas o incontrolables) tendrán un impacto en la variable de respuesta Y. Los factores) se consideran covariables, se establece un análisis de regresión lineal de la variable de respuesta Y que cambia con X. deducir la suma de cuadrados de regresión de

Ejemplo:

Los efectos de tres fertilizantes en el rendimiento de las manzanas

El valor p del análisis de covarianza es muy pequeño, lo que indica que el resultado es muy significativo. Deberíamos rechazar la hipótesis original y creer que los resultados experimentales de cada factor en diferentes niveles son significativamente diferentes, es decir, los tres fertilizantes tienen un gran impacto en el rendimiento de las manzanas.

chinaidiom.com">Red idiomática china All rights reserved