Se explica en detalle todo el proceso del análisis de conglomerados de SPSS.

Se explica en detalle todo el proceso del análisis de conglomerados de SPSS.

Fuente de datos del caso:

Hay 20 tipos de cerveza de 12 onzas, ingredientes y datos de precios. Las variables incluyen el nombre de la cerveza, las calorías, el contenido de sodio, el contenido de alcohol y el precio. Pregunta 1: ¿Qué variables se seleccionan para la agrupación? -Usando "agrupación tipo R"

1. Ahora tenemos cuatro variables para clasificar la cerveza. ¿Es necesario incluir las cuatro variables como variables categóricas? Los tres indicadores de calorías, contenido de sodio y contenido de alcohol deben determinarse mediante el arduo trabajo de los técnicos de laboratorio, y el costo sigue siendo muy alto. Si todos estuvieran incluidos en el análisis, ¿no sería demasiado problemático y un desperdicio? Por tanto, es necesario reducir la dimensionalidad de las cuatro variables. Aquí, la agrupación de tipo R de spss (agrupación de variables) se utiliza para reducir la dimensionalidad de cuatro variables. El resultado de la "matriz de similitud" nos ayuda a comprender el proceso de reducción de dimensionalidad.

2. Las dimensiones de las cuatro variables categóricas son diferentes. Esta vez decidimos primero usar la similitud para medirlos, con el coeficiente de Pearson como estándar de medición y el elemento más lejano como método de agrupación. Cuando se trata de correlación, no es necesario estandarizar las cuatro variables. El número en la matriz de similitud futura es el coeficiente de correlación. Si el coeficiente de correlación de dos variables es cercano a 1 o -1, significa que las dos variables pueden reemplazarse entre sí. 3. Simplemente genere el "mapa de árbol". Personalmente, creo que el diagrama de carámbano es muy complicado y no parece tan claro como el diagrama de árbol. Como se puede ver en la tabla de la matriz de proximidad, el coeficiente de correlación de las dos variables de calorías y contenido de alcohol es 0,903, que es el mayor, por lo que no es necesario seleccionar ninguna de ellas como variable de agrupación, lo que genera mayores costos. En cuanto a elegir calorías y contenido de alcohol como indicadores típicos para reemplazar las dos variables originales, se puede decidir en función del conocimiento profesional o de la dificultad de medición. (A diferencia del análisis factorial, una de las variables se elimina por completo para lograr la reducción de dimensionalidad). Aquí se selecciona el contenido de alcohol. Hasta el momento, las variables utilizadas para la agrupación se han determinado de la siguiente manera: contenido de alcohol, contenido de sodio y precio.

Pregunta 2: ¿Cuántos tipos de cerveza se pueden dividir en 20 tipos? -Utilizando "Q-cluster" 1, ahora comenzamos a agrupar 20 cervezas. Al principio, las incertidumbres deben dividirse en varias categorías, y por el momento se utilizará un rango de 3 a 5 categorías para la discusión. La agrupación de tipo Q requiere las mismas dimensiones, por lo que los datos deben estandarizarse, esta vez medidos por la distancia euclidiana al cuadrado. 2. Comprender categorías principalmente a través de diagramas de árbol y diagramas de carámbanos. Que finalmente se clasifique en 4 categorías o en 3 categorías es un proceso complejo que requiere conocimiento profesional y un propósito original para identificarlo. Intenté asegurarme de que estuviera dividido en cuatro categorías. Seleccione Guardar y los resultados de la agrupación se generarán automáticamente en el área de datos. Pregunta 3: ¿Las variables utilizadas para la agrupación contribuyen al proceso y a los resultados de la agrupación y son útiles? ——Utilizando el "análisis de varianza de un factor" 1, análisis de conglomerados, además de la determinación de categorías, otra cuestión clave es si las variables de clasificación contribuyen a la agrupación. Si hay variables individuales que no tienen ningún impacto en la clasificación. deberían ser eliminados. 2. Este proceso generalmente se juzga mediante un análisis de varianza unidireccional. Tenga en cuenta que en este momento las variables de los factores se agrupan en cuatro categorías y las tres variables agrupadas se tratan como variables dependientes. Los resultados del análisis de varianza muestran que los valores sig de las tres variables de agrupamiento son extremadamente significativos. Es razonable que las tres variables que utilizamos para la clasificación puedan usarse como variables de agrupamiento. Pregunta 4: ¿Interpretación de los resultados de la agrupación? ——El último y más difícil paso en el análisis de conglomerados es definir y explicar las categorías separadas y describir sus características, es decir, una descripción de sus características. Esto requiere conocimientos profesionales como base y combinados con el propósito del análisis. 2. Podemos utilizar el proceso de comparación de medias de spss o la función de tabla dinámica de Excel para describir varios indicadores. Entre ellos, el informe se utiliza para describir los resultados de la agrupación. Las categorías se definen inicialmente comparando varios indicadores y los juicios se hacen principalmente basándose en el conocimiento profesional. Justo aquí. El proceso anterior involucra el clúster Q y el clúster R en agrupamiento jerárquico spss, análisis de varianza de un factor, proceso medio, etc. , que es un buen ejemplo del uso combinado de múltiples métodos analíticos.