Definición de análisis de conglomerados

Método de clasificación de objetos de investigación (muestras o indicadores) en función de sus características para reducir el número de objetos de investigación.

Faltan datos históricos confiables para varios tipos de cosas, y es imposible determinar cuántas categorías hay. El propósito es agrupar cosas de naturaleza similar en una sola categoría.

Existe una cierta correlación entre cada indicador.

El análisis de conglomerados (cluster ***ysis) es un conjunto de técnicas de análisis estadístico que dividen los objetos de investigación en grupos relativamente homogéneos (clusters).

El análisis de agrupamiento es diferente del análisis de clasificación (***isis de clasificación), que es aprendizaje supervisado.

Tipos de variables: variables categóricas, variables cuantitativas (discretas y continuas) 1, agrupamiento jerárquico (Hierarchical Clustering)

Método de fusión, método de descomposición, Dendrograma

2. Agrupación no jerárquica

Agrupación de particiones, agrupación espectral

Características de los métodos de agrupación: el análisis de agrupaciones es simple e intuitivo.

El análisis de conglomerados se utiliza principalmente en la investigación exploratoria y los resultados de su análisis pueden proporcionar múltiples soluciones posibles. La elección de la solución final requiere el juicio subjetivo del investigador y el análisis posterior, independientemente de si los datos reales son categorías realmente diferentes; , y el análisis de conglomerados se puede utilizar para obtener soluciones divididas en varias categorías; la solución del análisis de conglomerados depende completamente de las variables de agrupamiento seleccionadas por el investigador. Agregar o eliminar algunas variables puede tener efectos sustanciales en la influencia de la solución final.

Los investigadores deben prestar especial atención a diversos factores que pueden afectar a los resultados cuando utilizan el análisis de conglomerados.

Los valores atípicos y las variables especiales tienen un mayor impacto en la agrupación. Cuando las escalas de medición de las variables categóricas son inconsistentes, la estandarización debe realizarse con anticipación.

Por supuesto, lo que el análisis de conglomerados no puede hacer es: descubrir automáticamente y decirle en cuántos conglomerados debe dividirse; pertenece al método de análisis no supervisado.

Se espera que sea poder encontrar clases o segmentos de mercado aproximadamente iguales no es realista

Para la agrupación de muestras, el investigador debe determinar la relación entre las variables

No se proporcionará automáticamente una agrupación óptima; Resultados

El análisis de conglomerados que mencioné aquí es principalmente agrupamiento jerárquico, agrupamiento rápido (K-medias) y agrupamiento de dos pasos (dos pasos).

Una medida que describe; el grado de correspondencia o cercanía de conexión entre dos individuos (o variables) basado en variables de agrupamiento.

Se puede medir de dos maneras: 1. Utilice indicadores que describan la proximidad entre pares individuales (pares variables), como "distancia". Cuanto menor sea la "distancia", más único será el individuo ( variable) es similitud.

2. Utilice indicadores que indiquen el grado de similitud, como "coeficiente de correlación". Cuanto mayor sea el "coeficiente de correlación", más similares serán los individuos (variables).

Hay muchas formas de calcular el índice de distancia de agrupamiento D (distancia): se pueden utilizar diferentes indicadores de distancia según las diferentes propiedades de los datos.

Distancia euclidiana, distancia euclidiana al cuadrado, distancia de Manhattan (Bloque), distancia de Chebychev, medida Chi-Cuadrado, etc.; hay muchas similitudes, ¡principalmente el coeficiente de correlación de Pearson! Las escalas de medición de las variables de agrupación son diferentes y las variables deben estandarizarse de antemano. Si algunas variables en las variables de agrupación son muy relevantes, significa que el peso de esta variable será mayor. El cuadrado de la distancia euclidiana es el. el método de medición de distancia más utilizado; el algoritmo de agrupación es mejor que El método de medición de distancia tiene un mayor impacto en los resultados de agrupación; el método de estandarización afecta el modelo de agrupación: la estandarización variable tiende a producir agrupación basada en la cantidad; basado en el patrón Generalmente, el número de grupos está entre 4 y 6, lo cual no es fácil de definir la distancia. entre clusters y selección de variables de clasificación

método de clustering

Determinar el número de grupos

Evaluación de los resultados de clustering

La descripción e interpretación de los resultados son un tipo de método de agrupamiento no jerárquico

(1) Proceso de ejecución

Inicialización: seleccionar (o especificar manualmente) ciertos registros como puntos condensados

Bucle:

Agregue los registros restantes hacia el punto condensado según el principio de proximidad

Calcule la posición central (media) de cada clasificación inicial

Utilice el valor calculado posición central para volver a agrupar

Repita este ciclo hasta que la posición del punto condensado converja

p>

(2) Características del método

Generalmente requiere el número de categorías para ser conocido

La posición inicial se puede especificar manualmente

Ahorra tiempo de cálculo

Es necesario considerar cuando el tamaño de la muestra es mayor a 100

Sólo se pueden utilizar variables continuas:

Objetos de procesamiento: variables categóricas y variables continuas

Determina automáticamente el mejor número de clasificación óptimo

Procesamiento rápido de grandes conjuntos de datos

Supuestos de premisa:

Las variables son independientes entre sí

Las variables categóricas obedecen a una distribución multinomial, las variables continuas obedecen a una distribución normal

El primer paso de la solidez del modelo: escanear muestras una por una. Cada muestra se clasifica en la clase anterior o genera una nueva clase en función de su distancia de las muestras escaneadas.

En el segundo paso, combine las distintas categorías. basado en la distancia entre clases en el primer paso, y dejar de fusionarse de acuerdo con ciertos estándares

Análisis discriminante

Introducción: Análisis discriminante

La taxonomía es la ciencia básica para que los seres humanos comprendan el mundo.

El análisis de conglomerados y el análisis discriminante son métodos básicos para estudiar la clasificación de las cosas, y se utilizan ampliamente en diversos campos de las ciencias naturales, las ciencias sociales y la producción industrial y agrícola.

Análisis discriminante DA

Descripción general

Modelo DA

Estadísticas relacionadas con DA

Dos grupos de DA

Análisis de casos

Análisis discriminante

El análisis discriminante consiste en encontrar la función discriminante en función de los valores de las variables que indican las características de las cosas y las clases. pertenecen.

Método analítico para clasificar cosas de categorías desconocidas basándose en una función discriminante.

El núcleo es examinar las diferencias entre categorías.

Análisis discriminante

Diferencia: La diferencia entre el análisis discriminante y el análisis de conglomerados es que el análisis discriminante requiere los valores de una serie de variables numéricas que reflejan las características de las cosas que se van a conocer. y conocer la clasificación de cada individuo.

DA es adecuado para variables categóricas (causa) y variables arbitrarias (auto)

Dos categorías: una función discriminante

Múltiples grupos: más de un discriminante; función

Propósito de DA

Establecer una función discriminante

Comprobar si existen diferencias significativas entre diferentes grupos en términos de variables predictoras relevantes

Decida qué variables de predicción contribuyen más a las diferencias entre grupos

Clasifique a los individuos según las variables predictoras