Método de clasificación de objetos de investigación (muestras o indicadores) en función de sus características para reducir el número de objetos de investigación.
Faltan datos históricos confiables para varios tipos de cosas, y es imposible determinar cuántas categorías hay. El propósito es agrupar cosas de naturaleza similar en una sola categoría.
Existe una cierta correlación entre cada indicador.
El análisis de conglomerados (cluster ***ysis) es un conjunto de técnicas de análisis estadístico que dividen los objetos de investigación en grupos relativamente homogéneos (clusters).
El análisis de agrupamiento es diferente del análisis de clasificación (***isis de clasificación), que es aprendizaje supervisado.
Tipos de variables: variables categóricas, variables cuantitativas (discretas y continuas) 1, agrupamiento jerárquico (Hierarchical Clustering)
Método de fusión, método de descomposición, Dendrograma
2. Agrupación no jerárquica
Agrupación de particiones, agrupación espectral
Características de los métodos de agrupación: el análisis de agrupaciones es simple e intuitivo.
El análisis de conglomerados se utiliza principalmente en la investigación exploratoria y los resultados de su análisis pueden proporcionar múltiples soluciones posibles. La elección de la solución final requiere el juicio subjetivo del investigador y el análisis posterior, independientemente de si los datos reales son categorías realmente diferentes; , y el análisis de conglomerados se puede utilizar para obtener soluciones divididas en varias categorías; la solución del análisis de conglomerados depende completamente de las variables de agrupamiento seleccionadas por el investigador. Agregar o eliminar algunas variables puede tener efectos sustanciales en la influencia de la solución final.
Los investigadores deben prestar especial atención a diversos factores que pueden afectar a los resultados cuando utilizan el análisis de conglomerados.
Los valores atípicos y las variables especiales tienen un mayor impacto en la agrupación. Cuando las escalas de medición de las variables categóricas son inconsistentes, la estandarización debe realizarse con anticipación.
Por supuesto, lo que el análisis de conglomerados no puede hacer es: descubrir automáticamente y decirle en cuántos conglomerados debe dividirse; pertenece al método de análisis no supervisado.
Se espera que sea poder encontrar clases o segmentos de mercado aproximadamente iguales no es realista
Para la agrupación de muestras, el investigador debe determinar la relación entre las variables
No se proporcionará automáticamente una agrupación óptima; Resultados
El análisis de conglomerados que mencioné aquí es principalmente agrupamiento jerárquico, agrupamiento rápido (K-medias) y agrupamiento de dos pasos (dos pasos).
Una medida que describe; el grado de correspondencia o cercanía de conexión entre dos individuos (o variables) basado en variables de agrupamiento.
Se puede medir de dos maneras: 1. Utilice indicadores que describan la proximidad entre pares individuales (pares variables), como "distancia". Cuanto menor sea la "distancia", más único será el individuo ( variable) es similitud.
2. Utilice indicadores que indiquen el grado de similitud, como "coeficiente de correlación". Cuanto mayor sea el "coeficiente de correlación", más similares serán los individuos (variables).
Hay muchas formas de calcular el índice de distancia de agrupamiento D (distancia): se pueden utilizar diferentes indicadores de distancia según las diferentes propiedades de los datos.
Distancia euclidiana, distancia euclidiana al cuadrado, distancia de Manhattan (Bloque), distancia de Chebychev, medida Chi-Cuadrado, etc.; hay muchas similitudes, ¡principalmente el coeficiente de correlación de Pearson! Las escalas de medición de las variables de agrupación son diferentes y las variables deben estandarizarse de antemano. Si algunas variables en las variables de agrupación son muy relevantes, significa que el peso de esta variable será mayor. El cuadrado de la distancia euclidiana es el. el método de medición de distancia más utilizado; el algoritmo de agrupación es mejor que El método de medición de distancia tiene un mayor impacto en los resultados de agrupación; el método de estandarización afecta el modelo de agrupación: la estandarización variable tiende a producir agrupación basada en la cantidad; basado en el patrón Generalmente, el número de grupos está entre 4 y 6, lo cual no es fácil de definir la distancia. entre clusters y selección de variables de clasificación
método de clustering
Determinar el número de grupos
Evaluación de los resultados de clustering
La descripción e interpretación de los resultados son un tipo de método de agrupamiento no jerárquico
(1) Proceso de ejecución
Inicialización: seleccionar (o especificar manualmente) ciertos registros como puntos condensados
Bucle:
Agregue los registros restantes hacia el punto condensado según el principio de proximidad
Calcule la posición central (media) de cada clasificación inicial
Utilice el valor calculado posición central para volver a agrupar
Repita este ciclo hasta que la posición del punto condensado converja
p>(2) Características del método
Generalmente requiere el número de categorías para ser conocido
La posición inicial se puede especificar manualmente
Ahorra tiempo de cálculo
Es necesario considerar cuando el tamaño de la muestra es mayor a 100
Sólo se pueden utilizar variables continuas:
Objetos de procesamiento: variables categóricas y variables continuas
Determina automáticamente el mejor número de clasificación óptimo
Procesamiento rápido de grandes conjuntos de datos
Supuestos de premisa:
Las variables son independientes entre sí
Las variables categóricas obedecen a una distribución multinomial, las variables continuas obedecen a una distribución normal
El primer paso de la solidez del modelo: escanear muestras una por una. Cada muestra se clasifica en la clase anterior o genera una nueva clase en función de su distancia de las muestras escaneadas.
En el segundo paso, combine las distintas categorías. basado en la distancia entre clases en el primer paso, y dejar de fusionarse de acuerdo con ciertos estándares
Análisis discriminante
Introducción: Análisis discriminante
La taxonomía es la ciencia básica para que los seres humanos comprendan el mundo.
El análisis de conglomerados y el análisis discriminante son métodos básicos para estudiar la clasificación de las cosas, y se utilizan ampliamente en diversos campos de las ciencias naturales, las ciencias sociales y la producción industrial y agrícola.
Análisis discriminante DA
Descripción general
Modelo DA
Estadísticas relacionadas con DA
Dos grupos de DA
Análisis de casos
Análisis discriminante
El análisis discriminante consiste en encontrar la función discriminante en función de los valores de las variables que indican las características de las cosas y las clases. pertenecen.
Método analítico para clasificar cosas de categorías desconocidas basándose en una función discriminante.
El núcleo es examinar las diferencias entre categorías.
Análisis discriminante
Diferencia: La diferencia entre el análisis discriminante y el análisis de conglomerados es que el análisis discriminante requiere los valores de una serie de variables numéricas que reflejan las características de las cosas que se van a conocer. y conocer la clasificación de cada individuo.
DA es adecuado para variables categóricas (causa) y variables arbitrarias (auto)
Dos categorías: una función discriminante
Múltiples grupos: más de un discriminante; función
Propósito de DA
Establecer una función discriminante
Comprobar si existen diferencias significativas entre diferentes grupos en términos de variables predictoras relevantes
Decida qué variables de predicción contribuyen más a las diferencias entre grupos
Clasifique a los individuos según las variables predictoras