La minería de datos es el proceso de extraer conocimiento potencial y valioso (modelos o reglas) a partir de grandes cantidades de datos.
1. ¿Qué puede hacer la minería de datos?
1) La minería de datos puede hacer las siguientes seis cosas diferentes (métodos de análisis):
Clasificación () p> p>
Estimación
Predicción
Agrupación de afinidad o reglas de asociación
Agrupación
p>
Descripción y visualización (Descripción y)
2) Clasificación de minería de datos
Los seis métodos de análisis de minería de datos anteriores se pueden dividir en dos categorías: minería de datos directa; minería de datos indirecta;
minería de datos directa;
El objetivo es utilizar los datos disponibles para construir un modelo que pueda
comprender los datos restantes de una variable específica en los atributos de una tabla en la base de datos, es decir, columnas. ).
Minería de datos indirecta
El objetivo no selecciona una variable específica y la describe con un modelo, sino que establece una determinada relación entre todas las variables
Clasificación; , valoración y predicción pertenecen a la minería de datos directa; los tres últimos pertenecen a la minería de datos indirecta
3) Introducción a varios métodos de análisis
Clasificación ()
Primero, seleccione un conjunto de entrenamiento que haya sido clasificado a partir de los datos y utilice la tecnología de clasificación de minería de datos en el conjunto de entrenamiento para establecer un modelo de clasificación para clasificar datos no clasificados.
Ejemplo:
a. Solicitantes de tarjetas de crédito, clasificados como de riesgo bajo, medio y alto
b Asignar clientes a fragmentos de clientes predefinidos
. p>Nota: El número de clases está determinado y predefinido
Estimación
La estimación es similar a la clasificación, la diferencia es que la clasificación describe la salida de variables discretas, mientras que la valoración maneja la salida de valores continuos; el número de categorías de clasificación es fijo, pero la cantidad de valoración es incierta.
Ejemplo:
a. Estimar el número de niños en una familia según los patrones de compra.
b. Estimar el ingreso de una familia según los patrones de compra. /p >
c. Estimación del valor de un inmueble
En términos generales, la valoración se puede utilizar como el primer paso de la clasificación. Dados algunos datos de entrada, el valor de la variable continua desconocida se obtiene mediante estimación y luego se clasifica según el umbral preestablecido. Por ejemplo: para el negocio de préstamos hipotecarios, los bancos utilizan la valoración para calificar a cada cliente (puntuación 0 ~ 1). Luego, según los umbrales, se clasifican las clases de préstamos.
Predicción
Por lo general, la predicción funciona mediante clasificación o valoración, es decir, un modelo se deriva mediante clasificación o valoración y el modelo se utiliza
Para la predicción. de variables desconocidas. En este sentido, las profecías en realidad no necesitan clasificarse en una categoría separada.
El propósito de la profecía es predecir variables desconocidas en el futuro. Este tipo de predicción requiere tiempo para verificarse, es decir, debe tomar un cierto período de tiempo
conocer las. exactitud de la predicción.
Reglas de agrupación o asociación de afinidad
Determina qué cosas sucederán juntas.
Ejemplo:
a. Cuando los clientes en el supermercado compran A, normalmente compran B, es decir, A=>B (regla de asociación)
b. Después de que un cliente compra A, comprará B (análisis de secuencia) después de un período de tiempo.
Agrupación
Agrupación consiste en agrupar registros y colocar registros similares en un grupo. . La diferencia entre agregación y clasificación es que la agregación no depende de clases predefinidas y no requiere un conjunto de entrenamiento.
Ejemplos:
a. La agrupación de algunos síntomas específicos puede indicar una enfermedad específica.
b La agrupación de clientes que alquilan VCD con tipos diferentes puede indicar. Los miembros pertenecen a diferentes grupos de subculturas.
La agregación se utiliza a menudo como primer paso en la minería de datos. Por ejemplo, "¿Qué tipo de promoción responde mejor a los clientes?" Para este tipo de preguntas, primero agregue a todos los clientes, agrúpelos en sus respectivos grupos y luego clasifique cada uno de ellos. Puede ser mejor reunirse y responder preguntas.
Descripción y visualización (Descriptionand)
Es la forma de representar los resultados de la minería de datos.
2. Antecedentes comerciales de la minería de datos
La minería de datos primero requiere la recopilación de una gran cantidad de datos en un entorno empresarial y luego requiere que el conocimiento extraído sea valioso.
El valor para las empresas no es más que tres cosas: reducir los gastos; aumentar los ingresos; aumentar los precios de las acciones.
1) Minería de datos como herramienta de investigación (Investigación)
2) Minería de datos para mejorar el control de procesos (ProcessImprovement)
3) Minería de datos como herramienta de marketing herramienta (Marketing)
4) Minería de datos como herramienta CRM de gestión de relaciones con los clientes (CustomerManagement)
3) Antecedentes técnicos de la minería de datos
1) Minería de datos. la tecnología incluye tres partes principales: algoritmos y tecnología; capacidades de modelado
2) Minería de datos y aprendizaje automático (Machine Learning)
El aprendizaje automático es el producto del desarrollo de la informática. y la inteligencia artificial AI
El aprendizaje automático se divide en dos métodos de aprendizaje: aprendizaje autoorganizado (como la inducción de reglas a partir de ejemplos (como el árbol de decisiones)
El origen de la minería de datos
La minería de datos se propuso en la década de 1980, cuando la IA se transfirió a aplicaciones prácticas después de que fracasara la inversión en proyectos de investigación de IA. Es una investigación emergente de IA orientada a aplicaciones comerciales. La elección del término minería de datos indica que no existe una superposición técnica con la estadística, la ciencia actuarial y los economistas que se han dedicado durante mucho tiempo a la elaboración de modelos predictivos.
3) Minería de datos y estadísticas
Las estadísticas también comienzan a apoyar la minería de datos. Las estadísticas incluyen algoritmos predictivos (regresión), muestreo, diseño basado en experiencias, etc.
4) Minería de datos y sistemas de soporte a decisiones
Almacén de datos
OLAP ( procesamiento de análisis en línea), DataMart (data mart), base de datos multidimensional
Integración de herramientas de soporte de decisiones
Integre el almacén de datos, OLAP y la minería de datos para formar un análisis de toma de decisiones empresarial ambiente.
4. Contexto social de la minería de datos
Minería de datos y predicción personal: la minería de datos afirma poder predecir el comportamiento del cliente a través del análisis de datos históricos, pero en realidad
Es posible que el propio cliente no sepa qué quiere hacer a continuación. Por lo tanto, los resultados de la minería de datos no son tan misteriosos como la gente imagina y no pueden ser completamente correctos.
El comportamiento del cliente está relacionado con el entorno social, por lo que la minería de datos en sí también se ve afectada por el entorno social. Por ejemplo, el modelo de calificación crediticia para clientes de tarjetas de crédito bancarias en Estados Unidos ha tenido mucho éxito, pero puede que no sea adecuado para China