La diferencia entre bases de datos, almacenes de datos y técnicas de minería de datos

La minería de datos es el proceso de extraer conocimiento potencial y valioso (modelos o reglas) a partir de grandes cantidades de datos.

1. ¿Qué puede hacer la minería de datos?

1) La minería de datos puede hacer las siguientes seis cosas diferentes (métodos de análisis):

Clasificación () p>

Estimación

Predicción

Agrupación de afinidad o reglas de asociación

Agrupación

p>

Descripción y visualización (Descripción y)

2) Clasificación de minería de datos

Los seis métodos de análisis de minería de datos anteriores se pueden dividir en dos categorías: minería de datos directa; minería de datos indirecta;

minería de datos directa;

El objetivo es utilizar los datos disponibles para construir un modelo que pueda

comprender los datos restantes de una variable específica en los atributos de una tabla en la base de datos, es decir, columnas. ).

Minería de datos indirecta

El objetivo no selecciona una variable específica y la describe con un modelo, sino que establece una determinada relación entre todas las variables

Clasificación; , valoración y predicción pertenecen a la minería de datos directa; los tres últimos pertenecen a la minería de datos indirecta

3) Introducción a varios métodos de análisis

Clasificación ()

Primero, seleccione un conjunto de entrenamiento que haya sido clasificado a partir de los datos y utilice la tecnología de clasificación de minería de datos en el conjunto de entrenamiento para establecer un modelo de clasificación para clasificar datos no clasificados.

Ejemplo:

a. Solicitantes de tarjetas de crédito, clasificados como de riesgo bajo, medio y alto

b Asignar clientes a fragmentos de clientes predefinidos

. p>

Nota: El número de clases está determinado y predefinido

Estimación

La estimación es similar a la clasificación, la diferencia es que la clasificación describe la salida de variables discretas, mientras que la valoración maneja la salida de valores continuos; el número de categorías de clasificación es fijo, pero la cantidad de valoración es incierta.

Ejemplo:

a. Estimar el número de niños en una familia según los patrones de compra.

b. Estimar el ingreso de una familia según los patrones de compra. /p >

c. Estimación del valor de un inmueble

En términos generales, la valoración se puede utilizar como el primer paso de la clasificación. Dados algunos datos de entrada, el valor de la variable continua desconocida se obtiene mediante estimación y luego se clasifica según el umbral preestablecido. Por ejemplo: para el negocio de préstamos hipotecarios, los bancos utilizan la valoración para calificar a cada cliente (puntuación 0 ~ 1). Luego, según los umbrales, se clasifican las clases de préstamos.

Predicción

Por lo general, la predicción funciona mediante clasificación o valoración, es decir, un modelo se deriva mediante clasificación o valoración y el modelo se utiliza

Para la predicción. de variables desconocidas. En este sentido, las profecías en realidad no necesitan clasificarse en una categoría separada.

El propósito de la profecía es predecir variables desconocidas en el futuro. Este tipo de predicción requiere tiempo para verificarse, es decir, debe tomar un cierto período de tiempo

conocer las. exactitud de la predicción.

Reglas de agrupación o asociación de afinidad

Determina qué cosas sucederán juntas.

Ejemplo:

a. Cuando los clientes en el supermercado compran A, normalmente compran B, es decir, A=>B (regla de asociación)

b. Después de que un cliente compra A, comprará B (análisis de secuencia) después de un período de tiempo.

Agrupación

Agrupación consiste en agrupar registros y colocar registros similares en un grupo. . La diferencia entre agregación y clasificación es que la agregación no depende de clases predefinidas y no requiere un conjunto de entrenamiento.

Ejemplos:

a. La agrupación de algunos síntomas específicos puede indicar una enfermedad específica.

b La agrupación de clientes que alquilan VCD con tipos diferentes puede indicar. Los miembros pertenecen a diferentes grupos de subculturas.

La agregación se utiliza a menudo como primer paso en la minería de datos. Por ejemplo, "¿Qué tipo de promoción responde mejor a los clientes?" Para este tipo de preguntas, primero agregue a todos los clientes, agrúpelos en sus respectivos grupos y luego clasifique cada uno de ellos. Puede ser mejor reunirse y responder preguntas.

Descripción y visualización (Descriptionand)

Es la forma de representar los resultados de la minería de datos.

2. Antecedentes comerciales de la minería de datos

La minería de datos primero requiere la recopilación de una gran cantidad de datos en un entorno empresarial y luego requiere que el conocimiento extraído sea valioso.

El valor para las empresas no es más que tres cosas: reducir los gastos; aumentar los ingresos; aumentar los precios de las acciones.

1) Minería de datos como herramienta de investigación (Investigación)

2) Minería de datos para mejorar el control de procesos (ProcessImprovement)

3) Minería de datos como herramienta de marketing herramienta (Marketing)

4) Minería de datos como herramienta CRM de gestión de relaciones con los clientes (CustomerManagement)

3) Antecedentes técnicos de la minería de datos

1) Minería de datos. la tecnología incluye tres partes principales: algoritmos y tecnología; capacidades de modelado

2) Minería de datos y aprendizaje automático (Machine Learning)

El aprendizaje automático es el producto del desarrollo de la informática. y la inteligencia artificial AI

El aprendizaje automático se divide en dos métodos de aprendizaje: aprendizaje autoorganizado (como la inducción de reglas a partir de ejemplos (como el árbol de decisiones)

El origen de la minería de datos

La minería de datos se propuso en la década de 1980, cuando la IA se transfirió a aplicaciones prácticas después de que fracasara la inversión en proyectos de investigación de IA. Es una investigación emergente de IA orientada a aplicaciones comerciales. La elección del término minería de datos indica que no existe una superposición técnica con la estadística, la ciencia actuarial y los economistas que se han dedicado durante mucho tiempo a la elaboración de modelos predictivos.

3) Minería de datos y estadísticas

Las estadísticas también comienzan a apoyar la minería de datos. Las estadísticas incluyen algoritmos predictivos (regresión), muestreo, diseño basado en experiencias, etc.

4) Minería de datos y sistemas de soporte a decisiones

Almacén de datos

OLAP ( procesamiento de análisis en línea), DataMart (data mart), base de datos multidimensional

Integración de herramientas de soporte de decisiones

Integre el almacén de datos, OLAP y la minería de datos para formar un análisis de toma de decisiones empresarial ambiente.

4. Contexto social de la minería de datos

Minería de datos y predicción personal: la minería de datos afirma poder predecir el comportamiento del cliente a través del análisis de datos históricos, pero en realidad

Es posible que el propio cliente no sepa qué quiere hacer a continuación. Por lo tanto, los resultados de la minería de datos no son tan misteriosos como la gente imagina y no pueden ser completamente correctos.

El comportamiento del cliente está relacionado con el entorno social, por lo que la minería de datos en sí también se ve afectada por el entorno social. Por ejemplo, el modelo de calificación crediticia para clientes de tarjetas de crédito bancarias en Estados Unidos ha tenido mucho éxito, pero puede que no sea adecuado para China