La minería de datos es el extraordinario proceso de derivar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de grandes cantidades de datos. Visión amplia de la minería de datos: la minería de datos es el proceso de "extraer" conocimientos de interés a partir de grandes cantidades de datos almacenados en bases de datos, almacenes de datos u otros repositorios de información. La minería de datos, también conocida como descubrimiento de conocimiento en bases de datos (KDD), también es considerada por algunos como un paso fundamental en el proceso de descubrimiento de conocimiento en bases de datos. El proceso de descubrimiento de conocimiento consta de los siguientes pasos: (1) limpieza de datos, (2) integración de datos, (3) selección de datos, (4) transformación de datos, (5) minería de datos, (6) evaluación de patrones y (7) representación del conocimiento. La minería de datos puede interactuar con usuarios o bases de conocimiento.
No todas las tareas de descubrimiento de información se consideran minería de datos. Por ejemplo, encontrar un solo registro mediante el uso de un sistema de gestión de bases de datos o encontrar una página web específica a través de un motor de búsqueda en Internet es una tarea en el campo de la recuperación de información. Si bien estas tareas son importantes y pueden implicar el uso de algoritmos y estructuras de datos complejos, se basan principalmente en técnicas y ciencias informáticas tradicionales y en las características distintivas de los datos para crear estructuras de índice para organizar y recuperar información de manera efectiva. Sin embargo, las técnicas de minería de datos también se utilizan para mejorar las capacidades de los sistemas de recuperación de información.
[Editar este párrafo] El origen de la minería de datos
La necesidad es la madre de la invención. En los últimos años, la minería de datos ha atraído gran atención por parte de la industria de la información. La razón principal es que existe una gran cantidad de datos que pueden usarse ampliamente y existe una necesidad urgente de transformar estos datos en información y conocimiento útiles. La información y el conocimiento adquiridos se pueden utilizar en una amplia variedad de aplicaciones, incluida la gestión empresarial, el control de producción, el análisis de mercado, el diseño de ingeniería y la exploración científica.
La minería de datos utiliza ideas de los siguientes campos: (1) muestreo, estimación y prueba de hipótesis a partir de estadísticas; (2) algoritmos de búsqueda, técnicas de modelado e inteligencia artificial, reconocimiento de patrones y aprendizaje automático. La minería de datos también adoptó rápidamente ideas de otros campos, incluida la optimización, la computación evolutiva, la teoría de la información, el procesamiento de señales, la visualización y la recuperación de información. Algunas otras áreas también desempeñan un importante papel de apoyo. En particular, los sistemas de bases de datos deben proporcionar soporte eficiente de almacenamiento, indexación y procesamiento de consultas. Las técnicas derivadas de la computación de alto rendimiento (paralela) suelen ser importantes cuando se procesan conjuntos de datos masivos. La tecnología distribuida también puede ayudar a procesar grandes cantidades de datos, lo cual es aún más importante cuando los datos no se pueden procesar juntos.
[Editar este párrafo] ¿Qué puede hacer la minería de datos?
1) La minería de datos puede hacer las siguientes seis cosas diferentes (métodos de análisis):
Clasificación (clasificación)
Estimación (estimación)
Predicción (predicción)
Agrupación de asociaciones o reglas de asociación.
Clustering
Descripción y visualización.
Minería de tipos de datos complejos (texto, Web, gráficos e imágenes, vídeo, audio, etc.)
2) Clasificación de minería de datos
Los seis tipos anteriores de datos Los métodos de análisis de minería se pueden dividir en dos categorías: minería de datos directa; minería de datos indirecta
Minería de datos directa
El objetivo es utilizar los datos disponibles para construir un modelo que describa los datos restantes y una variable específica (que puede entenderse como un atributo de la tabla en la base de datos, es decir, una columna).
Minería de datos indirecta
En el objetivo, las variables específicas no se seleccionan, sino que el modelo las describe, se establece una relación entre todas las variables;
La clasificación, valoración y predicción pertenecen a la minería de datos directa; las tres últimas pertenecen a la minería de datos indirecta.
3) Una breve introducción a varios métodos de análisis
Clasificación (clasificación)
Primero seleccione un conjunto de entrenamiento clasificado de los datos En este conjunto de entrenamiento, usando. Tecnología de clasificación de minería de datos para construir un modelo de clasificación para clasificar datos no clasificados.
Ejemplo:
a Los solicitantes de tarjetas de crédito se clasifican en riesgo bajo, medio o alto.
B. Asignar clientes a grupos de clientes predefinidos.
Nota: El número de clases es fijo y predefinido.
Estimación (estimación)
La estimación es similar a la clasificación, excepto que la clasificación describe la salida de variables discretas, mientras que la estimación se ocupa de la salida de valores continuos; determinado, el importe de la valoración es incierto.
Ejemplo:
A. Estimar el número de niños en una familia según los patrones de compra.
B. Estimar los ingresos de una familia según los patrones de compra.
C. Estimación del valor de un inmueble
De forma general, la valoración puede utilizarse como paso previo a la clasificación. Dados algunos datos de entrada, los valores de variables continuas desconocidas se estiman y luego se clasifican según umbrales preestablecidos. Por ejemplo, en el negocio de préstamos hipotecarios, los bancos utilizan valoraciones para calificar a cada cliente (0 a 1). Luego, las calificaciones de los préstamos se clasifican según umbrales.
Predicción (predicción)
Normalmente la predicción funciona mediante clasificación o estimación, es decir, mediante clasificación o estimación se obtiene un modelo para predecir variables desconocidas. En este sentido, no hay necesidad de separar las profecías en una categoría separada. El propósito del pronóstico es predecir variables desconocidas en el futuro. Se necesita tiempo para verificar esta predicción, lo que significa que se necesita una cierta cantidad de tiempo para conocer la precisión de la predicción.
Agrupación de asociaciones o reglas de asociación.
Decidan juntos qué pasará.
Ejemplo:
A. Los clientes del supermercado suelen comprar A y B al mismo tiempo, es decir, A = gtb (regla de asociación)
B. Los clientes compran Después de comprar A, compraré B de vez en cuando (análisis de secuencia).
Agrupación (clustering)
La agregación es la agrupación de registros y la colocación de registros similares en una agregación. La diferencia entre agregación y clasificación es que la agregación no depende de clases predefinidas y no requiere un conjunto de entrenamiento.
Ejemplo:
A. Un conjunto de síntomas específicos puede indicar una enfermedad específica.
B. Los clientes que alquilan diferentes tipos de VCD se reúnen, lo que puede implicar que los miembros pertenecen a diferentes grupos subculturales.
La agregación suele ser el primer paso en la minería de datos. Por ejemplo, "¿Qué tipo de promoción es la mejor respuesta para un cliente?" Para este tipo de preguntas, puede ser mejor agregar primero a todo el cliente, agruparlos en sus propios conjuntos y luego responder la pregunta para cada uno de ellos. colocar.
Descripción y Visualización (Descripción y Visualización)
Es la representación de los resultados de la minería de datos.
[Editar este párrafo] Reglas de asociación en minería de datos
1.
Antes de describir algunos detalles sobre las reglas de la asociación, veamos una historia interesante: "Pañales y cerveza".
En un supermercado se produce un fenómeno interesante: pañales y cerveza se venden juntos. Pero la extraña medida aumentó las ventas de pañales y cerveza. Esto no es una broma, sino un caso real ocurrido en la cadena de supermercados estadounidense Wal-Mart, y del que han hablado las empresas. Walmart tiene el sistema de almacenamiento de datos más grande del mundo. Para comprender con precisión los hábitos de compra de los clientes en sus tiendas, Walmart realiza un análisis de la cesta sobre el comportamiento de compra de los clientes y quiere saber qué productos suelen comprar juntos. El almacén de datos de Walmart centraliza datos detallados de transacciones sin procesar de sus tiendas. Con base en estos datos de transacciones originales, Walmart utiliza métodos de minería de datos para analizar y extraer estos datos. Un descubrimiento inesperado fue: "¡El producto más comprado con pañales es la cerveza!". Después de muchas investigaciones y análisis, se reveló un patrón de comportamiento estadounidense escondido detrás de "pañales y cerveza": en los Estados Unidos, algunos padres jóvenes dejan de trabajar. Más tarde, iban a menudo al supermercado a comprar pañales para bebés, y algunos de entre 30 y 40 años también se compraban cerveza. La razón de este fenómeno es que las esposas estadounidenses a menudo les dicen a sus maridos que compren pañales para sus hijos después de salir del trabajo. Después de comprarlos, el marido les trae su cerveza favorita.
Según el pensamiento convencional, los pañales no tienen nada que ver con la cerveza. Sin utilizar tecnología de minería de datos para extraer y analizar una gran cantidad de datos de transacciones, sería imposible para Wal-Mart descubrir patrones tan valiosos dentro de los datos.
La asociación de datos es un importante conocimiento de descubrimiento en la base de datos.
Si existe cierta regularidad entre los valores de dos o más variables, se llama correlación. La correlación se puede dividir en correlación simple, correlación de series temporales y correlación causal. El propósito del análisis de correlación es encontrar la red de correlación oculta en la base de datos. A veces no conocemos la función de correlación de los datos en la base de datos, e incluso si la conocemos, es incierta, por lo que las reglas generadas por el análisis de correlación son creíbles. La minería de reglas de asociación descubre asociaciones o correlaciones interesantes entre conjuntos de elementos en grandes cantidades de datos. Agrawal equivale a 1993. Primero, se presenta el problema de las reglas de asociación minera entre conjuntos de elementos en una base de datos de transacciones de clientes. Más tarde, muchos investigadores investigaron mucho sobre las reglas de las asociaciones mineras. Su trabajo incluye optimizar el algoritmo original, como introducir muestreo aleatorio e ideas paralelas para mejorar la eficiencia de las reglas de minería de algoritmos promoviendo la aplicación de reglas de asociación; La minería de reglas de asociación es un tema importante en la minería de datos y ha sido ampliamente estudiado por la industria en los últimos años.
2. El proceso de minería, clasificación y algoritmos relacionados de reglas de asociación.
2.1 Proceso de minería de reglas de asociación
El proceso de minería de reglas de asociación incluye principalmente dos etapas: en la primera etapa, todos los conjuntos de elementos de alta frecuencia deben encontrarse en el conjunto de datos; En la segunda etapa, las reglas de asociación se generan a partir de estos conjuntos de elementos de alta frecuencia.
En la primera etapa de la minería de reglas de asociación, todos los conjuntos de elementos grandes deben encontrarse a partir del conjunto de datos original. Alta frecuencia significa que la frecuencia de un determinado grupo de elementos en relación con todos los registros debe alcanzar un cierto nivel. La frecuencia con la que aparece el equipo del proyecto se llama apoyo. Tomando como ejemplo un conjunto de 2 elementos que contiene dos elementos A y B, el soporte del grupo de elementos que contiene {A, B} se puede obtener mediante la fórmula (1). Si el soporte es mayor o igual al umbral mínimo de soporte establecido, {A, B} se denomina grupo de artículos de alta frecuencia. El conjunto de k elementos que satisface el soporte mínimo se denomina conjunto de k elementos frecuentes, generalmente expresado como k grande o k frecuente. El algoritmo también genera k 1 grande a partir del grupo de elementos k grande hasta que no se pueda formar ningún grupo de elementos de alta frecuencia. encontrado más.
La segunda etapa de la minería de reglas de asociación es generar reglas de asociación. Generar reglas de asociación a partir de grupos de elementos de alta frecuencia consiste en utilizar las reglas de generación de grupos de elementos k de alta frecuencia en el paso anterior. Bajo el umbral condicional de confianza mínima, si la credibilidad obtenida por una regla cumple con la confianza mínima, esta regla se denomina regla de asociación. Por ejemplo, la confiabilidad de la regla AB generada por el grupo de elementos k de alta frecuencia {A, B} se puede obtener mediante la fórmula (2). Si la confiabilidad es mayor o igual que la confiabilidad mínima, AB se denomina regla de asociación.
En lo que respecta al caso de Vuormaa, al utilizar la tecnología de minería de reglas de asociación para extraer registros en la base de datos de transacciones, primero debemos establecer dos umbrales: soporte mínimo y confianza mínima. Supongamos que el soporte mínimo min_support=. 5, confianza mínima min_confidence=70. Por tanto, las normas de la asociación que satisfagan las necesidades de este supermercado deben cumplir las dos condiciones anteriores al mismo tiempo. Si la regla de asociación "pañal, cerveza" encontrada mediante el proceso de extracción satisface las siguientes condiciones, se aceptará la regla de asociación "pañal, cerveza". El apoyo (pañal, cerveza) se puede describir mediante la fórmula >:=5, confianza (pañal, cerveza) >=70. Entre ellos, soporte (pañales, cerveza) >: El significado de =5 en este ejemplo de aplicación es que al menos 5 registros de transacciones entre todos los registros de transacciones muestran que se compraron pañales y cerveza al mismo tiempo. En este ejemplo de aplicación, la confianza (pañales, cerveza) > = 70 significa que al menos 70 de todos los registros de transacciones, incluidos los pañales, también comprarán cerveza. Por lo tanto, si un consumidor compra pañales en el futuro, el supermercado podrá recomendarle que compre cerveza al mismo tiempo. Este comportamiento de recomendación de productos se basa en la regla de asociación "pañales, cerveza", porque los registros de transacciones anteriores del supermercado respaldan el comportamiento del consumidor de que "la mayoría de las compras de pañales también incluirán la compra de cerveza".
También se puede ver en la introducción anterior que la minería de reglas de asociación suele ser más adecuada para situaciones en las que los indicadores de los registros toman valores discretos. Si los valores del índice en la base de datos original son datos continuos, entonces los datos deben discretizarse adecuadamente antes de las reglas de asociación minera (en realidad, un valor en un determinado intervalo corresponde a un determinado valor). La discretización de datos es un paso importante antes de la extracción de datos. Si el proceso de discretización es razonable afectará directamente los resultados de la extracción de las reglas de asociación.
2.2 Clasificación de las reglas de asociación
Según las diferentes situaciones, las reglas de asociación se pueden clasificar de la siguiente manera:
1. reglas, las reglas de asociación se pueden dividir en tipos booleanos y numéricos.
Los valores procesados por reglas de asociación booleanas son discretos y categóricos, mostrando la relación entre estas variables. Las reglas de asociación numérica se pueden combinar con reglas de asociación multidimensional o reglas de asociación de múltiples niveles para procesar campos numéricos y dividirlos dinámicamente, o pueden procesar directamente datos sin procesar. Por supuesto, las reglas de asociación numérica también pueden contener variables categóricas. Por ejemplo: género = "mujer" = gtocupación="secretaria", esta es una regla de asociación booleana; Género = "mujer" = gtAvg (ingresos) =2300, los ingresos involucrados son numéricos, por lo que es una regla de asociación numérica.
2. Según el nivel de abstracción de los datos en las reglas, se pueden dividir en reglas de asociación de una sola capa y reglas de asociación de múltiples capas.
En las reglas de asociación de un solo nivel, todas las variables no tienen en cuenta que los datos reales tienen muchos niveles diferentes; en las reglas de asociación de varios niveles, se considera completamente la naturaleza de varios niveles de los datos. Por ejemplo: IBM Desktop = GT Sony Printer es una regla de asociación de una sola capa para datos detallados; Desktop IBM = GT Sony Printer es una regla de asociación de múltiples capas entre niveles superiores y niveles de detalle.
3. Según las dimensiones de los datos involucrados en las reglas, las reglas de asociación se pueden dividir en unidimensionales y multidimensionales.
En las reglas de asociación unidimensionales, solo involucramos una dimensión de datos, como los artículos comprados por el usuario; en las reglas de asociación multidimensionales, los datos a procesar involucrarán múltiples dimensiones. En otras palabras, las reglas de asociación unidimensionales se ocupan de algunas relaciones en un único atributo; las reglas de asociación multidimensionales se ocupan de algunas relaciones entre varios atributos. Por ejemplo: cerveza = pañales gt, esta regla solo involucra artículos comprados por el usuario; Género = "mujer" = ocupación gt = "secretaria", esta regla involucra información en dos campos y es una regla de asociación bidimensional.
2.3 Algoritmo de minería de reglas de asociación
1. Algoritmo a priori: utilice conjuntos de elementos candidatos para descubrir conjuntos de elementos frecuentes.
El algoritmo Apriori es el algoritmo más influyente para extraer conjuntos de elementos frecuentes de reglas de asociación booleanas. Su núcleo es un algoritmo recursivo basado en la idea de conjuntos de frecuencias de dos etapas. Esta regla de asociación se clasifica como regla de asociación booleana unidimensional y de un solo nivel. Aquí, todos los conjuntos de elementos cuyo soporte es mayor que el soporte mínimo se denominan conjuntos de elementos frecuentes o, para abreviar, conjuntos de frecuencia.
La idea básica del algoritmo es: primero encuentre todos los conjuntos de frecuencias y las frecuencias de estos conjuntos de elementos sean al menos las mismas que el soporte mínimo predefinido. Luego, se generan reglas de asociación sólidas a partir del conjunto de frecuencias, y estas reglas deben satisfacer un soporte mínimo y una confianza mínima. Luego, el conjunto de frecuencias encontrado en el paso 1 se usa para generar las reglas deseadas, y se generan todas las reglas que contienen solo elementos establecidos, en las que solo hay un elemento en la mitad derecha de cada regla. Aquí se usa la definición de regla intermedia. . Una vez generadas estas reglas, solo quedan aquellas reglas que sean mayores que el nivel mínimo de confianza dado por el usuario. Para generar todos los conjuntos de frecuencias, se utiliza un enfoque recursivo.
Puede haber una gran cantidad de conjuntos de candidatos y es posible que sea necesario escanear la base de datos repetidamente. Estas son las dos principales deficiencias del algoritmo Apriori.
2. Algoritmo basado en particionamiento
Savasere et al. El algoritmo primero divide lógicamente la base de datos en varios bloques separados, considera un bloque individualmente a la vez y genera todos los conjuntos de frecuencias para él, luego combina los conjuntos de frecuencias generados para generar todos los conjuntos de frecuencias posibles y finalmente calcula estos elementos. Aquí, el tamaño de cada bloque se elige de manera que cada bloque pueda caber en la memoria principal y solo deba escanearse una vez en cada etapa. La exactitud del algoritmo está garantizada por el hecho de que cada posible conjunto de frecuencias es una frecuencia establecida en al menos un bloque. El algoritmo puede estar altamente paralelizado y cada bloque puede asignarse a un procesador para generar conjuntos de frecuencias.
Después de cada ciclo de generación de conjuntos de frecuencias, los procesadores se comunican entre sí para generar k-itemsets candidatos globales. Por lo general, el proceso de comunicación aquí es el principal cuello de botella en el tiempo de ejecución del algoritmo; por otro lado, el tiempo que tarda cada procesador independiente en generar el conjunto de frecuencias también es un cuello de botella;
3. Algoritmo de conjunto de frecuencias de árbol FP
Apuntando a las deficiencias inherentes del algoritmo Apriori, J. Han et al. propusieron un método que no genera conjuntos de elementos frecuentes para la minería candidata: FP- algoritmo de conjunto de frecuencias de árbol. Adopte una estrategia de divide y vencerás. Después del primer escaneo, la frecuencia establecida en la base de datos se comprime en un árbol de patrones frecuentes (árbol FP), mientras que la información relevante aún se conserva. Luego, el árbol FP se divide en varias bases de condiciones, cada base de condiciones se asocia con un conjunto de frecuencias de longitud 1 y luego estas bases de condiciones se extraen por separado. Cuando la cantidad de datos originales es grande, el árbol FP se puede colocar en la memoria principal en combinación con el método de partición. Los experimentos muestran que el crecimiento de FP tiene buena adaptabilidad a reglas de diferentes longitudes y su eficiencia mejora enormemente en comparación con el algoritmo a priori.
3. Aplicaciones en este campo en el país y en el extranjero
3.1 Aplicaciones de la tecnología de minería de reglas de asociación en el país y en el extranjero
En la actualidad, la tecnología de minería de reglas de asociación tiene Se ha utilizado ampliamente en los negocios financieros occidentales y puede anticipar con éxito las necesidades de los clientes bancarios. Una vez que tengan esta información, los bancos pueden mejorar su marketing. Ahora, los bancos están desarrollando nuevas formas de comunicarse con los clientes todos los días. Cada banco agrupa la información de los productos del banco que pueden interesar a los clientes en su propio cajero automático para que los usuarios la comprendan. Si la base de datos muestra que un cliente con un límite de crédito alto ha cambiado su dirección, entonces existe una buena posibilidad de que el cliente haya comprado recientemente una casa más grande y, por lo tanto, necesite un límite de crédito más alto, una nueva tarjeta de crédito de alta gama o una préstamo para mejoras en el hogar. Estos productos se pueden enviar por correo a los clientes mediante extractos de tarjetas de crédito. La base de datos puede ayudar eficazmente a los representantes de telemercadeo cuando los clientes llaman para realizar consultas. La pantalla de la computadora de un representante de ventas puede mostrar las características del cliente y también mostrar qué productos le interesarían.
Al mismo tiempo, algunos sitios web de comercio electrónico conocidos también se benefician de una poderosa minería de reglas de asociación. Estos sitios de compras electrónicas explotan utilizando reglas de asociación y luego configuran paquetes que los usuarios pretenden comprar juntos. También hay algunos sitios web de compras que los utilizan para configurar las ventas cruzadas correspondientes, es decir, los clientes que compran un determinado producto verán anuncios de otro producto relacionado.
Sin embargo, actualmente en China, "los datos masivos y la falta de información" son una vergüenza común que enfrentan los bancos comerciales después de la concentración de datos. La mayoría de las bases de datos implementadas actualmente en la industria financiera solo pueden implementar funciones subyacentes como entrada de datos, consultas, estadísticas, etc., pero no pueden encontrar información útil en los datos, como analizar estos datos, descubrir sus patrones y características de datos, y luego descubrir ciertos intereses financieros y comerciales de clientes individuales, grupos de consumidores u organizaciones, y observar las tendencias cambiantes en los mercados financieros. Se puede decir que la investigación y aplicación nacional de la tecnología minera de reglas de asociación no es muy extensa ni profunda.
3.2 Algunas investigaciones sobre la tecnología de minería de reglas de asociación en los últimos años
Dado que muchos problemas de aplicación suelen ser más complejos que los problemas de adquisición de los supermercados, una gran cantidad de estudios han ampliado las reglas de asociación desde diferentes perspectivas. , integrando más factores en el método de minería de reglas de asociación, enriqueciendo así los campos de aplicación de las reglas de asociación y ampliando el alcance de las decisiones de gestión de apoyo. Por ejemplo, considere las relaciones jerárquicas entre atributos, relaciones temporales, minería de múltiples tablas, etc. En los últimos años, la investigación sobre reglas de asociación se ha centrado principalmente en dos aspectos: ampliar el alcance de los problemas que las reglas de asociación clásicas pueden resolver y mejorar la eficiencia y el interés de los algoritmos de minería de reglas de asociación clásicas.
Soy Baidu. Puede consultar este sitio web.
Buena suerte