Palabras clave: minería de datos; análisis; marketing; inversión financiera
Con el rápido desarrollo de la tecnología de redes y bases de datos y la aplicación generalizada de sistemas de gestión de bases de datos, la gente ha acumulado más y más más Cuantos más datos. Como resultado, surgió la tecnología de minería de datos. A continuación, este artículo ofrece una breve introducción a la tecnología de datos y sus aplicaciones.
1. Definición de minería de datos
La minería de datos es extraer información oculta, desconocida pero potencialmente útil de una gran cantidad de datos y conocimientos de aplicaciones prácticas incompletos, ruidosos, confusos y aleatorios. proceso. Es una tecnología emergente de procesamiento de información empresarial. Su característica principal es extraer, transformar, analizar y modelar una gran cantidad de datos comerciales en bases de datos comerciales y extraer datos clave para ayudar en las decisiones comerciales. En resumen, la minería de datos es en realidad un método de análisis de datos en profundidad. Desde esta perspectiva, la minería de datos también puede describirse como un método avanzado y eficaz para explorar y analizar grandes cantidades de datos empresariales de acuerdo con los objetivos comerciales establecidos por la empresa, revelando patrones ocultos, desconocidos o verificados y métodos de modelado adicionales.
En segundo lugar, la tecnología de minería de datos
La tecnología de minería de datos es el resultado de la investigación y el desarrollo a largo plazo de la tecnología de bases de datos. El desarrollo de la tecnología de almacenamiento de datos está estrechamente relacionado con la minería de datos. En la mayoría de los casos, la minería de datos primero debe sacar los datos del almacén de datos y colocarlos en una biblioteca de minería de datos o en un mercado de datos, porque el almacén de datos limpiará los datos y resolverá el problema de la inconsistencia de los datos, lo que traerá problemas a los datos. La minería viene con muchos beneficios. Además, la minería de datos aprovecha los avances en la inteligencia artificial (IA) y el análisis estadístico, los cuales apuntan al descubrimiento y la predicción de patrones. Las bases de datos, la inteligencia artificial y las estadísticas matemáticas son los tres pilares de la tecnología de minería de datos. Así como el conocimiento descubierto en la minería de datos es diferente, las técnicas utilizadas también lo son.
1. Amplio conocimiento. Se refiere al conocimiento descriptivo general de las características de la categoría. De acuerdo con las características microscópicas de los datos, se encuentra que su representatividad, universalidad, conceptos de alto nivel, conocimiento de nivel meso y nivel macro reflejan la similitud de cosas similares, que es la generalización, refinamiento y abstracción de los datos. Existen muchos métodos y técnicas para descubrir conocimiento generalizado, como los cubos de datos y la reducción orientada a la información. La idea básica del cubo de datos es implementar el cálculo de algunas funciones agregadas de alto costo de uso común, como recuento, suma, promedio, máximo, etc. y almacenar estas vistas de implementación en una base de datos multidimensional. La reducción orientada a atributos utiliza un lenguaje similar a SQL para expresar consultas de minería de datos, recopila conjuntos de datos relevantes en la base de datos y luego aplica una serie de técnicas de mejora de datos a los conjuntos de datos relevantes para mejorar los datos, incluida la eliminación de atributos, la mejora del árbol de conceptos y los atributos. control de umbral, se propagan funciones de agregación como el conteo.
2. Conocimientos relevantes. Refleja el conocimiento de las dependencias o correlaciones entre un evento y otros eventos. Si existe una correlación entre dos o más atributos, el valor de atributo de uno de los atributos se puede predecir en función de los valores de los otros atributos. Las reglas de asociación más famosas
Luego son el algoritmo a priori y el algoritmo de crecimiento FP. El descubrimiento de reglas de asociación se puede dividir en dos pasos: el primer paso es identificar iterativamente todos los conjuntos de elementos frecuentes, y el soporte de conjuntos de elementos frecuentes no es inferior al valor mínimo establecido por el usuario; el segundo paso es construir un; Conjunto de elementos frecuentes cuya credibilidad no es baja. Reglas basadas en el valor mínimo establecido por el usuario. Identificar o descubrir todos los conjuntos de elementos frecuentes es el núcleo del algoritmo de descubrimiento de reglas de asociación y también es la parte más intensiva desde el punto de vista computacional.
3. Conocimientos de clasificación. Refleja el conocimiento de las características de cosas similares y el conocimiento de diferentes características entre cosas diferentes. Los métodos de clasificación incluyen árboles de decisión, Bayes ingenuo, redes neuronales, algoritmos genéticos, métodos de conjuntos aproximados, métodos de conjuntos difusos, regresión lineal y división de K-medias. El método de clasificación más típico es el árbol de decisión. Es un árbol de decisión construido a partir de un conjunto de casos y es un método de aprendizaje instructivo.
Este método primero forma un árbol de decisión basado en el subconjunto de entrenamiento. Si el árbol no puede dar una clasificación correcta a todos los objetos, se seleccionan algunas excepciones y se agregan al subconjunto de entrenamiento, y el proceso se repite hasta que se forma el conjunto de decisiones correcto. El resultado final es un árbol cuyos nodos hoja son nombres de clases y los nodos intermedios son ambigüedades ramificadas, correspondientes a algunos posibles valores de ambigüedad.
4. Predecir el conocimiento. Con base en datos de series de tiempo, inferir datos futuros a partir de datos históricos y actuales también puede considerarse como conocimiento relacionado con el tiempo como atributo clave. Actualmente, los métodos de pronóstico de series de tiempo incluyen métodos estadísticos clásicos, redes neuronales y aprendizaje automático. En 1968, BoX y Jenkins propusieron un conjunto completo de métodos de análisis y teoría de modelado de series temporales. Estos métodos matemáticos clásicos predicen series temporales mediante la construcción de modelos estocásticos. Dado que una gran cantidad de series temporales no son estacionarias, sus parámetros característicos y distribución de datos cambian con el tiempo. Por lo tanto, es imposible completar la tarea de predicción precisa simplemente entrenando algunos datos históricos y estableciendo un modelo de predicción de red neuronal única. Por lo tanto, se han propuesto métodos de reentrenamiento basados en estadísticas y precisión. Cuando el modelo de predicción existente ya no es adecuado para los datos actuales, se vuelve a entrenar el modelo, se obtienen nuevos parámetros de peso y se establece un nuevo modelo.
5. Conocimiento sesgado. Es una descripción de diferencias y excepciones extremas, que revela anomalías en las que las cosas se desvían de la norma, como casos especiales fuera de las clases estándar y valores atípicos fuera de los grupos de datos. Todo este conocimiento se puede encontrar en diferentes niveles conceptuales y, a medida que el nivel conceptual avanza, de micro a meso y macro, satisface las necesidades de diferentes usuarios en diferentes niveles de toma de decisiones.
En tercer lugar, el proceso de minería de datos
La minería de datos se refiere a extraer información práctica, efectiva y previamente desconocida de grandes bases de datos, escribir una tesis de graduación y usar esta información para tomar decisiones o completar el proceso. proceso de enriquecimiento del conocimiento. El proceso básico y los pasos principales de la minería de datos son los siguientes:
El contenido aproximado de cada paso del proceso es el siguiente:
1. Identificar los objetos comerciales y definir claramente los problemas comerciales. . Comprender el propósito de la minería de datos es un paso importante en la minería de datos. La estructura final de la excavación es impredecible, pero las preguntas a explorar deberían serlo. La minería por el simple hecho de extraer datos es ciega y no tendrá éxito.
2. Preparación de datos. (1) La selección de datos busca toda la información de datos interna y externa relacionada con los objetos comerciales y selecciona datos adecuados para aplicaciones de minería de datos. (2) Preprocesamiento de datos. Estudiar la calidad de los datos y realizar su integración, transformación, reducción, compresión, etc. , para prepararse para análisis posteriores y determinar el tipo de operación minera a realizar. (3) Conversión de datos. Convertir datos en modelos analíticos y construir modelos analíticos para algoritmos de minería es la clave para una minería de datos exitosa.
3. Minería de datos. Minería de datos transformados. Además de perfeccionar y elegir el algoritmo de minería adecuado, todo lo demás se puede hacer automáticamente.
4. Análisis de resultados. Interpretar y evaluar los resultados. En general, el método de análisis utilizado debe depender de la operación minera, normalmente utilizando técnicas de visualización.
5. Absorción del conocimiento. Integrar el conocimiento adquirido a partir del análisis en la estructura organizativa de los sistemas de información empresarial.
En cuarto lugar, la aplicación de la minería de datos
La tecnología de minería de datos ha estado orientada a la aplicación desde el principio. En la actualidad, la minería de datos es una palabra muy de moda en muchos campos, especialmente en campos comerciales como la banca, las telecomunicaciones, los seguros, el transporte y el comercio minorista (como los supermercados).
1. Debido a la aplicación generalizada de los sistemas de información de gestión y los sistemas POS en las empresas, especialmente en el comercio minorista, y especialmente el uso de tecnología de códigos de barras, se puede recopilar una gran cantidad de datos sobre las compras de los usuarios, y la cantidad de datos aumenta constantemente. Para marketing, comprender algunas características del comportamiento de compra de los clientes a través del análisis de datos es de gran ayuda para mejorar la competitividad y promover las ventas. Al utilizar la tecnología de minería de datos, podemos obtener información como las preferencias e intereses de compra de los clientes a través del análisis de los datos del usuario, proporcionando así una base confiable para las decisiones comerciales. La aplicación de la minería de datos en marketing se puede dividir en dos categorías: marketing de bases de datos y análisis de la cesta de la compra. La tarea del marketing de bases de datos es seleccionar clientes potenciales mediante consultas interactivas, segmentación de datos y predicciones de modelos para venderles productos. Al insultar los datos de los clientes existentes, los usuarios se pueden dividir en diferentes niveles. Cuanto más alto sea el nivel, más probabilidades tendrán de comprar. Análisis de cesta
Identifica patrones de comportamiento de compra de los clientes mediante el análisis de datos de ventas en el mercado. Por ejemplo, si se compra el producto A, la probabilidad de que se compre el producto B es del 95%. Esto ayuda a determinar el diseño y la ubicación de los estantes de las tiendas para promocionar ciertos productos y también permite una selección y combinación de productos más decidida. Los sistemas en este campo incluyen: Explorador de oportunidades, que puede usarse para el análisis causal de ventas anormales en los supermercados.
Además, IBM ha desarrollado herramientas (parte de IntdligentMiner y QUEST) que identifican patrones de comportamiento de compra de los clientes.
2. Inversión financiera. Los campos típicos del análisis financiero incluyen la evaluación de inversiones y la predicción del mercado de valores. Los métodos de análisis generalmente utilizan métodos de predicción de modelos (como redes neuronales o técnicas de regresión estadística). Debido a la naturaleza de alto riesgo de la inversión financiera, al tomar decisiones de inversión, es más necesario analizar datos relevantes en varias direcciones de inversión para elegir la mejor dirección de inversión. Ya sea una evaluación de inversiones o una predicción del mercado de valores, todas son predicciones del desarrollo de las cosas y todas se basan en el análisis de datos. La minería de datos puede descubrir relaciones entre objetos de datos procesando datos existentes y luego utilizar los patrones aprendidos para hacer predicciones razonables. Este sistema incluye la selección de acciones de Fidelity y la gestión de fondos LBS. La tarea del primero es utilizar modelos de redes neuronales para seleccionar inversiones, mientras que el segundo utiliza sistemas expertos, redes neuronales y tecnología de algoritmos genéticos para ayudar en la gestión de valores por valor de hasta 600 millones de dólares.
3. Detección de fraude. Comportamientos fraudulentos, como sobregiros viciosos, a menudo ocurren en bancos o empresas, causando enormes pérdidas a los bancos y unidades comerciales. Anticipar este tipo de fraude puede reducir las pérdidas. La detección de fraude resume principalmente la relación entre el comportamiento normal y el fraude y obtiene algunas características del fraude, de modo que cuando una empresa cumple con estas características, puede alertar a los tomadores de decisiones.
Los sistemas de mayor éxito en este campo son el sistema Falcon y el sistema FAIS. FALCON es un sistema de estimación de fraude con tarjetas de crédito desarrollado por HNC Corporation y ha sido utilizado por bastantes bancos minoristas para detectar transacciones sospechosas con tarjetas de crédito; FAIS es un sistema para identificar transacciones financieras relacionadas con el lavado de dinero que utiliza tablas de datos gubernamentales generales. Además, la minería de datos también se puede utilizar para la detección de estrellas distantes, la investigación en ingeniería genética, la recuperación de información web, etc. en astronomía.
Conclusión
Con el desarrollo de bases de datos, inteligencia artificial, estadísticas matemáticas y tecnología de software y hardware, la tecnología de extracción de datos se utilizará ampliamente en más campos.
Materiales de referencia:
[1] Reforma docente y exploración de la introducción al sistema de bases de datos [J] Journal of Shanxi Radio and Television University, 2006, (15): 16-17. .