Aunque la minería de datos tiene una corta historia, se ha desarrollado rápidamente desde la década de 1990. Además, es producto de una síntesis multidisciplinaria y actualmente no existe una definición completa. Se han propuesto varias definiciones de minería de datos, como por ejemplo: SAS Institute (1997): "Un método avanzado para explorar datos y construir modelos relacionados basados en una gran cantidad de datos relevantes". Hand et al. (2000): “La minería de datos es el proceso de descubrir información significativa y valiosa en grandes bases de datos. Específicamente, la minería de datos, también conocida como descubrimiento de conocimiento en bases de datos (KDD), se refiere al proceso de descubrir información significativa y valiosa”. Extraer información o patrones implícitos, desconocidos, no triviales y potencialmente aplicables de grandes bases de datos o almacenes de datos. Integra teorías y tecnologías en bases de datos, inteligencia artificial, aprendizaje automático, estadística y otros campos, y es un nuevo campo de gran valor de aplicación en la investigación de bases de datos.
Las principales funciones de la minería de datos
La minería de datos integra una variedad de disciplinas y tecnologías y tiene una variedad de funciones. Las principales funciones actuales son las siguientes:
1. Resumen de datos: análisis estadístico heredado del análisis de datos. El propósito de la agregación de datos es condensar los datos y dar una descripción compacta de los mismos. Los métodos estadísticos tradicionales como suma, media, varianza, etc. son todos métodos eficaces. Además, estos valores también se pueden representar mediante métodos gráficos como gráficos de barras y gráficos circulares. En términos generales, el análisis multidimensional también puede entrar en esta categoría.
2. Clasificación: el propósito es construir una función de clasificación o modelo de clasificación (también llamado clasificador) que pueda asignar elementos de datos en la base de datos a una de las categorías dadas. Para construir un clasificador, se requiere como entrada un conjunto de datos de muestra de entrenamiento. El conjunto de entrenamiento consta de un conjunto de registros o tuplas de la base de datos. Cada tupla es un vector de características (también llamado atributo o característica) que consta de los valores de los campos asociados. Las muestras de entrenamiento también tienen una etiqueta de categoría. La forma de la muestra específica se puede expresar como: (v1, v2,..., VN; c), donde vi representa el valor del campo y c representa la categoría.
Por ejemplo, el departamento bancario divide a los clientes en diferentes categorías según los datos anteriores. Ahora podemos utilizarlos para distinguir a los nuevos clientes que solicitan préstamos y adoptan los planes de préstamos correspondientes.
3. Clúster: Toda la base de datos se divide en diferentes grupos. El propósito es hacer obvias las diferencias entre grupos mientras que los datos entre los mismos grupos sean lo más similares posible. Este enfoque se utiliza a menudo para la segmentación de clientes. No sabemos cómo dividir a los usuarios en varias categorías antes de comenzar la segmentación, por lo que podemos utilizar el análisis de conglomerados para encontrar grupos con características de clientes similares, como características de consumo de clientes similares o características de edad similares. Sobre esta base, podemos desarrollar algunos planes de marketing para diferentes grupos de clientes.
Por ejemplo, los solicitantes se dividen en solicitantes de alto riesgo, solicitantes de riesgo medio y solicitantes de bajo riesgo.
4. Análisis de correlación: Consiste en encontrar la correlación de los valores en la base de datos. Dos técnicas comúnmente utilizadas son las reglas de asociación y los patrones de secuencia. Las reglas de asociación consisten en descubrir la correlación de diferentes elementos en el mismo evento; los patrones de secuencia son similares a este, buscando correlaciones temporales entre eventos, como el ajuste de las tasas de interés bancarias de hoy y los cambios del mercado de valores de mañana.
5. Pronóstico: Capte el patrón de desarrollo del objeto de análisis y haga predicciones sobre tendencias futuras. Por ejemplo: juicio sobre el desarrollo económico futuro.
6. Detección de desviaciones: describe algunos casos extremos del objeto de análisis y revela las razones internas. Por ejemplo, entre los más de 654,38 millones de transacciones del banco, hubo 500 fraudes. Para operar de manera constante, los bancos deben conocer los factores internos de estos 500 casos y reducir los riesgos de operaciones futuras.
Las funciones anteriores de minería de datos no existen de forma independiente. Están relacionadas entre sí y desempeñan un papel en la minería de datos.