Minería de datos (inglés: Datamining), también traducido como exploración de datos y minería de datos. Es un paso en el descubrimiento de conocimiento de bases de datos (inglés: Knowledge-Discovery in Databases, denominado: KDD). La minería de datos generalmente se refiere al proceso de búsqueda de información oculta en grandes cantidades de datos mediante algoritmos. Huilongguan IT Training descubrió que la minería de datos generalmente está relacionada con la informática y logra los objetivos anteriores a través de muchos métodos, como estadísticas, análisis y procesamiento en línea, recuperación de inteligencia, aprendizaje automático, sistemas expertos (que se basan en reglas generales anteriores) y reconocimiento de patrones.
La minería de datos es un tema interdisciplinario de rápido desarrollo basado en la teoría de bases de datos, el aprendizaje automático, la inteligencia artificial y las estadísticas modernas, y tiene aplicaciones en muchos campos. Implica muchos algoritmos, incluidas redes neuronales y árboles de decisión derivados del aprendizaje automático, así como máquinas de vectores de soporte basadas en la teoría del aprendizaje estadístico, árboles de regresión de clasificación y muchos algoritmos para el análisis de correlación. La minería de datos se define como la búsqueda de patrones o conocimientos significativos a partir de cantidades masivas de datos.
Big data se refiere a una colección de datos que no se pueden capturar, gestionar y procesar con herramientas de software convencionales en un plazo asequible. Requiere nuevos modelos de procesamiento para tener un mayor poder de toma de decisiones y conocimiento. Capacidades de optimización de procesos para adaptarse a activos de información masivos, de alto crecimiento y diversos. En "La era de los grandes datos", escrito por Victor Meyer-Schoenberg y Kenneth Cukier, los grandes datos se refieren al uso de todos los datos para su análisis y procesamiento sin atajos como el análisis aleatorio (encuestas de muestreo). Las características 5V del big data (propuestas por IBM): Volumen, Velocidad, Variedad, Valor y Veracidad.