1. Definir los problemas comerciales. El valor central de la minería de datos radica principalmente en los problemas comerciales, por lo que en la etapa inicial se deben tener una comprensión profunda de los problemas y necesidades de la organización. y confirmación con la organización, de una solución detallada y alcanzable.
2. Comprensión de los datos, definición de los datos requeridos, recopilación de datos completos y realización de análisis preliminares de los datos recopilados, incluida la identificación de problemas de calidad de los datos, la realización de observaciones básicas sobre los datos y la eliminación de ruido o datos incompletos. Los datos pueden mejorar la eficiencia del preprocesamiento de datos y luego establecer hipótesis.
3. Preprocesamiento de datos Debido a que las fuentes de datos son diferentes, a menudo surgen problemas como inconsistencia de formato. Por lo tanto, se deben realizar múltiples comprobaciones y correcciones antes de construir un modelo para garantizar que los datos estén completos y purificados.
4. Establezca un modelo, seleccione la tecnología de minería de datos más adecuada según el formulario de datos y utilice diferentes datos para realizar pruebas del modelo para optimizar el modelo de predicción. Cuanto más preciso sea el modelo, mayor será su validez. y confiabilidad, más ventajoso será para los tomadores de decisiones tomar decisiones correctas.
5. Evaluar y comprender que los resultados obtenidos en la prueba sólo son significativos para los datos. En aplicaciones reales, la precisión del uso de diferentes conjuntos de datos variará. Por lo tanto, el propósito más importante de este paso es comprender si existen puntos ciegos en los problemas comerciales que no se han considerado.
6. Implementación, el proceso de minería de datos pasa por un círculo virtuoso y finalmente el modelo integrado se aplica al negocio. Sin embargo, la finalización del modelo no significa la finalización de todo el proyecto. También se puede obtener a través de mecanismos como la organización y la aplicación predictiva, esta etapa incluye la planificación del despliegue, la supervisión, el mantenimiento, la herencia y el informe final de resultados, conformando todo el ciclo de trabajo.