Definición de data warehouse
Es ampliamente aceptada la definición propuesta por Bill Enmen, el padre del data warehouse, en su libro de 1991 "Building Data Warehouses": El almacén de datos es un conjunto de datos orientado a un tema, integrado y relativamente estable (no volátil) que refleja cambios históricos y se utiliza para respaldar la toma de decisiones.
Podemos entender el concepto de data warehouse desde dos niveles. En primer lugar, el almacén de datos se utiliza para respaldar la toma de decisiones y el procesamiento de datos orientado al análisis, que es diferente de la base de datos operativa existente de la empresa. En segundo lugar, el almacén de datos es una integración eficaz de múltiples fuentes de datos heterogéneas. Después de la integración, se reorganiza según temas e incluye datos históricos. Los datos almacenados en el almacén de datos generalmente no se modifican.
2. Características del almacén de datos
1. La organización de los datos de la base de datos operativa está orientada a las tareas de procesamiento de transacciones, y cada sistema empresarial está separado, mientras que los datos del almacén de datos se organizan según determinadas áreas temáticas. Un tema es un concepto abstracto que hace referencia a aspectos clave que interesan a los usuarios a la hora de tomar decisiones utilizando un almacén de datos. Un tema suele ser relevante para más de un sistema de información operativa.
2. Las bases de datos operativas orientadas a transacciones suelen estar relacionadas con algunas aplicaciones específicas, y estas bases de datos son independientes entre sí y suelen ser heterogéneas. Los datos en el almacén de datos se obtienen mediante procesamiento, resumen y organización sistemáticos sobre la base de la extracción y limpieza de los datos originales dispersos de la base de datos. Se deben eliminar las inconsistencias en los datos de origen para garantizar que la información en el almacén de datos sea consistente y global sobre toda la empresa.
3. Relativamente estable. Los datos de la base de datos operativa generalmente se actualizan en tiempo real y se pueden cambiar de manera oportuna según sea necesario. Los datos del almacén de datos se utilizan principalmente para el análisis de la toma de decisiones empresariales, y las operaciones de datos involucradas son principalmente consultas de datos. Una vez que ciertos datos ingresan al almacén de datos, generalmente se almacenarán durante mucho tiempo, es decir, hay una gran cantidad de operaciones de consulta en el almacén de datos, pero hay muy pocas operaciones de modificación y eliminación. para ser cargado y actualizado periódicamente.
4. Reflejar los cambios históricos. La base de datos operativa se centra principalmente en los datos actuales dentro de un cierto período de tiempo, mientras que los datos en el almacén de datos generalmente contienen información histórica, registrando sistemáticamente la información de la empresa desde un cierto punto en el pasado (como el tiempo del almacén de datos). solicitud) hasta la presente fase. A través de esta información, se puede analizar y predecir cuantitativamente el proceso de desarrollo y las tendencias futuras de la empresa.
La construcción del almacén de datos empresariales se basa en el sistema empresarial empresarial existente y la acumulación de grandes cantidades de datos comerciales. El almacén de datos no es un concepto estático. La información sólo puede ser útil y eficaz si se proporciona de manera oportuna a los usuarios que la necesitan para que puedan tomar decisiones para mejorar las operaciones comerciales. Organizar, resumir y reorganizar la información y proporcionarla a los responsables de la toma de decisiones de gestión correspondientes de manera oportuna es la tarea fundamental del almacén de datos. Entonces, desde la perspectiva de la industria, la construcción de un almacén de datos es un proyecto y un proceso.