Almacenamiento de datos y gestión de metadatos

Prefacio Los datos del sistema de procesamiento de transacciones se utilizan principalmente para registrar y consultar las condiciones comerciales. Con la madurez continua de la tecnología de almacenamiento de datos (DW), los datos empresariales se han convertido gradualmente en la base principal para la toma de decisiones. El almacén de datos es un tipo de Orientado a temas de toma de decisiones, es un sistema de base de datos basado en lectura que integra múltiples fuentes de datos con datos resumidos actuales e históricos. Su propósito es apoyar la toma de decisiones. dentro y fuera de la empresa de acuerdo con las necesidades de la toma de decisiones y organizarlos y procesarlos adecuadamente para que sean efectivos. Los datos en el almacén de datos se extraen y convierten de muchos sistemas de procesamiento empresarial para proporcionar información para el proceso de toma de decisiones. En un entorno de datos empresariales tan complejo, cómo administrarlos y acceder a ellos de manera segura y eficiente se vuelve particularmente importante. Resolver este problema La clave del problema es la gestión científica y eficaz de los metadatos: información descriptiva sobre la estructura y el significado de los datos. Procesos de manipulación y aplicaciones. Su objetivo principal es proporcionar una guía completa de los recursos de datos, no solo define los datos en el almacén de datos, las reglas de extracción y transformación, etc., y el funcionamiento de todos los datos. El sistema de almacén se basa en metadatos. Los metadatos conectan varios componentes sueltos en el sistema de almacén de datos para formar un todo orgánico. Este artículo primero presenta los metadatos y luego analiza el estado actual de la gestión de metadatos en los sistemas de almacén de datos. Estandarización de metadatos. Finalmente, se proponen los pasos y métodos de implementación para establecer un sistema de gestión de metadatos. El concepto de metadatos se basa en la definición tradicional de metadatos (metadatos) que pueden ayudar en el sistema de almacenamiento de datos. Los administradores de almacenes de datos y los desarrolladores de almacenes de datos encuentran muy fácilmente los datos que les interesan. Los metadatos describen la estructura y el método de establecimiento de los datos en el almacén de datos. Los datos se pueden dividir en dos categorías según diferentes usos: metadatos técnicos (metadatos técnicos) y. Metadatos comerciales (Metadatos comerciales) son datos que almacenan detalles técnicos sobre el sistema de almacenamiento de datos y se utilizan para desarrollar y administrar almacenes de datos. Incluye principalmente la siguiente información: descripción de la estructura del almacén de datos, incluido el esquema del almacén. , jerarquía de dimensiones y definición de los datos exportados, así como la ubicación y el contenido del data mart&#; Arquitectura y esquema del almacén de datos del sistema empresarial y del data mart &# ; Los algoritmos utilizados para la agregación incluyen algoritmos de medición y definición de dimensiones Granularidad de los datos Asunto; agregación de área Resumen Consultas e informes predefinidos &# ; Mapeo desde el entorno operativo al entorno de almacenamiento de datos, incluidos los datos de origen y su contenido Segmentación de datos Extracción de datos Transformación de limpieza Reglas y reglas de actualización de datos Seguridad (autorización de usuario y control de acceso) Los metadatos comerciales describen los datos en el El almacén de datos desde una perspectiva empresarial proporciona una capa semántica entre los usuarios y el sistema real para permitir que el personal empresarial que no comprende la tecnología informática también pueda comprender los datos en el almacén de datos. nombre del objeto modelo y nombre del atributo expresado en los términos comerciales del usuario, los principios para acceder a los datos y la fuente de los datos, los métodos de análisis proporcionados por el sistema y la información sobre fórmulas e informes. Específicamente, incluye la siguiente información: Modelo conceptual empresarial: esta es información importante que los metadatos comerciales deben proporcionar. Representa la información de alto nivel del modelo de datos empresariales. Los conceptos comerciales y las interrelaciones de toda la empresa se basan en este modelo empresarial. El personal de negocios de la declaración también puede tener una idea clara de los datos en el almacén de datos. El modelo de datos multidimensional es una parte importante del modelo conceptual empresarial. Le dice a los analistas de negocios en qué categorías dimensionales y cubos de datos se encuentran. el centro de datos Las reglas de agregación en el centro de datos. El cubo de datos aquí representa la forma organizativa multidimensional de las tablas de hechos comerciales y tablas de dimensiones en un área temática determinada. mencionado anteriormente solo representa la correspondencia entre estas vistas comerciales y el almacén de datos o base de datos real, campos de tabla, niveles de dimensión, etc. en la base de datos multidimensional también debe reflejarse en la base de conocimiento de metadatos. El mecanismo de metadatos en el sistema de almacenamiento de datos admite principalmente los siguientes cinco tipos de funciones de gestión del sistema (1) Describa qué datos.

(2) Definir los datos que se ingresarán en el almacén de datos y los datos generados desde el almacén de datos (3) Registrar el cronograma de trabajo de extracción de datos de acuerdo con la ocurrencia de eventos comerciales (4) Registrar y detectar datos del sistema Requisitos e implementación de coherencia ( 5) Medir la calidad de los datos El almacén de datos no es tanto un proyecto de desarrollo de software sino un proyecto de integración de sistemas [] porque su trabajo principal es integrar las herramientas de almacenamiento de datos necesarias para completar la extracción de datos. Convertir y cargar análisis OLAP y minería de datos, etc. Como se muestra en la figura, su estructura típica consta de la capa de entorno operativo, la capa de almacén de datos y la capa empresarial. La primera capa (capa de entorno operativo) se refiere al sistema OLTP relacionado con el negocio dentro de toda la empresa y algunos La segunda capa es externa. Las fuentes de datos son la capa de almacén de datos compuesta por la extracción de los datos relevantes de la primera capa en un área central. La tercera capa es la capa empresarial compuesta por varias herramientas para completar el análisis de los datos comerciales. Parte izquierda del diagrama. Una de ellas es la gestión de metadatos, que desempeña un papel de enlace en los siguientes aspectos: facilitar la integración, mejorar la flexibilidad del sistema, garantizar la calidad de los datos y ayudar a los usuarios a comprender el significado de los metadatos del almacén de datos. Estado actual de la gestión de datos La gestión de metadatos tiene dos tareas principales. Uno es responsable de almacenar y mantener los metadatos en la base de datos de metadatos y el otro es responsable de la mensajería entre las herramientas de modelado del almacén de datos, las herramientas de adquisición de datos, las herramientas de front-end, etc., y de la coordinación entre varios módulos y herramientas. Hemos aprendido que los metadatos casi se pueden llamar el alma del almacén de datos e incluso del sistema de inteligencia empresarial (BI). Es precisamente porque los metadatos juegan un papel importante en todo el ciclo de vida del almacén de datos de varios fabricantes. Todas las soluciones mencionan la gestión de metadatos, pero lamentablemente cada solución no propone claramente un modelo de gestión completo para la gestión de metadatos. Solo proporcionan la gestión de metadatos locales específicos. Actualmente, el mercado es incompatible con los metadatos. Las herramientas relacionadas se muestran en la figura. Las herramientas de almacenamiento de datos relacionadas con metadatos se pueden dividir aproximadamente en cuatro categorías. Las herramientas de extracción de datos integran la extracción y transformación de datos en sistemas comerciales en almacenes de datos, como DataStage CA de Ardent (anteriormente Platinum). como Decision Base y ETI's Extract solo proporcionan metadatos técnicos y brindan poco soporte para metadatos comerciales. Las herramientas de presentación front-end incluyen informes de análisis OLAP y herramientas de inteligencia empresarial, como DSS Agent de MicroStrategy, BO y Brio de PowerPlay Business Objects de Cognos y otros. Admite vistas comerciales multidimensionales asignando tablas relacionales a tablas de hechos y tablas de dimensiones relacionadas con el negocio, y luego realiza análisis multidimensional de datos en el almacén de datos. Estas herramientas proporcionan una capa semántica correspondiente a los metadatos comerciales y las herramientas de modelado. : Herramientas de modelado de negocios para personas sin conocimientos técnicos. Estas herramientas pueden proporcionar semántica de nivel superior relacionada con herramientas de almacenamiento de metadatos, como ERwin Sybase de CA y Rose de Rational. Una caja negra. Los forasteros no pueden saber cómo se almacenan los metadatos utilizados y generados por estas herramientas. También existe una clase de herramientas llamada Repositorio de metadatos, que es independiente de otras herramientas y proporciona un espacio de almacenamiento centralizado, incluido el Repositorio CA de Microsoft. MetaStage de Ardent y WCC de Sybase no tienen reglas ni regulaciones para la estandarización de la gestión de metadatos de Fangyuan. En este caso, las soluciones de gestión de metadatos de cada empresa varían. , con el modelo de información abierta OIM (Open Information Model) de Meta Data Coalition (MDC) y el modelo de almacén público CWM (CWM) de la organización OMG, Common Warehouse Mod

el) La mejora gradual de los estándares y la fusión de las organizaciones MDC y OMG han proporcionado estándares unificados para los fabricantes de almacenes de datos, allanando así el camino para la gestión de metadatos. A partir de la historia del desarrollo de los metadatos, no es difícil ver que hay dos principales. métodos de gestión de metadatos ( ) Para entornos relativamente simples, establezca una base de conocimiento de metadatos centralizada de acuerdo con estándares comunes de gestión de metadatos ( ) Para entornos más complejos, establezca sistemas de gestión de metadatos separados para cada parte para formar una base de conocimiento de metadatos distribuida, y luego. Establezca una base de conocimiento de metadatos estándar. El formato de intercambio de datos implementa la gestión integrada de metadatos. A continuación presentamos los dos estándares de metadatos más importantes en el campo del almacenamiento de datos: el estándar OIM de MDC y el modelo de almacenamiento OIM de MDC de OMG. y es una empresa dedicada a establecer y cooperar con fabricantes. Una alianza tecnológica sin fines de lucro para estándares de gestión de metadatos empresariales independientes que no depende de tecnologías específicas. La alianza tiene varios miembros, incluidos proveedores de software conocidos como Microsoft e IBM. En 2016, MDC aceptó la propuesta de Microsoft de utilizar OIM como estándar de metadatos. El propósito de OIM es apoyar el intercambio y la reutilización de datos entre diferentes herramientas y sistemas a través de información de metadatos públicos. Implica todas las etapas del sistema de información (desde el diseño hasta el lanzamiento). ) y se logra a través de descripciones estándar de tipos de metadatos. Para el intercambio de datos entre herramientas y bases de conocimiento, los tipos de metadatos declarados por OIM se describen utilizando el Lenguaje de modelado unificado (UML) y se organizan en múltiples áreas temáticas (Subject Areas) que son fáciles de entender. utilizar y ampliar Estas áreas temáticas incluyen Análisis y Diseño (Análisis y Diseño), que se utiliza principalmente para el análisis, diseño y modelado de software. El rango temático se divide a su vez en paquetes UML (Paquete), paquetes de extensión UML (Elementos genéricos). y paquete de datos públicos *** (tipos de datos comunes) y paquete de modelado de relación de entidad (modelado de relación de entidad), etc. El alcance de este tema. solo incluye Modelado de descripción de componentes (Modelado de descripción de componentes) Paquete&#; Base de datos y almacenamiento (Base de datos y almacenamiento) Proporciona soporte de concepto de metadatos para la reutilización de la gestión del esquema de la base de datos y el establecimiento del almacén de datos. El alcance del tema se divide a su vez en Esquema de base de datos relacional (Base de datos relacional). Schema) Paquete de esquema OLAP (Esquema OLAP) Paquete de transformaciones de datos (Transformaciones de datos) Paquete de esquema de base de datos orientado a registros (Esquema de base de datos orientado a registros) Paquete de esquema XML (Esquema XML) y paquete de definiciones de informes (Definiciones de informes), etc.&#; La ingeniería empresarial (Ingeniería empresarial) proporciona un El alcance temático del plan se divide en objetivos comerciales, elementos organizativos, reglas comerciales, procesos comerciales, etc. La gestión del conocimiento implica la estructura de información de la empresa. El alcance del tema se divide en conocimientos. descripción (Conocimiento lishixinzhi/Article/program/Oracle/201311/18587