Fórmulas, funciones y los métodos anteriores son suficientes para que puedas jugar.
Base de datos relacional
Editar
En aplicaciones prácticas, las bases de datos relacionales se suelen utilizar como fuentes de datos. Hay varias formas de extraer datos de la base de datos.
Extracción total
Una extracción completa es similar a la migración o replicación de datos. Extrae completamente datos de tablas o vistas de la fuente de datos de la base de datos y los convierte a un formato que su propia herramienta ETL pueda reconocer. La extracción total es relativamente sencilla.
Extracción incremental
La extracción incremental se refiere a la extracción de datos que se han agregado, modificado y eliminado desde la última extracción de la tabla que se extraerá en la base de datos. En el proceso de uso de ETL. La extracción incremental se utiliza más ampliamente que la extracción completa. Cómo capturar datos cambiantes es la clave para la extracción incremental. Generalmente existen dos requisitos para el método de captura: precisión, que puede capturar con precisión los datos modificados en el rendimiento del sistema empresarial, que minimiza la presión excesiva sobre el sistema empresarial y afecta el negocio existente. Actualmente, los métodos comúnmente utilizados para capturar datos modificados en la extracción de datos incrementales son:
A. Generalmente, se deben configurar tres activadores: insertar, modificar y eliminar. Siempre que los datos en la tabla de origen cambien, el activador correspondiente escribirá los datos modificados en la tabla temporal y el hilo de extracción extraerá los datos de la tabla temporal. La ventaja del modo de activación es el alto rendimiento de extracción de datos, pero la desventaja es que los activadores deben establecerse en la base de datos empresarial, lo que tiene un cierto impacto en el rendimiento del sistema empresarial.
b Marca de tiempo: Es un método de captura de datos incremental basado en la comparación de datos incrementales. Se agrega un campo de marca de tiempo a la tabla de origen y, cuando los datos de la tabla se actualizan y modifican en el sistema, se modifica el valor del campo de marca de tiempo. Al extraer datos, podemos decidir qué datos extraer comparando la hora del sistema y el valor del campo de marca de tiempo. Las marcas de tiempo de algunas bases de datos admiten la actualización automática, es decir, cuando cambian los datos de otros campos en la tabla, el valor del campo de marca de tiempo se actualiza automáticamente. Algunas bases de datos no admiten la actualización automática de marcas de tiempo, lo que requiere que el sistema empresarial actualice manualmente el campo de marca de tiempo al actualizar los datos comerciales. Al igual que el método de activación, el método de marca de tiempo tiene mejor rendimiento y la extracción de datos es relativamente clara y simple, pero también tiene un gran sesgo en el sistema empresarial (agregando campos de marca de tiempo adicionales), especialmente para aquellos que no admiten la actualización automática de marcas de tiempo. La base de datos requiere que el sistema empresarial realice operaciones adicionales de actualización de marcas de tiempo. Además, las operaciones de eliminación y actualización de datos antes de la marca de tiempo no se pueden capturar, lo que limita la precisión de los datos.
C. Comparación de tabla completa: el método típico de comparación de tabla completa es el código de verificación MD5. La herramienta ETL crea previamente una tabla temporal MD5 con una estructura similar para la tabla que se va a extraer. La tabla registra la clave principal de la tabla fuente y el código de verificación MD5 calculado en función de los datos de todos los campos. Cada vez que se extraen datos, el código de verificación MD5 se compara entre la tabla fuente y la tabla temporal MD5 para determinar si los datos en la tabla fuente se agregaron, modificaron o eliminaron, y el código de verificación MD5 se actualiza al mismo tiempo. . La ventaja del modo MD5 es que es menos intrusivo para el sistema fuente (solo es necesario crear una tabla MD5 temporal), pero las desventajas también son obvias. A diferencia de la notificación activa en los modos de activación y marca de tiempo, el modo MD5 compara pasivamente los datos de toda la tabla, lo que resulta en un rendimiento deficiente. Cuando no hay una clave principal o una columna única en la tabla y hay registros duplicados, el método MD5 es menos preciso.
D. Comparación de registros: determine los datos modificados analizando el registro de la propia base de datos. La tecnología de captura de datos de cambios (CDC) de Oracle es un ejemplo en este sentido. La función CDC se introdujo en la base de datos Oracle9i. Los CDC pueden ayudarlo a identificar los datos que han cambiado desde la última extracción. Con CDC, puede extraer datos al insertar, actualizar o eliminar la tabla de origen y guardar los datos modificados en la tabla de cambios de la base de datos. De esta manera, los datos modificados se pueden capturar y luego poner a disposición del sistema de destino de forma controlada mediante el uso de vistas de bases de datos. La arquitectura CDC se basa en el modelo editor/suscriptor. Los editores capturan datos de cambios y los proporcionan a los suscriptores. El suscriptor consume los datos de cambio obtenidos del editor. Normalmente, un sistema CDC tiene un editor y varios suscriptores. El editor primero debe identificar las tablas de origen necesarias para capturar los datos modificados. Luego captura los datos modificados y los guarda en una tabla de cambios creada especialmente. También permite a los suscriptores controlar el acceso a los datos cambiantes.
Los suscriptores necesitan conocer los datos cambiantes que les interesan. Es posible que los suscriptores no estén interesados en todos los datos publicados por el editor. Los suscriptores deben crear vistas de suscriptores para acceder a los datos de cambios autorizados por el editor. CDC se divide en modo síncrono y modo asíncrono. El modo síncrono captura datos de cambios en tiempo real y los almacena en una tabla de cambios. El editor y el suscriptor están en la misma base de datos. El modo asíncrono es una tecnología de replicación de streaming basada en Oracle.
Base de datos no relacional
Editar
Además de las bases de datos relacionales, las fuentes de datos para el procesamiento ETL también pueden ser archivos, como archivos txt o archivos excel. , archivos xml, etc. La extracción de datos de archivos es generalmente una extracción completa. Antes de la primera extracción, puede guardar la marca de tiempo del archivo o el código de verificación MD5 del archivo y compararlo la próxima vez que lo extraiga. Si son iguales, se puede ignorar la extracción.
Biblioteca general
Edición
DMCTextFilter es una biblioteca general desarrollada por HYFsoft para extraer texto sin formato. Este producto puede eliminar completamente información de control especial en varios datos de formato de documento u objetos OLE insertados, y extraer rápidamente información de datos de texto sin formato. Es conveniente para los usuarios administrar, editar, recuperar y explorar información de diversos recursos de datos literarios.
DMCTextFilter adopta conceptos de diseño avanzados multilenguaje, multiplataforma y multiproceso y admite sistemas multilingües (inglés, chino simplificado, chino tradicional, japonés, coreano) y multioperativos (Windows, Solaris). , Linux, IBM AIX, Macintosh, HP-UNIX), codificación de conjuntos de caracteres múltiples (GBK, GB18030, Big5, ISO-8859-1, KS X 1001, Shift_JIS) proporcionan varias formas de interfaces de funciones API (función de reconocimiento de formato de archivo, función de extracción de texto, función de extracción de atributos de archivo, función de extracción de página, función de extracción de texto para archivos PDF con contraseñas de usuario configuradas, etc.) para comodidad del usuario. Los usuarios pueden ensamblar fácilmente este producto en sus propias aplicaciones para desarrollo secundario. Al llamar a la interfaz de función API proporcionada por este producto, puede extraer rápidamente datos de texto sin formato a partir de datos en varios formatos de documentos. Este producto ha sido ampliamente utilizado en el país y en el extranjero y ha sido muy elogiado por los usuarios en términos de rendimiento y calidad del producto.
1.? Función de identificación automática del formato de archivo
Este producto puede identificar automáticamente el nombre de la aplicación y el número de versión del archivo generado analizando la información dentro del archivo, y puede identificar correctamente el formato del archivo y la información de la versión correspondiente sin depender del extensión de archivo. Los formatos de archivo reconocidos son los siguientes: Microsoft Office, RTF, PDF, Visio, Outlook EML y MSG, Lotus1-2-3, HTML, AutoCAD DXF y DWG, IGES, PageMaker, ClarisWorks, AppleWorks, XML, WordPerfect, Mac Write, Works. , presentación de Corel, QuarkXpress, DocuWorks, WPS, LZH/ZIP/RAR, Itaro, OASYS y otros formatos de archivo para archivos comprimidos.
2.? Función de extracción de texto
Incluso si la aplicación de archivos no está instalada en el sistema, los datos de texto se pueden extraer del archivo especificado o se puede insertar OLE en el archivo.
3.? Función de extracción de atributos de archivo
Extrae información de atributos de archivo del archivo especificado.
4.? Función de extracción de páginas
Extrae datos de texto en páginas específicas de archivos.
5.? Función de extracción de texto para archivos PDF cifrados
Extraiga datos de texto de archivos PDF usando una contraseña para abrir el documento.
6.? Función de extracción de secuencia
Extrae datos de texto en el archivo especificado u objetos OLE incrustados en el archivo en la secuencia.
7.? Idiomas admitidos
Este producto admite los siguientes idiomas: inglés, chino simplificado, chino tradicional, japonés y coreano.
8.? Tipos de juegos de caracteres admitidos
Al extraer texto, puede especificar los siguientes juegos de caracteres para que coincidan con el juego de caracteres utilizado como archivo de texto (también puede especificar cualquier juego de caracteres especial, pero debe personalizarse y desarrollarse). por separado): GBK, GB18030, Big5, ISO-8859-1, KSX 101, Shift_JIS, Windows 36538. ISO-10646-UCS-2, ISO-10646-UCS-4, UTF-16, UTF-8, etc. ? [1]?
Datos de referencia