El nacimiento de la gestión de datos
La historia de las bases de datos se remonta a hace cincuenta años, cuando la gestión de datos era muy sencilla. Los datos se procesan a través de una amplia gama de máquinas que clasifican, comparan y tabulan, procesan millones de tarjetas perforadas e imprimen los resultados en papel o fabrican nuevas tarjetas perforadas. La gestión de datos es el almacenamiento físico y el procesamiento de todas estas tarjetas perforadas. Sin embargo, en 1950, una computadora de Remington Rand Corporation llamada Univac I lanzó una unidad de cinta que podía ingresar cientos de registros en un segundo, lo que provocó una revolución en la gestión de datos. 1956 IBM produce la primera unidad de disco, el modelo 305 RAMAC. La unidad tiene 50 discos, cada uno de 2 pies de diámetro y puede almacenar 5 MB de datos. La mayor ventaja de utilizar discos es que se puede acceder a los datos de forma aleatoria, mientras que las tarjetas perforadas y las cintas sólo pueden acceder a los datos de forma secuencial.
1951: El sistema Univac utiliza cinta magnética y tarjetas perforadas para el almacenamiento de datos.
Las semillas de los sistemas de bases de datos aparecieron en la década de 1960. En ese momento, las computadoras comenzaron a usarse ampliamente en la gestión de datos, lo que planteaba requisitos cada vez más altos para el intercambio de datos. Los sistemas de archivos tradicionales ya no pueden satisfacer las necesidades de las personas y han surgido sistemas de gestión de bases de datos (DBMS) que pueden gestionar y compartir datos de manera uniforme. El modelo de datos es el núcleo y la base del sistema de base de datos, y varios software DBMS se basan en un determinado modelo de datos. Por tanto, según las características del modelo de datos, los sistemas de bases de datos tradicionales suelen dividirse en tres categorías: bases de datos en red, bases de datos jerárquicas y bases de datos relacionales.
El primer DBMS de malla fue el IDS (Integrated Data Storage) desarrollado por Bachman y otros de General Electric Company en los Estados Unidos en 1961. En 1964, Charles Bachman de General Electric Company desarrolló con éxito el primer DBMS en malla del mundo, el primer sistema de gestión de bases de datos: el IDS de almacenamiento de datos integrado, que sentó las bases para las bases de datos en malla que se difundieron y utilizaron ampliamente en ese momento. IDS tiene funciones de registro y esquema de datos, pero solo puede ejecutarse en el host GE. La base de datos tiene un solo archivo y todas las tablas de la base de datos deben codificarse y generarse manualmente. Más tarde, uno de los clientes de GE, BF Goodrich Chemical Company, acabó teniendo que reescribir todo el sistema y llamó al sistema reescrito Sistema Integrado de Gestión de Datos (IDMS).
El modelo de base de datos en malla puede modelar naturalmente elementos tanto jerárquicos como no jerárquicos. Antes de la llegada de las bases de datos relacionales, los DBMS de red se utilizaban más ampliamente que los DBMS jerárquicos. En la historia del desarrollo de bases de datos, las bases de datos en red ocupan una posición importante.
El DBMS jerárquico aparece después de las bases de datos de red. El sistema de base de datos jerárquico más famoso y típico es el IMS (Sistema de gestión de información) desarrollado por IBM en 1968, que es una base de datos jerárquica adecuada para su host. Este es el primer producto de programa de sistema de base de datos a gran escala desarrollado por IBM. Se produjo a fines de la década de 1960 y ahora se ha desarrollado para IMSV6, brindando soporte para funciones avanzadas como agrupación en clústeres, intercambio de datos de N vías y uso compartido de colas de mensajes. Este producto de base de datos de 30 años desempeña un nuevo papel en las aplicaciones de conectividad de aplicaciones WWW y de inteligencia empresarial de hoy.
En 1973, Cullinane Company (más tarde Cullinet Software Company) comenzó a vender una versión mejorada del IDMS de Goodrich y gradualmente se convirtió en la empresa de software más grande del mundo en ese momento. Las bases de datos en red y las bases de datos jerárquicas han resuelto bien el problema de la centralización y el intercambio de datos, pero aún carecen de independencia de datos y nivel de abstracción. Cuando los usuarios acceden a estas dos bases de datos, aún necesitan aclarar la estructura de almacenamiento de los datos e indicar la ruta de acceso. La aparición posterior de bases de datos relacionales resolvió muy bien estos problemas.
En 1970, el investigador de IBM Dr. E.F. Codd publicó un artículo titulado "Modelo relacional de datos para grandes bases de datos compartidas" en la revista "Communications" de ACM, proponiendo el concepto de modelo relacional y sentando las bases para el desarrollo teórico. Fundamentos del modelo relacional. Aunque Childs propuso el modelo orientado a conjuntos en 1968, este artículo generalmente se considera un hito que marcó una época en la historia de los sistemas de bases de datos. El deseo de Codd es construir un hermoso modelo de datos para la base de datos. Más tarde, Codd publicó muchos artículos uno tras otro, discutiendo la teoría del paradigma y 12 estándares para medir sistemas relacionales, y utilizó la teoría matemática para sentar las bases de las bases de datos relacionales. El modelo relacional tiene una base matemática estricta, es muy abstracto, simple y claro, y fácil de entender y usar. Pero en ese momento, algunas personas creían que el modelo relacional era un modelo de datos idealizado y no era realista usarlo para implementar un DBMS. Estaban particularmente preocupados de que el rendimiento de la base de datos relacional fuera inaceptable. una seria amenaza para la estandarización en curso de las bases de datos en malla. Para promover la comprensión del problema, en 1974 la ACM dirigió un simposio en el que se llevó a cabo un debate entre las facciones a favor y en contra de las bases de datos relacionales, lideradas por Codd y Bachman respectivamente. Este famoso debate impulsó el desarrollo de bases de datos relacionales y finalmente las convirtió en la corriente principal de los productos de bases de datos modernos.
En 1969 Edgar CODD inventó la base de datos relacional.
Después del establecimiento del modelo relacional en 1970, IBM incorporó más investigadores al laboratorio de San José para estudiar este proyecto, también conocido como System R. Su objetivo es demostrar la viabilidad de un DBMS relacional completamente funcional. El proyecto finalizó en 1979 con la finalización del primer DBMS que implementaba SQL. Sin embargo, el compromiso de IBM con IMS impidió que System R se pusiera en producción. No fue hasta 1980 que System R se lanzó oficialmente al mercado como producto. Hay tres razones para el lento ritmo de producción de IBM: IBM otorga gran importancia a la credibilidad, la calidad y la minimización de fallas; IBM es una gran empresa con una enorme burocracia. IBM ya tiene productos de bases de datos jerárquicos, pero el personal relevante no está activo o incluso se opone.
Pero al mismo tiempo, en 1973, Michael Stonebraker y Eugene Wong de la Universidad de California, Berkeley, comenzaron a desarrollar su propia base de datos relacional utilizando la información publicada por System R. System Ingres, el proyecto Ingres. que desarrollaron fue finalmente comercializado por Oracle, Ingres y otros fabricantes en Silicon Valley. Más tarde, tanto System R como Ingres ganaron el "Premio al sistema de software" de 1988 otorgado por ACM.
Del 65438 al 0976, Honeywell desarrolló el primer sistema de base de datos relacional comercial: el almacenamiento de datos relacional Multics. Los sistemas de bases de datos relacionales se basan en álgebra relacional. Después de décadas de desarrollo y aplicación práctica, la tecnología se ha vuelto cada vez más madura y perfecta. Sus productos representativos incluyen Oracle, DB2 de IBM, MS SQL Server de Microsoft, Informix, ADABAS D, etc. En 1974, Ray Boyce y Don Chamberlin de IBM expresaron la definición matemática de los 12 criterios de Codd para bases de datos relacionales utilizando una gramática de palabras clave simple y propusieron SQL (lenguaje de consulta estructurado) como un hito. Las funciones del lenguaje SQL incluyen consulta, operación, definición y control. Es un lenguaje de base de datos relacional general y completo, y también es un lenguaje altamente no procedimental. Solo requiere que el usuario diga qué hacer, pero no cómo hacerlo. La integración SQL implementa todas las operaciones en el ciclo de vida de la base de datos. SQL proporciona una forma de interactuar con bases de datos relacionales que funciona con lenguajes de programación estándar. Desde su nacimiento, el lenguaje SQL se ha convertido en una piedra de toque para probar bases de datos relacionales. Cada cambio en el estándar del lenguaje SQL guía la dirección de desarrollo de los productos de bases de datos relacionales. Sin embargo, no fue hasta mediados de la década de 1970 que la teoría relacional se utilizó en las bases de datos comerciales Oracle y DB2 vía SQL.
En 1986, ANSI adoptó SQL como estándar americano para lenguajes de bases de datos relacionales y publicó el texto SQL estándar ese mismo año. Hay tres versiones del estándar SQL. La definición básica de SQL es ANS ⅸ 3135-89 "SQL mejorado con integridad del lenguaje de base de datos" [ANS 89], comúnmente conocido como SQL-89. SQL-89 define la definición de esquemas, las operaciones de datos y el procesamiento de transacciones. SQL-89 y posteriores ANS ⅸ 3168-1989, "Lenguaje de base de datos - SQL incorporado" constituyeron la primera generación de estándares SQL. ANSⅸ3135-1992 [ANS 92] describe un SQL mejorado llamado estándar SQL-92. SQL-92 incluye funciones mejoradas como manipulación de esquemas, creación dinámica y ejecución dinámica de sentencias SQL y soporte de entorno de red. Después de completar el estándar SQL-92, ANSI e ISO comenzaron a cooperar para desarrollar el estándar SQL3. La característica principal de SQL3 es su soporte para tipos de datos abstractos, lo que proporciona un estándar para una nueva generación de bases de datos relacionales de objetos.
En 1976, IBM E.F. Codd publicó un artículo histórico "R System: Database Relational Theory", que introdujo la teoría de la base de datos relacional y el lenguaje de consulta SQL. Ellison, el fundador de Oracle, leyó este artículo con mucha atención y quedó impactado por su contenido. Esta es la primera vez que alguien utiliza un enfoque integral y consistente para gestionar datos. El autor E.F. Codd publicó la teoría de las bases de datos relacionales en 1966 y desarrolló un prototipo en IBM Research. Este proyecto es un sistema R y el lenguaje utilizado para acceder a la tabla de datos es SQL. Después de leerlo, Ellison se dio cuenta de que se podían desarrollar sistemas de software basándose en esta investigación. En ese momento, la mayoría de la gente creía que las bases de datos relacionales no tendrían valor comercial. Ellison vio esto como su oportunidad: decidieron desarrollar un sistema de base de datos comercial de propósito general, Oracle, llamado así por un proyecto en el que habían trabajado para la CIA. Unos meses más tarde, desarrollaron Oracle 1.0. Pero es sólo un juguete. No pueden hacer nada más que completar consultas relacionales simples. Les llevó mucho tiempo hacer que Oracle estuviera disponible. El mantenimiento de las operaciones de la empresa se basa principalmente en la realización de algunos proyectos de gestión de bases de datos y trabajos de consultoría. Sin embargo, IBM no tiene planes de desarrollarlo. Hay muchas razones por las que Big Blue abandonó este producto valorado en decenas de miles de millones: los investigadores de IBM tienen en su mayoría formación académica y están más interesados en la teoría que en los productos comercializados. Desde una perspectiva académica, los resultados de la investigación deben publicarse públicamente. Los artículos y discursos pueden hacerlos famosos. ¿por qué no? Otra razón principal fue que IBM tenía un producto de base de datos jerárquico, IMS, que se vendía bien en ese momento. No fue hasta 1985 que IBM lanzó la base de datos relacional DB2 y Ellision ya se había convertido en multimillonario. Ellison comparó una vez la elección por parte de IBM del MS-DOS de Microsoft como sistema operativo del IBM-PC con: "el error más grave en la historia de los negocios mundiales, valorado en más de cientos de miles de millones de dólares, pero IBM publicó un artículo sobre el sistema R". no lo lanzó pronto. Los productos de bases de datos son probablemente los siguientes con más errores. La capitalización de mercado de Oracle alcanzó los 28 mil millones de dólares en 1996. Con el desarrollo de la tecnología y el mercado de la información, la gente ha descubierto que aunque la tecnología del sistema de base de datos relacional ha madurado, sus limitaciones también son obvias: puede manejar bien los llamados "datos tabulares", pero por el creciente número de problemas que surgen en En el campo técnico, no hay nada que pueda hacer con los tipos de datos complejos. Desde la década de 1990, la comunidad técnica ha estado investigando y buscando nuevos sistemas de bases de datos. Sin embargo, la industria alguna vez estuvo bastante confundida en cuanto a la dirección de desarrollo del nuevo sistema de base de datos. Afectadas por las tendencias tecnológicas de la época, la gente dedicaba mucha energía a la investigación de "sistemas de bases de datos orientados a objetos" o, para abreviar, "sistemas de bases de datos orientados a objetos". Vale la pena mencionar que la teoría de la base de datos relacional orientada a objetos propuesta por el profesor estadounidense Stonebraker alguna vez fue favorecida por la industria. En ese momento, Informix contrató al propio Stonebraker como director de tecnología por un alto precio.
Sin embargo, varios años de desarrollo han demostrado que el desarrollo del mercado de productos de sistemas de bases de datos relacionales orientados a objetos no es ideal. La mejora teórica no provocó una respuesta entusiasta del mercado.
La razón principal de su fracaso es que la idea principal de diseño de este producto de base de datos es intentar reemplazar el sistema de base de datos existente con un nuevo sistema de base de datos. Para muchos clientes, especialmente los grandes, que han utilizado sistemas de bases de datos durante muchos años y han acumulado una gran cantidad de datos de trabajo, la enorme carga de trabajo y los gastos causados por la conversión de datos antiguos y nuevos son insoportables. Además, los sistemas de bases de datos relacionales orientados a objetos hacen que los lenguajes de consulta sean extremadamente complejos, lo que hace que las tecnologías de aplicaciones complejas sean un camino desalentador tanto para los desarrolladores de bases de datos como para los clientes de aplicaciones. A finales de la década de 1960, apareció un nuevo software de base de datos, el sistema de apoyo a la decisión (DSS), cuyo objetivo era permitir a los administradores utilizar la información de los datos de manera más efectiva en el proceso de toma de decisiones. Así, en 1970 nació Express, la primera herramienta de análisis y procesamiento en línea. Siguieron otros sistemas de apoyo a la toma de decisiones, muchos de ellos desarrollados por los departamentos de TI de las empresas.
En 1985, el primer sistema de inteligencia empresarial fue desarrollado como Procter por Metaphor Computer Systems Ltd.; desarrollado por Gamble Corporation, se utilizó principalmente para conectar información de ventas y datos de escáneres minoristas. Ese mismo año, Pilot Software comenzó a vender Command Center, el primer sistema comercial de información de ejecución cliente/servidor. También este año, el proyecto Ingres de la Universidad de California, Berkeley, evolucionó a Postgres, con el objetivo de desarrollar una base de datos orientada a objetos. Al año siguiente, Graphael desarrolló el primer sistema de base de datos de objetos comerciales: Gbase.
En 1988, los investigadores de IBM Barry Devlin y Paul Murphy inventaron un nuevo término: almacén de información. Después de eso, los proveedores de TI comenzaron a construir almacenes de datos experimentales. En 1991, W.H. Bill Enmen publicó el libro "Cómo construir un almacén de datos", que hizo que el almacén de datos realmente comenzara a aplicarse.
1991: W.H. "Bill" publicó "Building Data Warehouses" el lunes.
En la década de 1990, con la adopción generalizada de modelos informáticos cliente/servidor basados en PC y paquetes de software empresarial, la transformación de la gestión de datos prácticamente se completó. La gestión de datos ya no se trata solo de almacenar y gestionar datos, sino que se ha transformado en varios métodos de gestión de datos que los usuarios necesitan. El repentino auge de Internet y la aparición del lenguaje XML han abierto un nuevo mundo para el desarrollo de sistemas de bases de datos.