¿Cuál es la historia del desarrollo de bases de datos?

Desde su nacimiento hasta el presente, en menos de medio siglo, la tecnología de bases de datos ha formado una base teórica sólida, productos comerciales maduros y una amplia gama de campos de aplicación, lo que atrae cada vez a más investigadores. El nacimiento y desarrollo de las bases de datos ha supuesto una gran revolución en la gestión de la información informática. Durante los últimos 30 años, se han desarrollado y construido miles de bases de datos en el país y en el extranjero, convirtiéndose en la infraestructura para el trabajo, la producción y la vida diaria de empresas, departamentos e incluso individuos. Al mismo tiempo, con la expansión y profundización de las aplicaciones, el número y la escala de las bases de datos también están aumentando, y el campo de investigación de las bases de datos también se ha ampliado y profundizado enormemente. En los últimos 30 años, el campo de las bases de datos ha ganado tres premios Computer Turing (C.W. Bachman, E.F. Codd, J. Gray), lo que demuestra plenamente que las bases de datos son un campo lleno de vitalidad y espíritu innovador. Sigamos el desarrollo de las bases de datos a lo largo de la trayectoria histórica.

1. Una breve historia del desarrollo de las bases de datos

1. El nacimiento de la gestión de datos

La historia de las bases de datos se remonta a hace cincuenta años, cuando los datos La gestión fue muy sencilla. Los datos se procesan a través de una amplia gama de máquinas que clasifican, comparan y tabulan, procesan millones de tarjetas perforadas e imprimen los resultados en papel o fabrican nuevas tarjetas perforadas. La gestión de datos es el almacenamiento físico y el procesamiento de todas estas tarjetas perforadas.

Sin embargo, en 1951, una computadora de Remington Rand Corporation llamada Univac I introdujo una unidad de cinta que podía ingresar cientos de registros en un segundo, lo que provocó una revolución en la gestión de datos de campo. 1956 IBM produce la primera unidad de disco, el modelo 305 RAMAC. La unidad tiene 50 discos, cada uno de 2 pies de diámetro y puede almacenar 5 MB de datos. La mayor ventaja de utilizar discos es que se puede acceder a los datos de forma aleatoria, mientras que las tarjetas perforadas y las cintas sólo pueden acceder a los datos de forma secuencial.

1951: El sistema Univac utiliza cinta magnética y tarjetas perforadas para el almacenamiento de datos.

Las semillas de los sistemas de bases de datos aparecieron en la década de 1960. En ese momento, las computadoras comenzaron a usarse ampliamente en la gestión de datos, lo que planteaba requisitos cada vez más altos para el disfrute de los datos. Los sistemas de archivos tradicionales ya no pueden satisfacer las necesidades de las personas. Surgieron sistemas de gestión de bases de datos que pueden gestionar y compartir datos de manera uniforme. El modelo de datos es el núcleo y la base del sistema de base de datos, y varios software DBMS se basan en un determinado modelo de datos. Por tanto, según las características del modelo de datos, los sistemas de bases de datos tradicionales suelen dividirse en tres categorías: bases de datos en red, bases de datos jerárquicas y bases de datos relacionales.

Apareció el primer DBMS de red, que fue el IDS (Integrated DataStore) desarrollado con éxito por Bachman y otros de General Electric Company en Estados Unidos en 1961. En 1961, Charles Bachman de General Electric Company en los Estados Unidos desarrolló con éxito el primer DBMS de malla del mundo y el primer sistema de gestión de bases de datos: DataStore IDS integrado, que sentó las bases para las bases de datos de malla y se distribuyó y utilizó ampliamente en ese momento. IDS tiene las características de esquema y registro de datos. Pero solo se puede ejecutar en el host GE, la base de datos tiene un solo archivo y todas las tablas de la base de datos deben codificarse y generarse manualmente.

Después, el cliente de GE, BF Goodrich Chemical, tuvo que reescribir todo el sistema. El sistema reescrito se denominó Sistema Integrado de Gestión de Datos (IDMS).

El modelo de base de datos en malla puede modelar naturalmente elementos tanto jerárquicos como no jerárquicos. Antes de la llegada de las bases de datos relacionales, los DBMS de red se utilizaban más que los DBMS jerárquicos. En la historia del desarrollo de bases de datos, las bases de datos en red ocupan una posición importante.

Después del sistema de gestión de bases de datos jerárquicas se encuentra la base de datos en red. El sistema de base de datos jerárquico más famoso y típico es el IMS (Sistema de gestión de información) desarrollado por IBM en 1968, que es una base de datos jerárquica adecuada para su mainframe. Este es el primer producto de programa de sistema de base de datos a gran escala desarrollado por IBM. Se produjo a fines de la década de 1960 y ahora se ha desarrollado para IMSV6, brindando soporte para funciones avanzadas como agrupación en clústeres, intercambio de datos de N vías y uso compartido de colas de mensajes. Este producto de base de datos de 30 años desempeña un nuevo papel en las aplicaciones de conectividad de aplicaciones WWW y de inteligencia empresarial de hoy.

En 1973, Cullinane Company (más tarde Cullinet Software Company) comenzó a vender una versión mejorada del IDMS de Goodrich y gradualmente se convirtió en la empresa de software más grande del mundo en ese momento.

2. El origen de las bases de datos relacionales

Las bases de datos en red y las bases de datos jerárquicas han resuelto bien los problemas de concentración e intercambio de datos, pero aún carecen de independencia y abstracción de los datos. Cuando los usuarios acceden a estas dos bases de datos, aún deben aclarar la estructura de almacenamiento de los datos e indicar la ruta de acceso. La aparición posterior de bases de datos relacionales resolvió muy bien estos problemas.

En 1970, el investigador de IBM Dr. E.F. Codd publicó un artículo titulado "Modelo relacional de datos para grandes bases de datos compartidas" en la revista "Communications" de ACM, proponiendo el concepto de modelo relacional y sentando las bases para el desarrollo teórico. Fundamentos del modelo relacional. Aunque Childs propuso el modelo orientado a conjuntos en 1968, este artículo generalmente se considera un hito que marcó una época en la historia de los sistemas de bases de datos. El deseo de Codd es construir un hermoso modelo de datos para la base de datos. Más tarde, Codd publicó muchos artículos uno tras otro, discutiendo la teoría del paradigma y 12 estándares para medir sistemas relacionales, y utilizó la teoría matemática para sentar las bases de las bases de datos relacionales. El modelo relacional tiene una base matemática estricta, es muy abstracto, simple y claro, y fácil de entender y usar. Pero en ese momento, algunas personas creían que el modelo relacional era un modelo de datos idealizado y que no era realista usarlo para implementar un DBMS. Estaban particularmente preocupados de que el rendimiento de la base de datos relacional fuera inaceptable. grave amenaza para la estandarización en curso de las bases de datos en malla. Para promover la comprensión del problema, en 1974 la ACM dirigió un simposio en el que se llevó a cabo un debate entre las facciones a favor y en contra de las bases de datos relacionales, lideradas por Codd y Bachman respectivamente. Este famoso debate impulsó el desarrollo de bases de datos relacionales y finalmente las convirtió en la corriente principal de los productos de bases de datos modernos.

1969: Edgar F. "Ted" Codd inventa la base de datos relacional.

Después del establecimiento del modelo relacional en 1970, IBM incorporó más investigadores al laboratorio de San José para estudiar este proyecto, también conocido como System R. Su objetivo es demostrar la viabilidad de un DBMS relacional completamente funcional. El proyecto finalizó en 1979 con la finalización del primer DBMS que implementaba SQL. Sin embargo, el compromiso de IBM con IMS impidió que System R se pusiera en producción. No fue hasta 1980 que System R se lanzó oficialmente al mercado como producto. Hay tres razones para el lento ritmo de producción de IBM: IBM valora la credibilidad, la calidad y la minimización de fallas; IBM es una gran empresa con una enorme burocracia. IBM ya tiene productos de bases de datos jerárquicos, pero el personal relevante no está activo o incluso se opone.

Pero al mismo tiempo, en 1973, Michael Stonebraker y Eugene Wong de la Universidad de California, Berkeley, comenzaron a desarrollar su propia base de datos relacional utilizando la información publicada por System R. System Ingres, el proyecto Ingres. que desarrollaron fue finalmente comercializado por Oracle, Ingres y otros fabricantes en Silicon Valley. Más tarde, tanto System R como Ingres ganaron el "Premio al sistema de software" de 1988 otorgado por ACM.

De 65438 a 0976, Honeywell desarrolló el primer sistema de base de datos relacional comercial: el almacenamiento de datos relacionales Multics. Los sistemas de bases de datos relacionales se basan en álgebra relacional. Después de décadas de desarrollo y aplicación práctica, la tecnología se ha vuelto cada vez más madura y perfecta. Sus productos representativos incluyen Oracle, DB2 de IBM, MS SQL Server de Microsoft, Informix, ADABASD, etc.

3. Lenguaje de consulta estructurado (SQL)

En 1974, Ray Boyce y Don Chamberlin de IBM utilizaron una gramática de palabras clave simple para expresar la definición matemática de los 12 criterios de Codd para bases de datos relacionales. propuso SQL (lenguaje de consulta estructurado) como un hito. Las funciones del lenguaje SQL incluyen consulta, operación, definición y control. Es un lenguaje de base de datos relacional general y completo, y también es un lenguaje altamente no procedimental. Solo requiere que el usuario diga qué hacer sin decir cómo hacerlo. La integración SQL implementa todas las operaciones en el ciclo de vida de la base de datos.

SQL proporciona una forma de interactuar con bases de datos relacionales que funciona con lenguajes de programación estándar. Desde su nacimiento, el lenguaje SQL se ha convertido en una piedra de toque para probar bases de datos relacionales. Cada cambio en el estándar del lenguaje SQL guía la dirección de desarrollo de los productos de bases de datos relacionales. Sin embargo, no fue hasta mediados de la década de 1970 que la teoría relacional se utilizó en las bases de datos comerciales Oracle y DB2 vía SQL.

En 1986, ANSI adoptó SQL como estándar americano para lenguajes de bases de datos relacionales y publicó el texto SQL estándar ese mismo año. Actualmente, existen tres versiones del estándar SQL. La definición básica de SQL es ANXIX 3135-89, "SQL mejorado con integridad del lenguaje de base de datos" [ANS 89], comúnmente conocido como SQL-89. SQL-89 define la definición de esquemas, las operaciones de datos y el procesamiento de transacciones. SQL-89 y el posterior ANXIX 3168-1989, "Lenguaje de base de datos - SQL incorporado" constituyeron la primera generación de estándares SQL. ansix 3135-1992 [ANS 92] describe un SQL mejorado, ahora conocido como estándar SQL-92. SQL-92 incluye funciones mejoradas como manipulación de esquemas, creación dinámica y ejecución dinámica de sentencias SQL y soporte de entorno de red. Después de completar el estándar SQL-92, ANSI e ISO comenzaron a cooperar para desarrollar el estándar SQL3. La característica principal de SQL3 es su soporte para tipos de datos abstractos, lo que proporciona un estándar para una nueva generación de bases de datos relacionales de objetos.

4. Base de datos orientada a objetos

Con el desarrollo de la tecnología de la información y el mercado, la gente ha descubierto que aunque la tecnología del sistema de base de datos relacional ha madurado, sus limitaciones también son obvias: Puede manejar muy bien los llamados "datos tabulares", pero no hace mucho con los tipos de datos cada vez más complejos que están surgiendo en el mundo de la tecnología. Desde la década de 1990, la comunidad técnica ha estado investigando y buscando nuevos sistemas de bases de datos. Sin embargo, la industria alguna vez estuvo bastante confundida en cuanto a la dirección de desarrollo del nuevo sistema de base de datos. Afectadas por las tendencias tecnológicas de la época, la gente dedicaba mucha energía a la investigación de "sistemas de bases de datos orientados a objetos" o, para abreviar, "sistemas de bases de datos orientados a objetos". Vale la pena mencionar que la teoría de la base de datos relacional orientada a objetos propuesta por el profesor estadounidense Stonebraker alguna vez fue favorecida por la industria. En ese momento, Informix contrató al propio Stonebraker como director de tecnología por un alto precio.

Sin embargo, varios años de desarrollo han demostrado que el desarrollo del mercado de productos de sistemas de bases de datos relacionales orientados a objetos no es ideal. La mejora teórica no provocó una respuesta entusiasta del mercado. La razón principal de su fracaso es que la idea principal de diseño de este producto de base de datos es intentar reemplazar el sistema de base de datos existente con un nuevo sistema de base de datos. Para muchos clientes, especialmente los grandes, que han utilizado sistemas de bases de datos durante muchos años y han acumulado una gran cantidad de datos de trabajo, la enorme carga de trabajo y los gastos causados por la conversión de datos antiguos y nuevos son insoportables. Además, los sistemas de bases de datos relacionales orientados a objetos hacen que los lenguajes de consulta sean extremadamente complejos, lo que hace que las tecnologías de aplicaciones complejas sean un camino desalentador tanto para los desarrolladores de bases de datos como para los clientes de aplicaciones.

5. Cambios en la gestión de datos

A finales de la década de 1960, surgió un nuevo software de base de datos: el sistema de soporte de decisiones (DSS), que fue diseñado para permitir a los gerentes tomar decisiones más efectivas. uso de la información de datos en el proceso. Así, en 1970 nació Express, la primera herramienta de análisis y procesamiento en línea. Siguieron otros sistemas de apoyo a la toma de decisiones, muchos de ellos desarrollados por los departamentos de TI de las empresas.

En 1985 se desarrolló el primer sistema de inteligencia empresarial como Procter & Ese mismo año, Pilot Software comenzó a vender Command Center, el primer sistema comercial de información de ejecución cliente/servidor.

También este año, el proyecto Ingres de la Universidad de California, Berkeley, evolucionó a Postgres, con el objetivo de desarrollar una base de datos orientada a objetos. Al año siguiente, Graphael desarrolló el primer sistema de base de datos de objetos comerciales: Gbase.

En 1988, los investigadores de IBM Barry Devlin y Paul Murphy inventaron un nuevo término: almacén de información. Después de eso, los proveedores de TI comenzaron a construir almacenes de datos experimentales.

En 1991, W.H. "Bill" Inmon publicó el libro "Cómo construir un almacén de datos", que hizo que el almacén de datos realmente comenzara a utilizarse.

1991: W.H. "Bill" publicó "Building Data Warehouses" el lunes.

En la década de 1990, con la adopción generalizada de modelos informáticos cliente/servidor basados en PC y paquetes de software empresarial, la transformación de la gestión de datos prácticamente se completó. La gestión de datos ya no se trata solo de almacenar y gestionar datos, sino que se ha transformado en varios métodos de gestión de datos que los usuarios necesitan. El repentino auge de Internet y la aparición del lenguaje XML han abierto un nuevo mundo para el desarrollo de sistemas de bases de datos.

5. Grandes acontecimientos en el desarrollo de bases de datos

1951: El sistema Univac utiliza cinta magnética y tarjetas perforadas para el almacenamiento de datos.

1956: IBM presenta la primera unidad de disco en su Modelo 305 RAMAC.

1961: Charles Buckman de General Electric desarrolla el primer sistema de gestión de bases de datos, IDS.

1969: CODD inventó la base de datos relacional.

1973: Cullinane Company, dirigida por John J. Cullinane, desarrolló una base de datos IDMS basada en un modelo de red para el mainframe IBM.

1976: Honeywell lanza el almacenamiento de datos relacionales Multics, el primer producto comercial de base de datos relacional.

1979: Oracle lanza el primer sistema comercial de gestión de bases de datos relacionales SQL.

1983: IBM lanza el producto de base de datos DB2.

1985: Nace Proctor&;el primer sistema de inteligencia empresarial diseñado por Gamble System.

1991: W.H. "Bill" publicó "Building Data Warehouses" el lunes.

上篇: Estudiante de posgrado en análisis de datos 下篇: El significado de la esperanza