1. Fuente de la pregunta:
Esta pregunta proviene de dos hechos que el autor aprendió en su estudio y práctica, y es una pregunta hecha por él mismo.
1. El autor realizó una investigación en XXX Company en julio de 2011 y descubrió que todas las industrias se enfrentan a un fuerte aumento en el volumen de datos, lo que ha provocado problemas como una velocidad de procesamiento empresarial lenta y dificultades en el mantenimiento de los datos. Para hacer frente a este desafío, muchas empresas han implementado estrategias de desarrollo de big data. Las estrategias actuales de desarrollo de big data se pueden resumir en dos categorías. Una es la expansión vertical.
Es decir, utilizar equipos con mayor capacidad de almacenamiento y mayor poder de procesamiento es muy costoso. En el pasado, muchas grandes empresas han estado utilizando este método para procesar big data. Sin embargo, desde que Google publicó tres artículos técnicos sobre GFS, MapReduce y BigTable en 2004, la computación en la nube comenzó a aumentar y el proyecto Apache Hadoop se lanzó en 2006.
Desde 2009, con el desarrollo de la computación en la nube y el big data, Hadoop, como excelente solución de análisis y procesamiento de datos, ha atraído la atención de muchas empresas de TI. En comparación con el costoso costo de la expansión vertical, la gente prefiere adoptar este método de expansión horizontal integrando recursos informáticos baratos. Por lo tanto, muchas empresas de TI comenzaron a explorar el marco Hadoop para construir su propio entorno de big data.
En segundo lugar, el autor aprendió además durante mi pasantía en XXX en abril de 2013 que la mayoría de los entornos de aplicaciones de big data actualmente utilizan bases de datos no estructuradas, como Hbase para el almacenamiento de columnas y MangoDB para el almacenamiento de documentos. .
Estas bases de datos no estructuradas se han utilizado ampliamente en entornos de aplicaciones de big data debido a su gran escalabilidad, alta utilización de recursos, alta concurrencia y rápida velocidad de respuesta. Pero esta aplicación sólo resuelve el procesamiento empresarial front-end. Para utilizar big data para lograr inteligencia empresarial, es necesario proporcionar un entorno de datos (almacén de datos) para sistemas de soporte de decisiones y aplicaciones de análisis en línea. Por lo tanto, el instructor guió al autor para formular este tema y estudiar una solución de almacenamiento de datos basada en el marco Hadoop.
2. Propósito y significado de la investigación:
Hoy en día, los datos han penetrado en todas las industrias y se han convertido en un importante factor de producción. En los últimos años, debido a la acumulación histórica y al crecimiento acelerado de los datos, todas las industrias se enfrentan a problemas de big data. De hecho, el big data es a la vez una oportunidad y un desafío. Hacer un uso completo de los big data y transformarlos en activos de información masivos, de alto crecimiento y diversificados permitirá a las empresas tener capacidades más sólidas para la toma de decisiones, el conocimiento, el descubrimiento y la optimización de procesos.
Por lo tanto, muchas empresas de TI consideran el big data como su importante estrategia de desarrollo. Por ejemplo, Amazon y Facebook han implementado la industria de big data y han logrado resultados notables. De hecho, no sólo las grandes empresas de Internet como Google, eBay o Amazon necesitan desarrollar big data, sino que las empresas de cualquier tamaño tienen la oportunidad de obtener ventajas de big data, sentando así la base para sus futuros análisis comerciales y ganando competencia con sus Compañeros. Ventajas significativas.
En comparación con las grandes empresas, las pequeñas y medianas empresas tienen diferentes estrategias de desarrollo de big data. Las grandes empresas pueden confiar en su sólida fortaleza financiera y técnica para desarrollar sus propias plataformas de software basadas en su propio entorno y negocio. Las pequeñas y medianas empresas no tienen tanta solidez técnica ni tanta inversión de capital, por lo que prefieren elegir soluciones de uso general y relativamente baratas.
Este artículo tiene como objetivo analizar las características de la base de datos en el entorno de big data, combinadas con el actualmente popular marco Hadoop, para proponer e implementar una solución de almacenamiento de datos adecuada para el entorno de big data. Proporcionar referencia para que las pequeñas y medianas empresas creen un almacén de datos en un entorno de big data. Específicamente, tiene los siguientes tres significados:
En primer lugar, las bases de datos convencionales actuales, como Oracle y SQL Server, tienen un conjunto completo de soluciones de almacenamiento de datos correspondientes a sus propias plataformas de bases de datos. Para otras bases de datos relacionales como MySQL, aunque no existe una solución de almacenamiento de datos correspondiente a la plataforma de base de datos, existen muchas soluciones de almacenamiento de datos integradas.
Para las bases de datos no estructuradas, se necesitan nuevas soluciones porque sus modelos de datos son diferentes de las bases de datos relacionales. El plan de implementación del almacén de datos basado en Hive/Pentaho propuesto en este artículo puede proporcionar una referencia para TI.
En segundo lugar, al integrar bases de datos no estructuradas de múltiples fuentes, se puede generar un almacén de datos integrado y orientado a temas, que puede proporcionar un entorno de datos para el procesamiento de transacciones en línea y el soporte de decisiones en la plataforma de big data, logrando así de manera efectiva utilizar datos. Los recursos ayudan a tomar decisiones de gestión.
En tercer lugar, big data es un concepto amplio que incluye detalles técnicos en todos los niveles, como el almacenamiento de big data, la computación de big data y el análisis de big data. La "solución de almacenamiento de datos e implementación en el entorno de big data" propuesta en este artículo enriquece el entorno ecológico de la tecnología de aplicación de big data y brinda soporte para el análisis y la extracción de datos en el entorno de big data.
3. Describa brevemente el estado actual de la investigación y las tendencias de desarrollo en el país y en el extranjero:
El cuerpo principal de este artículo es el almacén de datos, que es diferente del almacén de datos tradicional. sobre bases de datos relacionales. Este artículo estudia principalmente la construcción e implementación de un almacén de datos basado en bases de datos no estructuradas en un entorno de big data. Por lo tanto, es necesario elaborar a partir de los dos aspectos del almacén de datos y la base de datos en el entorno de big data.
(1) Estado de la investigación sobre el almacén de datos en el país y en el extranjero:
Desde que Bill Enmen propuso el concepto de "almacén de datos" en 1990, la tecnología del almacén de datos comenzó a aumentar, aportando grandes beneficios. beneficios para la sociedad. Ha traído nuevas oportunidades y gradualmente se ha convertido en un importante punto de acceso tecnológico. Actualmente, entre 30 y 40 empresas en Estados Unidos han establecido o están en proceso de establecer almacenes de datos. Hoy en día, con la mejora de la teoría de los modelos de datos, el avance continuo de la tecnología de bases de datos, el desarrollo de aplicaciones y la tecnología de minería, la tecnología de almacenamiento de datos continúa desarrollándose y desempeña un papel muy importante en las aplicaciones prácticas.
Los sistemas de soporte a la toma de decisiones basados en almacenes de datos, procesamiento analítico en línea y herramientas de minería de datos están cada vez más maduros. Al mismo tiempo, los enormes beneficios del uso de almacenes de datos han estimulado la demanda de tecnología de almacenamiento de datos y el mercado de almacenes de datos se está desarrollando rápidamente.
La informatización empresarial de mi país comenzó relativamente tarde y el desarrollo de la tecnología de almacenamiento de datos en nuestro país aún se encuentra en la etapa de acumulación de experiencia. Aunque en los últimos años, las grandes y medianas empresas nacionales se han dado cuenta gradualmente de la importancia de utilizar la tecnología de almacenamiento de datos y han comenzado a establecer sus propios sistemas de almacenamiento de datos, como China Mobile, China Telecom, China Unicom, Shanghai Stock Exchange, PetroChina, etc. .
Pero en general, es necesario cultivar más el mercado de almacenamiento de datos de China y todavía existe una gran brecha entre la tecnología de almacenamiento de datos y los países extranjeros. Con este fin, mucho personal científico y técnico en China ha comenzado a realizar investigaciones en profundidad sobre tecnologías relacionadas con el almacenamiento de datos y, al absorber y aprender de tecnologías extranjeras, han propuesto soluciones técnicas adecuadas para las necesidades nacionales.
(2) Estado de la investigación de bases de datos no agregadas en el país y en el extranjero:
Con la aplicación profunda de la tecnología de bases de datos en diversos campos, las bases de datos estructuradas han mostrado gradualmente algunas desventajas. Por ejemplo, en los campos de la biología, la geografía, el clima, etc., las estructuras de datos a las que se enfrenta la investigación no son estructuras de datos relacionales tradicionales. Si utiliza una base de datos relacional para almacenarla y mostrarla, debe convertirla desde su propia estructura de datos a una estructura de datos relacional.
Al procesar datos no estructurados de esta manera, es imposible gestionar datos no relacionales durante todo el ciclo de vida y la relación entre los datos no se puede expresar completamente. En este contexto surgieron las bases de datos no estructuradas. En comparación con las bases de datos relacionales, las bases de datos no estructuradas tienen campos de longitud variable y los registros de cada campo pueden estar compuestos por subcampos repetibles o no repetibles.
Esto no solo procesa datos estructurados, sino también datos no estructurados como texto, imágenes, sonidos, películas e hipermedia. En los últimos años, con el auge de big data, las bases de datos no estructuradas se han utilizado ampliamente para respaldar diversos datos estructurados en el procesamiento de big data.
En la actualidad, existen muchos tipos de bases de datos no estructuradas, incluidas bases de datos en memoria, bases de datos de almacenamiento de columnas, bases de datos de documentos, bases de datos de gráficos, etc. Entre ellas, las bases de datos en memoria comunes incluyen SQLite, Redis, Altibase, etc. Las bases de datos de almacenamiento de columnas incluyen Hbase, Bigtable, etc. Las bases de datos de documentos incluyen MangoDB, CouchDB, RavenDB, etc. Las bases de datos de gráficos incluyen cuadráticas, etc.
En los últimos años, las bases de datos no estructuradas de China también se han desarrollado hasta cierto punto, la más representativa de las cuales es la base de datos iBASE de Guoxin Base. Es previsible que en un futuro próximo, con la aplicación de este big data, se desarrollen mucho y se utilicen ampliamente las bases de datos no estructuradas.