Resumen del trabajo en la industria de big data durante los últimos dos años

Resumen del trabajo en la industria de big data en los últimos dos años

Hoy, reviso principalmente el trabajo de desarrollo front-end de big data en las empresas de la industria de big data en el pasado. dos años. Acabo de cambiar de trabajo recientemente y me gustaría compartir mi experiencia con usted. Si tiene alguna sugerencia, déjela en el área de comentarios. Gracias.

El tema de hoy es principalmente desde la perspectiva del desarrollo de big data, hasta la necesidad de la gobernanza de big data, la imaginación del modelado gráfico y, finalmente, el control de la calidad de los datos y luego la visualización de big data. Datos de la aplicación, el blogger resumió sus dos años de experiencia y los resultados de mi estudio. No sé si hay alguna desviación en mi comprensión, espero que todos puedan dar sugerencias.

Desarrollo de big data

El desarrollo de big data tiene varias etapas:

1. Recopilación de datos sin procesar

2. datos después de la limpieza y fusión

3. Conversión y mapeo de datos, datos de temas especiales clasificados y extraídos

4. La aplicación de datos proporciona API, sistema de aplicación de sistema inteligente, etc.

Recopilación de datos

Hay dos formas de recopilación de datos: en línea y fuera de línea. En línea, generalmente se recopila a través de rastreadores, raspado o sistemas de aplicaciones existentes. En esta etapa, podemos realizar una gran recopilación de datos. La plataforma se basa en rastreadores automáticos (use Python o nodejs para crear software de rastreo), herramientas ETL o motores de extracción y conversión personalizados para rastrear específicamente datos de archivos, bases de datos y páginas web. Si este paso se realiza a través de un sistema automatizado. todos los datos sin procesar se pueden administrar fácilmente y la recopilación de datos se puede etiquetar desde el principio, lo que puede estandarizar el trabajo de los desarrolladores. Y la fuente de datos de destino se puede gestionar de forma más cómoda.

La dificultad de la recopilación de datos radica en múltiples fuentes de datos, como mysql, postgresql, sqlserver, mongodb y sqllite. También hay archivos locales, documentos estadísticos de Excel e incluso archivos doc. Cómo organizarlos en nuestro proceso de big data de manera regular y planificada también es una parte indispensable.

Agregación de datos

La agregación de datos es el paso más crítico en el proceso de big data. Puede agregar estandarización de datos aquí, también puede realizar limpieza y fusión de datos. Se archivará en este paso y los datos disponibles confirmados se podrán ordenar y clasificar a través de un proceso monitoreable. Todos los datos producidos aquí son activos de datos de toda la empresa y, cuando alcanzan una determinada cantidad, se convierten en activos fijos.

La dificultad en la agregación de datos radica en cómo estandarizar los datos, como la estandarización del nombre de la tabla, la clasificación de las etiquetas de la tabla, el propósito de la tabla, el volumen de datos y ¿hay algún incremento en los datos? ¿Están disponibles los datos? Se debe poner mucho esfuerzo en el negocio y se debe introducir un procesamiento inteligente cuando sea necesario, como el etiquetado automático basado en los resultados de la capacitación de contenido, la asignación automática de nombres de tablas recomendados, nombres de campos de tablas, etc. También cómo importar datos desde datos sin procesar, etc.

Conversión y mapeo de datos

¿Cómo se pueden proporcionar a usuarios específicos los activos de datos que han sido objeto de agregación de datos? En este paso, lo principal es considerar cómo aplicar los datos y cómo combinarlos. ¿Tres? La tabla de datos se convierte en un dato que puede proporcionar servicios. Luego actualice los incrementos periódicamente.

Después de los pasos anteriores, no hay demasiadas dificultades en este paso. Cómo convertir datos es lo mismo que cómo limpiar datos y datos estándar. campo, o de acuerdo con Se pueden usar varias tablas disponibles para calcular datos en un gráfico, etc.

Aplicación de datos

Hay muchas formas de aplicar datos, incluidos externos e internos. Si tiene una gran cantidad de activos de datos en la etapa inicial, ¿puede proporcionárselos a los usuarios a través? ¿API relajante? ¿O proporcionar el motor de transmisión KAFKA para el consumo de aplicaciones? ¿O generar datos temáticos directamente para consultarlos mediante su propia aplicación? Los requisitos para los activos de datos aquí son relativamente altos, por lo que el trabajo preliminar se realiza bien y el grado de libertad aquí es muy alto.

Resumen: Dificultades en el desarrollo de big data

La principal dificultad en el desarrollo de big data es el seguimiento. Los desarrolladores recopilaron casualmente una gran cantidad de datos basura y los conectaron directamente a la base de datos. A corto plazo, estos problemas son relativamente menores y pueden corregirse.

Pero cuando la cantidad de activos continúa aumentando, se trata de una bomba de tiempo que detonará en cualquier momento y desencadenará una serie de impactos en los activos de datos. Por ejemplo, el caos de datos hará que el valor de los activos de datos disminuya y la confianza del cliente disminuya. .

¿Cómo monitorear el proceso de desarrollo de los desarrolladores?

La respuesta sólo puede ser una plataforma automatizada. Sólo una plataforma automatizada puede hacer que los desarrolladores se sientan cómodos, acepten nuevas tareas y abandonen la era manual.

Esta es la ventaja que tienen los ingenieros de desarrollo front-end en la industria de big data ¿Cómo crear una interfaz de operación visual con buena interacción? ¿Cómo convertir los flujos de trabajo y los requisitos de trabajo existentes en interfaces de operación visuales? ¿Podemos utilizar la inteligencia para reemplazar algunas operaciones sin sentido?

En cierto sentido, en el desarrollo de big data, personalmente creo que los ingenieros de desarrollo front-end ocupan una posición más importante, solo superada por los ingenieros de desarrollo de big data. En cuanto al desarrollo backend, el desarrollo del sistema ocupa el tercer lugar. Una buena interacción es crucial. Cómo convertir datos y cómo extraerlos son obstáculos que los predecesores han superado hasta cierto punto, como Kettle, Kafka y Pipeline. ¿La clave es cómo interactuar? ¿Cómo convertirlo en una interfaz visual? Este es un tema importante.

Los amigos existentes tienen diferentes enfoques y piensan que el papel del front-end es prescindible. Creo que el back-end es realmente muy importante, pero hay muchas soluciones para el back-end. . El estado real del front-end es más importante, pero básicamente no existen soluciones de código abierto. Si no se presta suficiente atención al desarrollo del front-end, los problemas que se enfrentan son una mala interacción, una interfaz deficiente y una experiencia deficiente. Rechazo por parte de los desarrolladores. Hay muchos puntos de conocimiento en el campo de la visualización. Los requisitos de calidad para los desarrolladores son más altos.

Gobernanza de big data

La gobernanza de big data debe abarcar todo el proceso de desarrollo de big data. Desempeña un papel importante. A continuación se presentan algunos puntos:

Linaje de datos

Revisión de la calidad de los datos

Monitoreo completo de la plataforma

Linaje de datos

A partir del linaje de datos, el linaje de datos debe ser big data La entrada a la gobernanza, a través de una tabla, puede ver claramente sus pormenores. La división de campos, el proceso de limpieza, el flujo de tablas y los cambios en la cantidad de datos deben comenzar desde el origen de los datos. Personalmente, creo que todo el proceso de gobernanza de big data El objetivo es este linaje de datos. A partir del linaje de datos, podemos tener la capacidad de monitorear la situación general.

El linaje de datos se basa en el proceso de desarrollo de big data. Rodea todo el proceso de desarrollo de big data. El historial de cada paso del desarrollo y el historial de importación de datos deben tener registros correspondientes. Cuando hay una cierta escala, es básicamente indispensable.

Revisión de la calidad de los datos

En el desarrollo de datos, debe haber un proceso de revisión de la calidad de los datos al final de cada creación de modelo (tabla). En un entorno de sistema grande, también debería haberlo. Agregue aprobación en pasos clave, como el paso de conversión y mapeo de datos, que implica el suministro de datos del cliente. Se debe establecer un sistema completo de revisión de la calidad de los datos para ayudar a las empresas a descubrir problemas de datos lo antes posible y, cuando ocurran, ver el problema. por primera vez y resuelva el problema desde la raíz en lugar de conectarse ciegamente a la base de datos y consultar SQL una y otra vez.

Monitoreo completo de la plataforma

El monitoreo en realidad incluye muchos puntos, como monitoreo de aplicaciones, monitoreo de datos, sistema de alerta temprana, sistema de órdenes de trabajo, etc., para cada fuente de datos que asumimos. Las tablas de datos deben monitorearse en tiempo real. Una vez que ocurre un accidente o un corte de energía, la persona a cargo específica puede ser notificada por teléfono o mensaje de texto lo antes posible. Aquí podemos aprender de la experiencia de algunas plataformas de operación y mantenimiento automatizadas. La supervisión es equivalente a la operación y el mantenimiento. La protección de los activos de datos proporcionada por una buena supervisión también es importante.

Visualización de big data

La visualización de big data no es solo la visualización de gráficos, la visualización de big data no es solo la visualización de gráficos, la visualización de big data no es solo la visualización de gráficos, cosas importantes Permítanme decirlo tres veces: parte del desarrollo de datos clasificado por visualización de big data pertenece a la categoría de aplicación y parte pertenece a la categoría de desarrollo.

En el desarrollo, la visualización de big data juega el papel de operación visual. ¿Cómo construir un modelo a través de patrones visuales? ¿Cómo lograr la operatividad de la calidad de los datos mediante arrastrar y soltar o mediante operación tridimensional? No es realista dibujar dos tablas y agregar algunos botones para implementar un proceso operativo complejo.

En las aplicaciones de visualización, hay más preguntas sobre cómo convertir datos y cómo mostrarlos. Por lo general, todavía hay más trabajo en el análisis de datos. Esto requiere una comprensión profunda de los datos y una comprensión profunda del negocio para poder realizar aplicaciones de visualización adecuadas.

Plataforma de visualización inteligente

La visualización se puede volver a visualizar, como el superconjunto, que implementa gráficos mediante SQL operativo. Algunos productos pueden incluso clasificar de forma inteligente según el contenido de los datos. Tipo de gráfico, desarrollo visual en tiempo real, este tipo de función es la dirección de desarrollo actual de la visualización. Necesitamos una gran cantidad de contenido visual para producir resultados para la empresa, como la industria de la confección, el departamento de ventas: compra y envío, combinación de colores. , el impacto en los usuarios Influencia, influencia estacional en las elecciones Sector de producción: ¿Evolución de los precios de los tejidos? ¿Estadísticas sobre productividad y eficiencia? Espere, cada departamento puede tener una pantalla de datos grande y puede planificar su propia pantalla grande a voluntad a través de la plataforma. Todos pueden prestar atención a las tendencias en su propio campo todos los días. Este es el significado específico de la aplicación de visualización de big data.

Escrito al final

Escribí de manera muy elocuente e hice algunos resúmenes de lo que he visto, oído, aprendido y pensado en los últimos dos años. Algunos niños preguntarán: ¿no es tecnología? ¿Por qué no hay código? El blogger dijo que los blogueros de codificación aprenden y escriben principalmente, pero no tiene nada que ver con el trabajo. El código es mi habilidad personal. Es una habilidad importante para que las personas realicen sus ideas personales. Sin embargo, el código tiene poco que ver con los negocios. En el trabajo, las personas que entienden los negocios pueden escribir un mejor código porque saben lo que quiere la empresa. Si su negocio es pobre, no importa. Siempre que su código sea bueno, también es bueno trabajar de acuerdo con las instrucciones de otras personas. La tecnología y los negocios se complementan. Más adelante el blogger resumirá la mejora del código.

Después de escribirlo, todavía estoy preocupado. Mi código no está lo suficientemente estandarizado. La pila de tecnología actual es js, java, nodejs y python.

Mi dominio principal de js es aproximadamente del 80%. Actualmente estoy estudiando es6 de Ruan Yifeng (similar a lo que he visto) y el código fuente de vuejs (un poco varado, vuejs se considera promedio y css). y se puede decir que el diseño está bien. Además, tanto d3.js como go.js se pueden usar y funcionan. En cuanto a nodejs, no hay problema con express y koa. He leído algunos códigos fuente de express y he escrito dos middleware.

Tanto Java como Python están en el nivel en el que pueden usarse para proyectos. No quiero dedicar mucha energía a profundizar en ellos por el momento, solo quiero mantenerlos en ese nivel. el nivel donde quiero usarlos.

En los próximos años, trabaje duro y aprenda más sobre la inteligencia artificial y el desarrollo de big data. Esta área debería seguir siendo popular en el futuro.

Por último, me gustaría animaros a todos, y espero que podáis darme algunas sugerencias de planificación, si somos tres personas juntas, debe haber alguien que me pueda enseñar.