¿Cuáles son los tres niveles de análisis de datos de comportamiento del usuario?

La base del análisis del comportamiento del usuario es obtener datos del comportamiento del usuario, como el tiempo de permanencia en la página del usuario, la fuente de salto, etc. Parte de esta información se puede obtener directamente y otra requiere algunos cálculos. En términos generales, parte de la información cuando los usuarios acceden se escribe en el espacio de registro del contenedor web en forma de registros, que incluyen la información de acceso más común y cierta gestión de registros personalizada.

El autor de la pregunta mencionó el análisis del comportamiento del usuario en la tecnología de big data, por lo que se puede suponer que el número de visitas al sitio web o la aplicación es relativamente alto. Debido a que el tráfico del sistema es relativamente grande y hay muchas dimensiones informáticas, la demanda de consumidores de datos posteriores está creciendo rápidamente, por lo que existen ciertos requisitos para la plataforma de análisis informático. El rendimiento específico es:

1. El aumento del tráfico generará presión en muchos aspectos, como presión sobre el ancho de banda de la red, presión sobre la complejidad informática, presión sobre el almacenamiento, etc. En términos generales, estos son relativamente obvios y tendrán un impacto relativamente directo, como la reducción de la computación en tiempo real, la acumulación de mensajes, OOM, etc. Para resolver este fenómeno, en términos generales, se elegirán algunos marcos distribuidos para resolver este problema, como la introducción de los marcos informáticos distribuidos Storm, Spark, sistemas de archivos distribuidos HDF, etc.

2. En tiempo real. Cuando los recursos del sistema se agotan, la naturaleza en tiempo real de los mensajes se verá seriamente afectada de inmediato, lo que hace que algunos algoritmos sean ineficaces (por ejemplo, después de que el análisis de comportamiento de los datos calculados y recopilados se devuelve al sistema de recomendación, cuando pasa el tiempo de respuesta general). , las recomendaciones se verán seriamente afectadas en el rendimiento y la precisión). En este caso, se puede elegir Storm, un marco informático de transmisión distribuida con alto rendimiento en tiempo real, para completar la tarea.

3. Gestión del sistema y medios técnicos relacionados con la plataforma. En un escenario de big data, el entorno de datos y el entorno de aplicaciones dentro de la empresa son relativamente complejos. Las aplicaciones de análisis del comportamiento del usuario no son estáticas, por lo que se requiere que el análisis del comportamiento del usuario sea una aplicación cambiante que pueda sobrevivir de manera efectiva en un entorno complejo. La adquisición de materiales de datos, operación y mantenimiento del sistema, programación de tareas del sistema, programación de recursos del sistema, etc. Las tecnologías relacionadas a menudo requieren que el equipo realice una autoinvestigación, pero también existen sistemas de código abierto como ganglios, hilos y mesos que pueden hacerlo. utilizarse como referencia o utilizarse directamente.

4. Enlace de datos. En términos generales, el entorno tecnológico empresarial es muy complejo y está entrelazado capa por capa. Está lejos de resumirse en la arquitectura de tres niveles MVC para evitar la compleja estructura de red de circulación de mensajes, servitización de aplicaciones y servicios empresariales. El bus (ESB) y el bus de mensajes se utilizan para la transmisión. Si está interesado en el tema, puede buscar en Baidu tecnologías y herramientas de código abierto en estas direcciones.

5. Utilizar herramientas de generación rápida. Personalmente, creo que las aplicaciones en un entorno de big data no pueden escapar a los requisitos de un desarrollo rápido, y lo mismo ocurre con el análisis del comportamiento del usuario. En este momento, deberíamos considerar conectarnos a algunas bibliotecas de algoritmos de análisis de datos distribuidos de código abierto en lugar de implementarlas nosotros mismos. , como spark ml, bibliotecas como mahout pueden reducir gran parte de la carga de trabajo si se usan bien.