Análisis de datos de consulta
Consulta se refiere a que el usuario ingresa las condiciones de consulta en el motor de búsqueda. En los motores de búsqueda generales, generalmente se refiere a las palabras clave ingresadas. En diversas industrias o motores de búsqueda verticales, también puede ingresar categorías, como "películas" y "series de televisión" en el sitio web de Youku. En los sitios web de comercio electrónico, varias marcas de productos, modelos, estilos y precios también son condiciones de consulta comunes.
La segmentación de palabras es una herramienta indispensable para analizar el contenido de cada $term de la consulta. Los algoritmos de segmentación de palabras van desde los algoritmos de segmentación de palabras máximo hacia adelante y hacia atrás más simples hasta complejos modelos ocultos de Markov y CRF. El modelo CRF es un método de aprendizaje automático para el etiquetado de secuencias. La clave del algoritmo de segmentación de palabras es cómo obtener un corpus etiquetado con suficiente precisión, y un corpus de entrenamiento suficiente es la condición básica para el éxito del modelo.
Después de realizar la consulta, ordene el PV de mayor a menor. La abscisa es el número de consulta y la ordenada es el PV de la consulta. En la figura siguiente se puede ver claramente que la distribución PV de la consulta es una distribución de cola larga.
Cada consulta en buscador
tiene sus propias características. Es muy necesario diseñar su propio algoritmo y productos correspondientes según las características de la consulta. Por ejemplo, Baidu tiene muchas consultas sobre "cómo llegar de A a B" y "cómo ××". Creo que Baidu ya ha investigado estas consultas antes de lanzar "Tieba", "Zhiba", "Encyclopedia" y otros productos de Baidu. Definitivamente existe una gran diferencia entre las consultas de los motores de búsqueda generales y las de los sitios web de comercio electrónico. Por ejemplo, Excellence Dangdang debe tener una gran cantidad de títulos de libros. En los sitios web de comercio electrónico, existe una gran cantidad de métodos de consulta de categorías + atributos. Cómo combinar condiciones de entrada, analizar con precisión las intenciones del usuario y garantizar la recuperación y precisión de los resultados del motor de búsqueda es un desafío.
Regla 20-80: Consulta y almacenamiento en caché
Descubrimos que el 20 % de las consultas populares representan el 80 % del tráfico PV. Si se resuelven los problemas de análisis y clasificación de estas consultas del 20%, se resolverán la mayoría de los problemas de tráfico.
Para el 20% de las consultas, la estructura de índice del motor de búsqueda se puede optimizar para devolver directamente la información que el usuario necesita. En el módulo de análisis de consultas, podemos almacenar los resultados de la segmentación de palabras, el etiquetado de partes del discurso y la clasificación de consultas. En resumen, el uso eficiente de la memoria da como resultado una gran mejora en el rendimiento de la memoria.
Clasificación de consultas y "cálculo de cajas"
La clasificación de consultas es un problema que deben solucionar los buscadores generales actuales. Ingrese "×× tiempo de la ciudad" en Baidu o Google y se mostrarán imágenes del estado del tiempo, temperaturas, etc. Ingrese "PetroChina" para mostrar directamente el precio de las acciones de PetroChina ingrese directamente "Vuelo" desde la selección del punto de inicio y finalización del vuelo; Esto también es lo que Baidu llama "computación de caja", es decir, el análisis se completa directamente en el cuadro de búsqueda y llega directamente a la aplicación específica.
¿Cómo clasificar?
Supongamos que el motor de búsqueda ha clasificado las páginas web, cuenta la clasificación de las páginas en las que se hace clic en cada consulta y las organiza de mayor a menor según la probabilidad de clasificación de la página, es decir, la clasificación de la consulta. También puedes conocer la clasificación de esta consulta. Pero esto sólo se puede utilizar si la consulta tiene suficientes clics.
Otra forma es utilizar un enfoque bayesiano, utilizando la clasificación de páginas para inferir a qué categorías podría pertenecer cada consulta.
Navegación de consultas
La clasificación de consultas es en realidad una condición básica para la navegación. La navegación solo comienza realmente cuando tiene una clasificación precisa de su consulta y una comprensión precisa de la parte gramatical de cada $término en la consulta.
En sitios web de comercio electrónico, como Amazon y JD.COM. La navegación precisa es muy necesaria.
Y la navegación precisa es el primer paso. Según las aportaciones del usuario, reflejar recomendaciones populares relevantes o recomendaciones personalizadas en la navegación es un requisito adicional para la navegación.
Cuando los usuarios ingresan palabras clave en Taobao para buscar productos, se mostrarán automáticamente las categorías y atributos correspondientes, y los atributos de categorías populares se mostrarán al frente, mientras que las categorías y atributos relativamente impopulares se contraerán. Aproveche al máximo el espacio de visualización limitado de la página web.
Sugerencias de consultag
Consulta y personalización
Cuando se trata de personalización, inevitablemente implica la recopilación de datos del usuario. Analizar la edad, sexo, preferencias, etc. del usuario en función del comportamiento o la configuración del usuario. De manera similar, si busca "cafetería", los resultados de su búsqueda pueden ser muy diferentes en Beijing y Shanghai.
Estos datos analíticos proceden de los registros de comportamiento de cada usuario en el buscador.
Los motores de búsqueda analizarán el comportamiento de búsqueda y clic de cada usuario. Existe en una base de datos de almacén de valores-clave distribuida cuando se almacena.
El comportamiento del usuario no sólo es útil para los propios usuarios individuales. Una gran cantidad de registros de comportamiento del usuario se utilizan ampliamente en la extracción de datos de sistemas de recomendación. Por ejemplo, los libros comprados por los usuarios en Dangdang Excellence provienen de los registros de compra y navegación de una gran cantidad de usuarios. Los sistemas de recomendación se han desarrollado desde el análisis de reglas de asociación comunes hasta varios algoritmos complejos de análisis de relaciones gráficas.
Para obtener más información, consulte:
/subview/10083/14670061.htm