Documento de lectura del sistema de recomendación (20): recomendación de SIM de Alimama basada en la larga secuencia de comportamientos históricos de los usuarios

Tesis:

Título de la tesis: Modelado de intereses de usuario basado en búsquedas y predicción mejorada de la tasa de clics para datos de comportamiento secuenciales.

Dirección: https://arxiv.org/pdf/2006.05639.pdf.

Este es otro excelente trabajo publicado por Alimama en 2020SIGIR. Miremos este pedazo de papel.

En el campo de la predicción CTR/CVR, el comportamiento histórico de los usuarios es muy instructivo para el modelado de la predicción CTR/CVR. Los ricos "puntos de interés" del usuario están ocultos en la secuencia histórica de comportamiento del usuario, y el comportamiento de cada usuario es una respuesta a un determinado interés. Por ejemplo, me gustan todo tipo de productos de lápiz labial y limpiadores faciales, pero no me interesa especialmente una marca determinada. Impulsado por estos intereses, es posible que haya navegado y hecho clic en una gran cantidad de contenido o productos en campos relacionados. ¿Estos comportamientos históricos me ayudarán a predecir mi comportamiento futuro? La respuesta es sí. Basándonos en el modelo de comportamiento subjetivo anterior, necesitamos modelar el comportamiento histórico del usuario. Cuanto más larga sea la cola de comportamiento del usuario, más ricos serán los intereses del usuario, pero también traerá mayores desafíos. De hecho, los intereses de los usuarios son divergentes y diversos. Es muy importante cómo encontrar los intereses que son realmente útiles para la tarea actual entre los diversos intereses de los usuarios.

Antes de presentar este artículo, recomiendo echar un vistazo a otro artículo de Alibaba, MIMN, que también es un artículo sobre predicción de CTR basado en largas secuencias de usuarios. Sin embargo, MIMN tiene varios problemas. Una es que cuando la longitud de la secuencia de comportamiento del usuario aumenta aún más (por ejemplo, 10 veces o más), MIMN no puede capturar con precisión los intereses del usuario de un candidato específico determinado. Otra razón es que MIMN no puede resolver muy bien los dos cuellos de botella de latencia y almacenamiento. En otras palabras, cuando se implementa en línea, ¿en qué se parece la latencia a la de otros modelos livianos?

En Taobao, la duración de la secuencia de navegación de un usuario puede llegar a miles o incluso decenas de miles. ¿Cómo utilizar esta información de secuencia larga de manera eficiente y efectiva? Mama Ali propuso el modelo SIM para extraer aún más los valiosos puntos de interés de los usuarios a partir de las colas de comportamiento históricas a largo plazo de los usuarios, proporcionando una solución factible para servicios en línea de secuencias de comportamiento a largo plazo. Echemos un vistazo al documento.

Descripción general del modelo:

SIM se divide en dos etapas, ambas etapas tienen sus propias partes centrales. Este artículo divide el modelado de características de comportamiento del usuario de secuencia larga en dos módulos, a saber, la unidad de búsqueda general (GSU) y la unidad de búsqueda precisa (ESU), que son los módulos centrales de las dos etapas. La siguiente es una breve introducción a las funciones de estos dos módulos. GSU, como se muestra en la figura, se entiende simplemente como seleccionar K elementos más similares a los elementos candidatos de cientos de miles de secuencias largas de usuarios y comparar los módulos de recomendación y recuperación en el sistema para reducir primero la longitud de los elementos de la secuencia larga. antes de realizar tareas posteriores. El otro es ESU. La función de este módulo es modelar la secuencia de elementos K recién extraída por GSU, obtener un vector que pueda representar los pares de intereses a largo plazo del usuario y usar este vector para ordenar los pares posteriores.

La tarea principal de GSU es extraer k elementos similares a los elementos candidatos de una secuencia de longitud t. GSU tiene dos métodos para seleccionar elementos TopK, a saber, búsqueda dura y búsqueda suave. Como se mencionó anteriormente, GSU es similar a la etapa de recuperación en los sistemas de recomendación, y en la recuperación multicanal, generalmente hay recuperación basada en incrustaciones y recuperación basada en estrategias, donde la búsqueda dura es una recuperación basada en reglas y la búsqueda suave se basa en recuperación integrada. Estos dos métodos se analizan en detalle a continuación.

Este método es relativamente intuitivo y simple de implementar, es decir, filtramos el conjunto de candidatos relacionados con la tarea objetivo actual de la secuencia de comportamiento del candidato de acuerdo con las reglas dadas. Por ejemplo, históricamente he buscado tipos muy diferentes de productos (como productos electrónicos, lápices labiales, zapatos de hombre, etc.) en Taobao. Cuando el anuncio candidato es iPhone 12, el método de búsqueda exhaustiva seleccionará comportamientos relacionados con productos electrónicos de mi cola de comportamiento histórico para modelar la predicción PCTR, mientras que el lápiz labial y los zapatos de hombre no tienen ningún impacto en esta predicción. A través de los ejemplos anteriores, debería poder comprender esta idea basándose en reglas y estrategias.

El artículo señala que el método de búsqueda exhaustiva utiliza categorías de productos como criterio de selección.

Este método se basa en la extracción incrustada y la estructura general de la búsqueda suave se puede ver en el lado izquierdo del diagrama del modelo anterior. Esta parte también es un submodelo. Las entradas al modelo son elementos candidatos y secuencias largas, y el objetivo es la estimación del CTR. De esta manera, se aprende la información incorporada de elementos candidatos y elementos de secuencia larga. Mediante la incrustación, podemos calcular la similitud del producto interno entre las incrustaciones de anuncios candidatos y las incrustaciones de comportamiento histórico, y utilizar el método de recuperación aproximado del vecino más cercano (ALSH se utiliza en este artículo) para obtener la secuencia de comportamiento candidato relacionada con topK.

En este modelo, ¿cuáles son las entradas al DNN como candidatos? Concatenar de y Ur, donde Ur:

Tenga en cuenta que si el comportamiento del usuario crece hasta cierto punto, es imposible ingresar directamente todo el comportamiento del usuario en el modelo. En este caso, podemos extraer aleatoriamente conjuntos de secuencias de una larga secuencia de comportamientos del usuario, que aún deben seguir la misma distribución de la secuencia original.

La desventaja de este método es que el costo de cálculo es relativamente alto y no es tan conveniente como la búsqueda exhaustiva basada en reglas. Lo bueno es que los resultados deberían ser mejores. Sin embargo, el artículo también menciona que la diferencia de efecto entre los dos métodos no es particularmente grande, por lo que al final, basándose en el compromiso entre rendimiento y efecto, se adoptó la búsqueda exhaustiva como un método relativamente simple.

En general, esta parte utiliza principalmente k elementos extraídos de GSU para obtener un vector que puede representar los intereses a largo plazo del usuario y lo envía a DNN con otras características para realizar la tarea general de predicción de CTR.

En este artículo, K pares de elementos de GSU se modelan mediante autoatención:

Estos incluyen:

El primero en concat es la incrustación original, El segundo se trata de la incorporación del tiempo.

Siguiendo el enfoque de autoatención, obtenemos otro vector h(K).

Aquí también se estima el ctr del segundo submodelo, que se caracteriza por la entrada dibujada en el diagrama del modelo, así como por los artículos e introducciones anteriores de Dean, por lo que no entraré en detalles aquí.

La pérdida final es:

donde α y β son hiperparámetros que controlan la pérdida de peso. En nuestros experimentos, si la GSU utiliza el modelo de búsqueda suave, tanto α como β se establecen en 1. La GSU del modelo de búsqueda exhaustiva no es paramétrica y α se establece en 0.

El sistema de recomendación publicitaria tiene requisitos estrictos que requieren mucho tiempo para los cálculos en línea porque debe garantizar la experiencia de usuario más básica. Con el mayor crecimiento de las secuencias de comportamiento del usuario, el método tradicional de calcular directamente largas secuencias de comportamiento del usuario requiere tiempo y memoria, por lo que el sistema en línea debe actualizarse de manera específica. El artículo menciona que al elegir la búsqueda exhaustiva y la búsqueda suave, basándose en una gran cantidad de resultados experimentales fuera de línea, se decidió utilizar un método de búsqueda exhaustiva conveniente, rápido y eficaz, y la pérdida de información fue aceptable.

El diagrama general de la arquitectura del sistema de implementación en línea es el siguiente:

Para permitir que SIM brinde mejor a los usuarios una experiencia de baja latencia, Alibaba ha creado la arquitectura de servicio en línea de SIM:

Se puede ver que para la secuencia de comportamiento del usuario, el documento adopta una estructura de índice de dos niveles para cada usuario: clave-clave-valor La primera clave es user_id, la segunda clave es ID de categoría. y el valor es la secuencia de comportamiento del usuario que pertenece a la categoría correspondiente. De esta manera, las entradas que pertenecen a la misma categoría se pueden encontrar rápidamente a través de este árbol de índice.

Efectos experimentales de las pruebas A/B online:

El comportamiento histórico de los usuarios es cada vez más importante para toda la tarea de estimación de CTR/CVR. Si no se consideran el tiempo y el almacenamiento, todas las secuencias se ingresan en el modelo como puntos clave de interés a largo plazo, que pueden ubicar con precisión el interés a largo plazo del usuario. Sin embargo, por motivos de rendimiento, se debe considerar un enfoque especial para examinar esta larga secuencia. Los k elementos seleccionados son todos similares a los elementos candidatos y el efecto de corte no provocará la pérdida de la estimación del CTR. En el proceso de filtrado, existen dos métodos. Sin embargo, para la implementación en línea, se debe considerar el método de búsqueda exhaustiva con mejor rendimiento para filtrar TopK. Es similar al filtrado integrado, pero más rápido que el filtrado integrado, por lo que se adopta este método.

Debería haber más artículos sobre recomendación de secuencias en el futuro, lo que solo traerá un cierto sesgo de interés a la etapa de secuencia larga. Por lo tanto, es necesario cómo extraer de manera efectiva el valor comercial detrás de las características de comportamiento más ricas de los usuarios. consideró.

上篇: El Jaguar XFL ha bajado a menos de 300.000 yuanes. ¿Debería elegirlo entre el Audi A4L o el Serie 3? 下篇: Aplausos - por cada lucha