Dirección del artículo:/p/287898562
En la tarea de predicción del CTR, la interacción entre funciones siempre ha sido un tema candente en la industria. Dado que DNN aprende características de entrada de manera implícita, es difícil aprender una interacción efectiva de características a partir de un gran conjunto de características dispersas simplemente confiando en DNN. Por lo tanto, muchos trabajos utilizan la interacción de características artificiales en la ingeniería de características. FM, FNN, PNN, DCN y DeepFM ilustran este punto desde diferentes aspectos. Los estudiantes interesados pueden consultar el artículo anterior del autor: De FM a DeepFM: una breve discusión sobre la evolución del modelo en sistemas de recomendación.
La ingeniería de características juega un papel muy importante en la construcción de modelos de sistemas de recomendación. Entre las funciones de entrada masiva, la interacción entre el comportamiento del usuario y los elementos recomendados puede modelar con precisión los intereses del usuario. El autor de este artículo nombra uniformemente esta característica interactiva como coacción, como se muestra en la Figura 1: A y B representan la entrada del modelo, y Target puede ser el valor estimado de ctr. En términos generales, la relación entre A y B se puede aprender a través de DNN. Pero si interactuamos manualmente con A y B en el lado de entrada, la dificultad de aprendizaje se reducirá considerablemente.
Para la interacción de funciones, la forma más básica es hacer un producto cartesiano. En tensorflow, esta operación se realiza entre columnas [1]. Para las características A y B, el producto cartesiano las combina en una nueva característica (A, B); cambie el valor de aob y obtendrá una característica completamente nueva. De esta forma se pueden describir todas las combinaciones entre A y B. Cuando las muestras de entrenamiento son suficientes y no se considera el rendimiento, el producto cartesiano es el mejor método de interacción de características. Sin embargo, el producto cartesiano tiene dos desventajas:
Como sugiere el nombre, el propósito de CAN es modelar la interacción entre diferentes características, lo que puede entenderse como una nueva forma de interacción de características. En pocas palabras, este artículo implementa una unidad de red CAN enchufable, que utiliza dos tipos de funciones que deben interactuar como entrada y peso de la red CAN, y la salida de la red como resultado de la interacción de funciones.
La figura 2 muestra la estructura básica de CAN. Las características de entrada se pueden dividir en secuencias de comportamiento del usuario, elementos de destino, características de retrato del usuario (edad del usuario, etc.) y otras características. Entre ellos, la secuencia de usuario, los elementos de destino y otras características se ingresan en la estructura de la red Dean a través de la capa de incrustación. Para la parte CAN, la incrustación de la secuencia del usuario y los elementos de destino se utiliza como parámetros de entrada y peso de CAN, y los resultados de salida finales se suman y pasan a través de la parte DNN posterior junto con la concat de salida de Dean. Lo siguiente se centra en la clave de toda la estructura de la red: la unidad de colaboración.
La lógica de implementación general de CAN es relativamente simple. La red completamente conectada en CAN se registra como: las características del producto candidato son los pesos y sesgos de la red, y las características de la secuencia de comportamiento del usuario son la entrada de la red. donde es el número de todos los ID únicos, es decir, el espacio de parámetros de los ID de los elementos y es el tamaño de incrustación, y
En comparación con otros métodos de interacción de funciones, CAN tiene las siguientes ventajas:
Lo mencionado anteriormente La estructura CAN solo puede modelar explícitamente interacciones características de primer orden. Para casos de orden superior, esto se puede lograr mediante una entrada de orden superior, es decir,
donde c es el orden de las interacciones de características.
Este artículo presenta tres métodos para garantizar la independencia del aprendizaje CAN.
Como se puede ver en la Tabla 2, el índice AUC de CAN es mejor que PNN, NCF[2] y DeepFM en los dos conjuntos de datos experimentales. Además, como método de interacción de funciones más básico, el producto cartesiano es mejor que PNN, NCF y DeepFM. Pero los resultados experimentales de CAN son incluso mejores que los resultados del producto cartesiano. Creo que hay dos razones aquí:
Para verificar la capacidad de generalización de CAN, el autor eliminó todas las combinaciones de características que aparecían en el conjunto de entrenamiento en el conjunto de datos de prueba y construyó un conjunto de prueba de datos fríos. Todas las combinaciones de funciones en el conjunto de prueba no tienen precedentes en el modelo. Los resultados experimentales se muestran en la Tabla 5:
Se puede ver que los resultados de NCF y DeepFM son mejores que los del producto cartesiano.
Comparando las conclusiones de la Tabla 2, se demuestra que efectivamente existen problemas con la generalización del producto de Descartes. Al mismo tiempo, CAN tiene el AUC más alto, lo que también demuestra que la capacidad de generalización de la estructura CAN es significativamente más fuerte que los métodos de interacción de características como el producto cartesiano.
Creo que esta es una de las partes más importantes de este artículo. En esta sección, el autor analiza en detalle algunas dificultades y soluciones al implementar el modelo CAN en el sistema de publicidad gráfica de Alibaba, que tiene una importante importancia rectora para la implementación de modelos complejos de predicción de CTR.
La interacción de funciones consiste en agregar una combinación de pares de funciones basadas en las funciones originales, lo que inevitablemente introducirá almacenamiento adicional y una sobrecarga informática. Sabemos que la mayoría de los parámetros del modelo CTR se concentran en la parte incrustada y el producto cartesiano aumentará linealmente el tamaño de incrustación. Para características con dos dimensiones de M y N (la dimensión aquí se refiere al número de ID únicas), el producto cartesiano necesita introducir una matriz de incrustación de tamaño (M × N, embedding_size, además, la nueva incrustación también introducirá); más Las operaciones de búsqueda múltiples afectarán seriamente el tiempo de respuesta del modelo y aumentarán la latencia. El autor mencionó que incluso si se utiliza el filtrado de frecuencia de ID (la comprensión personal es filtrar algunas ID de baja frecuencia de acuerdo con la frecuencia de aparición de ID para reducir la cantidad de parámetros, es decir, filtrado de baja frecuencia), no se puede aliviar. .
Para el modelo CAN, aunque los parámetros se reducen considerablemente, los problemas anteriores seguirán afectando la implementación del modelo. Este artículo utiliza 6 funciones del lado publicitario y 15 funciones del lado del usuario para la interacción. En teoría, se introducirán 15 × 6 = 90 combinaciones de funciones. Las características del lado del usuario son en su mayoría secuencias de comportamiento del usuario, generalmente con una longitud de más de 100, lo que supondrá una carga mayor.
Para resolver los problemas anteriores, este artículo adopta la siguiente solución:
La interacción entre características es de gran importancia para el modelo de predicción ctr. Se explican las deficiencias del producto cartesiano y algunas estructuras de modelos comunes (FM, PNN, DeepFM, etc.). ), y propuso una nueva red para modelar la acción conjunta de características. CAN utiliza la entrada y el peso de DNN para modelar la interacción de características, lo que no solo resuelve la complejidad espacial y los problemas de generalización del producto cartesiano, sino que también obtiene mejores efectos de interacción de características (reflejados en el índice AUC del modelo). Al mismo tiempo, se introducen mejoras multinivel e independencia multinivel entre módulos para hacer que la función CAN sea más completa. Finalmente, se presentan las dificultades y soluciones encontradas en el lanzamiento del modelo, lo que tiene una importancia de referencia importante para el despliegue de modelos de predicción CTR a gran escala.
.