Análisis del módulo de recomendación de lectura de Douban

Ya estoy acostumbrado. Después de ver cualquier libro que me interese, iré a Douban para verificar las calificaciones y reseñas del libro para ayudarme a comprenderlo y ver si es adecuado para mí.

Durante el proceso de uso, también descubrí que las recomendaciones de Douban Reading en realidad no son muy ideales. Esta es solo una tarea para esta categoría de producto estratégico.

Explore las reglas del módulo de recomendación de libros de Douban a través del análisis de datos mediante la metodología de gerentes de productos estratégicos y estadísticas descriptivas.

*Descripción: El módulo para este análisis se encuentra en la página de detalles del libro de Douban: a las personas a las que les gusta este libro también les gustará. ...

, como se muestra en la figura:

Idealmente, los libros recomendados por este módulo al usuario son libros que tienen una fuerte correlación con el libro actual y pueden despertar la el interés del usuario y traer sorpresas a los usuarios.

Lo ideal es que el módulo de recomendación del usuario en la página del libro busque libros que estén fuertemente relacionados con este libro, es decir, buenos libros similares. Buenos libros similares pueden ser libros con contenido similar, géneros similares, series de libros o el mismo autor. Al mismo tiempo, nunca he leído este libro, por lo que puede sorprenderme.

El propósito de este análisis es descubrir que a las personas a quienes les gusta este libro sobre Douban Reading también les gusta la estrategia de recomendación de este módulo e identificar posibles problemas con esta estrategia.

Esta información recoge recomendaciones de libros inferiores al 10. Analice y explore la estrategia de recomendación de libros de Douban seleccionando etiquetas de libros. (Debido al tiempo limitado y a la recopilación manual de datos, la cantidad de etiquetas es grande, por lo que la muestra de datos es 10. Puede ser diferente de la estrategia de recomendación real de Douban, pero este análisis también puede dar una idea de algunos problemas en su estrategia. )

Suponga que los datos generales se distribuyen normalmente y seleccione muestras al azar. Debido al tiempo limitado, esta muestra es de 10 libros y el número total de libros recomendados para los 10 libros es 86.

Las etiquetas seleccionadas son: título del libro, tipo de libro, editorial, tiempo de publicación, autor, serie, calificación, etiqueta y columna de frijol.

Según las estadísticas, a los usuarios a quienes les gustan los libros debajo de cada libro también les gusta la correlación entre los libros recomendados en este módulo y los libros en la etiqueta.

Capturas de pantalla de datos parciales:

Después de contar los datos de las etiquetas de 10 libros recomendados, obtuvimos los siguientes datos, y algunas capturas de pantalla son las siguientes:

Antes de analizar las muestras, analizamos la estrategia de recomendación de Douban hace la siguiente suposición, es decir, a los usuarios a quienes les gusta este libro también les gusta este módulo:

Debido a la particularidad de los libros en comparación con los tipos de cine y televisión, los usuarios de lectura Los canales están más dispuestos a recibir consejos de expertos en este campo. Los usuarios quieren recomendaciones de expertos que sean similares a ellos. Por lo tanto,

De acuerdo con esta idea, suponiendo que a los usuarios de Douban a quienes actualmente les gusta este libro también les gusta este módulo, la estrategia de recomendación es la siguiente:

Se analizan las siguientes suposiciones.

Explorar el conjunto de datos y realizar análisis descriptivos.

Nota: Las siguientes capturas de pantalla son capturas de pantalla parciales de los datos generales y no representan los datos generales. El adjunto de los datos generales se encuentra al final.

* * *86 libros recomendados, con una puntuación media de 8,5.

Los datos muestran que la puntuación promedio de los libros es 8,5 y la puntuación total de los libros de Douban es 10. 8,5 es una puntuación relativamente alta. Sin embargo, debido al pequeño número de muestras, es imposible definir con precisión si 8,5 es una puntuación alta. Solo se puede juzgar subjetivamente como una puntuación alta.

El número total de libros recomendados entre los 10 libros es de 86, de los cuales 27 son recomendados por el mismo autor, lo que representa el 31,40%. Algunas capturas de pantalla son las siguientes:

Del análisis de datos anterior, podemos ver que puede haber una cierta correlación entre los libros recomendados y los autores.

De los 86 libros recomendados, sólo 13 pertenecen a la misma serie que los libros de muestra, lo que representa el 15,12%. Algunas capturas de pantalla son las siguientes:

Los datos muestran que la correlación entre la misma serie y los libros recomendados es baja.

En la muestra, “Breve Historia de la Humanidad” pertenece al género histórico, pero ninguno de los cinco libros recomendados coincide con su género. De manera similar, "Understanding Business" es un libro de negocios, pero 8 de los 10 libros recomendados no encajan en su género.

El libro "Es difícil iniciar un negocio" pertenece a la categoría de gestión económica, pero 5 de los 6 libros recomendados no se corresponden con su género.

Como se desprende de lo anterior, los libros recomendados poco tienen que ver con el tipo de libro.

De los 86 libros recomendados, sólo 3 no pertenecen a la misma etiqueta, es decir, el ratio de libros recomendados con la misma etiqueta respecto al libro actual es del 96,51%.

Por lo tanto, existe una fuerte correlación entre los libros recomendados y los marcadores.

Una observación adicional encontró que hay al menos docenas de etiquetas debajo de cada libro, y solo se muestran entre 7 y 8 etiquetas populares en la página de detalles del libro. Mientras más personas etiquetes, más alto aparece. Por tanto, se puede observar que el número de veces que se marca una etiqueta es uno de los pesos recomendados.

Sin embargo, actualmente se desconoce si existe una gestión manual de los nombres de las etiquetas y este artículo no lo explorará.

De los 86 libros recomendados, 56 son iguales a los actuales, lo que supone un 65,12%.

Por lo tanto, existe una fuerte correlación entre la columna de frijoles y los libros recomendados.

Además, se ha observado que el número de colecciones y datos de recomendaciones de la columna recomendada es significativamente diferente del número de colecciones y recomendaciones de otros libros que contienen el libro. Cuanto mayor sea la popularidad, más probabilidades habrá de que lo recomienden.

Después de la prueba, no importa si inicio sesión o no, o si inicio sesión con la cuenta de otra persona, los libros recomendados en "Por qué la familia daña a las personas" son los mismos. Por tanto, los resultados de la recomendación no tienen nada que ver con el comportamiento personalizado del usuario y el módulo de recomendación no está personalizado.

Con base en el análisis descriptivo anterior, se extraen las siguientes conclusiones:

Nota: Debido al pequeño número de muestras, las conclusiones anteriores son todas exploraciones univariadas y pueden ser diferentes de las situación real. Sea amable con más datos para una mayor verificación.

Con base en las conclusiones del análisis anterior, se formulan las siguientes preguntas:

Según los datos y los materiales de referencia, se encuentra que el algoritmo de recomendación de Douban Reading es CF, que es basado en la similitud de las características del artículo. Es decir, conectar usuarios y elementos a través de algunas características y recomendar elementos con características que les gusten a los usuarios, es decir, etiquetas y columnas de beans. Los resultados recomendados se basan en el mismo conjunto de etiquetas populares y columnas de beans.

El resultado de esto es un efecto de clúster caliente, que hace que la posición recomendada sea fácilmente ocupada por varias películas populares durante mucho tiempo. A la larga, causará dos problemas:

Algunos libros tienen poco que ver con este popular libro. Por ejemplo, en el libro "Growth Hackers", podemos ver que el libro recomendado es "Revelación". Estrictamente hablando, el libro "Growth Hackers" en realidad se centra en las operaciones, mientras que "Revelation" es un libro de gestión o producto, que es muy diferente del tipo de "Growth Hackers".

Para otro ejemplo, los libros recomendados que vi en el libro "Understanding Business" son los siguientes:

Estos libros recomendados son diferentes de los de Zhixing como persona que quiere. aprender negocios Para los usuarios de conocimientos, lo que en realidad es más valioso para ellos son libros con puntuaciones altas como Zhixing, por lo que el resultado de esta recomendación en realidad no es ideal.

Los libros de Wu Zhihong y los libros de Wu Jun son casi todos sus propios libros.

Los libros marcados en la imagen están todos escritos por el mismo autor que el libro actual. Aparecen con demasiada frecuencia, pero hay relativamente pocos libros de otros autores.

Según las observaciones, los resultados de la recomendación incluyen diferentes versiones del mismo libro, pero Douban en realidad ha compilado los datos de reseñas largas y reseñas cortas de libros actuales, es decir, reseñas cortas y reseñas largas de diferentes Las versiones del mismo libro son iguales. Por tanto, no es necesario recomendar versiones diferentes.