En la minería de texto, el modelo de tema es una pieza de ajedrez especial y sus ideas son diferentes de nuestros algoritmos de aprendizaje automático comúnmente utilizados, por lo que aquí debemos resumir el algoritmo del modelo de tema de texto. Este artículo estudia principalmente el principio del algoritmo de indexación semántica latente.
1. Características del problema del modelo de tema de texto
En el análisis de datos, a menudo utilizamos algoritmos de agrupamiento de aprendizaje no supervisado, que pueden realizar un agrupamiento no supervisado de nuestros datos de características. El modelo de tema también es un algoritmo no supervisado, cuyo objetivo es obtener la distribución de probabilidad del texto en función del tema. En este sentido, los modelos temáticos son muy similares a los algoritmos de agrupación comunes. Pero en realidad hay una diferencia entre los dos.
Los algoritmos de agrupación se centran en agrupar datos en función de la similitud de las características de la muestra. Por ejemplo, mediante la distancia euclidiana entre muestras de datos, la agrupación de distancias de Manhattan, etc. El modelo de tema, como su nombre indica, es un método de modelado para temas ocultos en el texto. Por ejemplo, de las dos palabras "en nombre del pueblo" y "Secretario de Dakang", podemos encontrar fácilmente que los textos correspondientes tienen una gran relevancia temática, pero si usamos características de palabras para agrupar, es difícil encontrar eso. Porque los métodos de agrupación no pueden tener en cuenta temas ocultos.
Entonces, ¿cómo encontrar temas ocultos? Este es un gran problema. Los métodos comúnmente utilizados generalmente se basan en métodos de generación estadística. Es decir, supongamos que se selecciona un tema con una cierta probabilidad y luego se seleccionan las palabras del tema actual con una cierta probabilidad. Con el tiempo, estas frases se convirtieron en nuestro texto actual. La distribución de probabilidad estadística de todas las palabras se puede obtener del corpus. Cómo seleccionar con una cierta probabilidad es tarea de varios algoritmos de modelos de temas específicos.
Por supuesto, también existen algunos métodos que no se basan en estadísticas, como el LSI del que hablaremos a continuación.
2. Descripción general de la indexación semántica latente
Indización semántica latente (LSI), algunos artículos también se denominan análisis semántico latente (LSA). De hecho, es lo mismo. A partir de ahora lo llamaremos colectivamente LSI. Es un modelo temático simple y práctico. LSI se basa en la descomposición de valores singulares (SVD) para obtener los temas del texto. SVD y sus aplicaciones se han mencionado muchas veces en artículos anteriores, como el principio de descomposición de valores singulares y su aplicación en la reducción de dimensionalidad, y la aplicación de la descomposición matricial en algoritmos de recomendación de filtrado colaborativo. Si no está familiarizado con SVD, se recomienda revisar los principios de descomposición de valores singulares y su aplicación en la reducción de dimensionalidad antes de leer lo siguiente.
Aquí repasamos brevemente SVD: Para una matriz A de m×n, se puede descomponer en las siguientes tres matrices:
am×n = um×mσm×nvn×nT
A veces, para reducir la dimensión de la matriz a k, la descomposición de SVD se puede escribir aproximadamente como:
am×n≈um×kσk×kvk×nT
Si la fórmula anterior se aplica a nuestro modelo de tema, SVD se puede interpretar como: ingresamos m textos, cada texto tiene n palabras. Aij corresponde al valor característico de la palabra j del texto I. El valor más utilizado aquí se basa en el valor TF-IDF normalizado después del procesamiento previo. k es el número de preguntas que asumimos, que generalmente es menor que el número de textos. Después de la descomposición SVD, Uil corresponde a la correlación entre el texto I y el tema L. Vjm corresponde a la correlación entre los significados de la j-ésima palabra y la m-ésima palabra. σ lm corresponde a la correlación entre el primer tema y el significado de m.
También se puede explicar a la inversa: introducimos m palabras, correspondientes a n textos. Aij corresponde al valor de característica del j-ésimo texto del I-ésimo archivo de palabras. El valor más utilizado aquí se basa en el valor TF-IDF estandarizado preprocesado. k es el número de preguntas que asumimos, que generalmente es menor que el número de textos. Después de la descomposición SVD, Uil corresponde a la correlación entre el significado de la palabra I y la palabra L. Vjm corresponde a la correlación entre el texto j y el tema m. σ lm corresponde a la asociación entre el primer significado y m tema.
De esta manera, la correlación entre documentos y temas, palabras y significados, y significados y temas se puede obtener a través de SVD de una sola vez.
3. Ejemplo simple de LSI
El siguiente es un ejemplo simple de LSI. Supongamos que tenemos la siguiente matriz correspondiente a la frecuencia de palabras TF, con 10 palabras y tres textos de la siguiente manera:
p>
p>
Aquí no utilizamos preprocesamiento ni TF-IDF. En aplicaciones prácticas, es mejor utilizar la matriz de valores TF-IDF preprocesada como entrada.
Asumimos que el número de temas correspondientes es 2, luego las tres matrices obtenidas después de la reducción de dimensionalidad SVD son:
De la matriz Uk, podemos ver la correlación entre palabras y significados. . De Vk podemos ver la correlación de tres textos y dos temas. Como puede ver, hay números negativos, por lo que la correlación que obtiene es difícil de interpretar.
4.LSI se utiliza para el cálculo de similitud de texto.
La matriz de temas de texto obtenida por LSI se puede utilizar para calcular la similitud del texto. El método de cálculo es generalmente mediante similitud de cosenos. Por ejemplo, tome el ejemplo anterior de tres documentos y dos temas. Podemos calcular la similitud del coseno entre el primer texto y el segundo texto de la siguiente manera:
sim(d1,d2)=(?0.4945)?(?0.6458) (0.6492)?(?0.7194)( ? 0.4945)2 0.64922(?0.6458)2 (?0.7194)2
5. Descripción general del modelo de tema LSI
LSI es el modelo de tema más antiguo y el principio del algoritmo es muy simple. Una descomposición de valores singulares puede obtener el modelo de tema y resolver el problema de significado de palabras al mismo tiempo, lo cual es muy hermoso. Sin embargo, LSI tiene muchas deficiencias, por lo que básicamente ya no se utiliza en los modelos temáticos prácticos actuales.
Los principales problemas son:
1) El cálculo de SVD requiere mucho tiempo, especialmente en nuestro procesamiento de texto, la cantidad de palabras y la cantidad de texto son muy grandes. una matriz de alta dimensión La descomposición de valores singulares es muy difícil.
2) La elección del valor de la pregunta tiene un gran impacto en los resultados y es difícil elegir un valor K apropiado.
3) LSI no es un modelo de probabilidad y carece de base estadística, lo que dificulta la interpretación intuitiva de los resultados.
Para la pregunta 1), NMF puede resolver el problema de velocidad de descomposición matricial. En cuanto a la pregunta 2), ésta es una pregunta antigua. La cantidad de temas en la mayoría de los modelos de temas generalmente se elige empíricamente, y el proceso jerárquico de Dirichlet (HDP) más nuevo puede seleccionar automáticamente la cantidad de temas. Para la pregunta 3), los revendedores han desarrollado modelos temáticos basados en la distribución de probabilidad, como pLSI (también llamado pLSA) y distribución latente de Dirichlet (LDA), para reemplazar los modelos temáticos basados en la descomposición matricial.
Volviendo al propio LSI, para algunos problemas de pequeña escala, si desea descubrir de forma rápida y aproximada la relación entre algunas distribuciones de temas, LSI es una mejor opción. Otras veces, si necesita utilizar modelos temáticos, se recomiendan LDA y HDP.