Procesamiento del lenguaje natural vernáculo (2): clasificación de texto

Hace dos años, comencé mi carrera en minería de textos con la cara en blanco. La primera tarea que me asignó mi líder fue una tarea de clasificación de textos. Mi amigo me enseñó paso a paso cómo realizar una tarea de tres categorías. Comencé rápidamente y la energía positiva explotó. Resulta que esto es procesamiento del lenguaje natural y ¿no es tan complicado? Los ignorantes no tienen miedo.

El procesamiento del lenguaje natural es extenso y profundo, y cuanto más detalles obtiene, más difícil se vuelve. Si no tienes cuidado, abandonarás el principio. Una buena tarea para principiantes es el requisito previo para comenzar y profundizar, y la tarea de clasificación de texto es una muy buena opción. Está garantizado que te dará mucha sangre. ¿En cuanto a si puedes persistir hasta el final? No es nuestra preocupación por el momento. Todo es difícil al principio y la probabilidad de un buen comienzo y un buen final es mayor. Sin más, volvamos al grano y comencemos a decir tonterías.

Todo el mundo conoce la clasificación, ¿verdad? Permítanme intentar definirlo con valentía y dividir las cosas en varias categorías según ciertas características.

La clasificación está en todas partes en la vida. Hace algún tiempo, la clasificación de basura en Shanghai era muy popular, ¡aunque sea de un solo tipo! Clasificar los residuos según su material/reciclabilidad. No mucho después de que saliera la clasificación de basura, algunos amigos inteligentes nos preguntaron si podíamos desarrollar un modelo de clasificación de basura. Las oportunidades de negocio eran infinitas. Lamenté que mi amigo fuera director ejecutivo porque era muy inteligente, por lo que no pagué mucho. atención a ello. Sin embargo, no pasó mucho tiempo hasta que aparecieron en el mercado varias aplicaciones de clasificación de basura y pareció que se había perdido una oportunidad de negocio de 100 millones.

Cuando estaba en la escuela, no sabía lo suficiente sobre clasificación. Pensé que no tenía sentido tener tantas clasificaciones. En ese momento, a los artículos del grupo de jefes de Wen Xiaogang les gustaba clasificarlos en varias categorías. Sin embargo, debido a su coeficiente intelectual limitado, él siempre estaba en la oscuridad. Más tarde, hice una tarea de clasificación de texto y luego gradualmente comencé a pensar por qué es necesaria la clasificación. Creo que lo más simple es que clasificación significa conocimiento de las cosas, que pueden ubicarse en categorías más finas y filtrarse; cuanto más fina sea la clasificación, más clara será nuestra investigación y, en última instancia... (Perdón por mi comprensión superficial, la historia está editada No más)

Ahora que conoce la clasificación y comprende su importancia, será fácil hablar sobre la clasificación de texto. La llamada clasificación de textos, para decirlo sin rodeos, consiste en clasificar textos según determinadas características. Por ejemplo, la clasificación de emociones, que clasifica el texto según su polaridad emocional; y la clasificación de emociones, que se ha utilizado recientemente en chatbots, divide los textos en feliz, enojado, decepcionado... balabala; basura... y hay algunas tareas de clasificación interesantes, como detectar el sesgo de género de una oración, si el texto es coloquial... Todo esto está compuesto por mi cerebro. También puedes pensar en qué tareas interesantes de clasificación de texto. /p>

Desde la aplicación Para realizar una clasificación de texto, primero necesita saber cuál es su objetivo y qué tipo de modelo de clasificación desea construir. Sería mejor establecer un conjunto claro de criterios de clasificación para que podamos obtener los datos. Es posible utilizar reglas o carne humana. Con un conjunto de datos, puedes probar varios modelos de clasificación, que pueden ser complejos o simples, emocionantes o aburridos... (Por supuesto, eventualmente te darás cuenta de que cuanto más complejo sea el modelo, mejor; ¡lo simple puede ser lo mejor! )

Aquí se supone que hemos definido claramente la tarea de clasificación a realizar y también tenemos una parte del conjunto de datos. Luego podemos hablar sobre métodos de clasificación de texto, que van desde simples hasta avanzados (de todos modos, no tienes que pagar impuestos si presumes. Si dices algo mal, ¡como mucho te abofetearán! No tengo miedo. de ser grueso).

Cuando realiza la tarea de identificar correos electrónicos no deseados, puede aprender Naive Bayes. En pocas palabras, al juzgar la probabilidad de que aparezca cada palabra en los correos electrónicos no deseados, en última instancia puede determinar si el texto completo es correo no deseado. . En este momento, todos serán adoctrinados repetidamente con la fórmula bayesiana. Cuando escuchen el nombre, pueden pensar que es elevado. Muchos estudiantes pueden sentirse intimidados, pero cuando realmente lo escriben y lo entienden, es simple, elegante y. ¡elegante! (Las matemáticas realmente no son algo que un perdedor como yo pueda hacer).

Sin embargo, el ingenuo método de Bayes es demasiado simple. Debe satisfacer el supuesto de independencia condicional y su rendimiento suele ser promedio. En este momento podemos utilizar otras armas convencionales, como los árboles de decisión. ¡La lógica algorítmica de los árboles de decisión es muy interesante y se ajusta a la lógica de las personas que toman decisiones! El texto se clasifica juzgando si las características cumplen ciertas condiciones una por una.

Si crees que un árbol no es lo suficientemente decisivo, puedes utilizar el método integrado. El llamado método integrado significa que si no puedes luchar solo, lucharemos en grupos. Siempre hay una manera de matarte. Los métodos de integración se pueden dividir en dos categorías: uno es el método de embolsado, que utiliza varios árboles para tomar decisiones por separado y luego combina sus resultados. El otro es el método de impulso, que probablemente tenga errores; En la toma de decisiones del árbol, usaré otro árbol para conocer los errores. Si no funciona, lo intentaré de nuevo... ¿Alguna vez pensaste que los descendientes de cierto hijo serán infinitos? Por supuesto, somos mortales. ...

Existen otros algoritmos convencionales SVM (a los ingenieros de algoritmos de entrevistas de reclutamiento escolar les da vergüenza decir que entienden el aprendizaje automático incluso si no conocen SVM), regresión logística, perceptrón...

Después de hablar de armas convencionales, comencemos con armas avanzadas: Snake Network. Pero primero sentemos las bases. Cuando comencé a buscar trabajo, el aprendizaje profundo ya había revivido y se había vuelto popular. El aprendizaje profundo estaba en todas partes. En ese entonces, Nature o Science publicaron varios artículos sobre el uso de Snake Networks. sobre el fuerte acoplamiento siento que todo el círculo de la física está inquieto, pero los grandes siguen siendo relativamente racionales y señalan que Shejing Network no ha resumido las leyes básicas de la física. No somos grandes, simplemente estamos emocionados de ver que esta vez nuestros puestos de trabajo finalmente están asegurados.

Personalmente, creo que el mejor algoritmo de red serpiente para la clasificación de texto es fasttetxt. El modelo es simple y eficiente, y la precisión también es buena. El modelo se puede entrenar y aplicar rápidamente en línea, y la tarea de liderazgo se informará en minutos. Dé instrucciones para el siguiente paso. Sin embargo, aunque fasttext es bueno, hay un problema. No presumas. Cuando llegues al final del año, si les dices a los jefes que usé fasttext para completar una determinada tarea, lo más probable es que no puedas ascender. y aumento de salario (solo una broma).

No solo necesitamos texto rápido para averiguarlo, también necesitamos TextCNN (convolución para aprender características locales de n-gramas), RNN (el texto es una secuencia) y transferencia de aprendizaje (aunque las tareas son diferentes, hay son** *, por lo que se puede transferir. Generalmente, cuanto más superficial es una red neuronal, más versátil es. El entrenamiento previo también se puede considerar como transferencia. El recientemente popular BERT, GPT ...), aprendizaje activo (. cuando hay pocas muestras) Es una buena opción en ese entonces, me jacté de que el aprendizaje activo puede ayudarnos a etiquetar automáticamente algunos datos no etiquetados pero de alta confianza. Este lote de datos contendrá más datos, lo que puede expandir gradualmente las capacidades del modelo. )..

Es fácil dejarse llevar si se habla demasiado de algoritmos. Volvamos a las aplicaciones prácticas. Entonces, ¿qué son las tareas de texto? De hecho, ya lo dije antes y lo repetiré nuevamente

Accidentalmente caí en el pozo de la clasificación de textos. Al principio me sentí complaciente y pensé que las tareas de clasificación eran bastante divertidas. Se volvió cada vez más complejo y me sentí un poco abrumado. Sea discreto...

Varias cuestiones a las que prestar atención en las tareas de clasificación ¿Qué debe hacer cuando sus datos son insuficientes? Hay varias opciones para usar modelos simples, transferir aprendizaje, aprendizaje activo y mejorar datos de texto (pero la mejora de texto no es tan efectiva como las imágenes; hay mejoras de texto mediante traducción multilingüe, lo cual es bastante divertido). ¿Cómo elegir un modelo? Hemos introducido muchos métodos antes. ¿Qué modelo se utilizará al final? De hecho, el efecto integral final requiere recursos. Un buen efecto puede consumir recursos. Cuando lo aplicamos en la práctica, tenemos cierta tolerancia al error y no debemos tener un trastorno obsesivo-compulsivo. Con amigos inteligentes, comprender los datos puede ayudarnos a elegir mejor los modelos. Otros problemas incluyen, entre otros, la distribución desigual de los datos de categorías, la guía de alquimia y la mezcla de ginseng...

La clasificación del texto está aquí, espero que no todos se dejen engañar.

/u014248127/article/details/80774668