¿Cómo empezar a utilizar el procesamiento del lenguaje natural lo más rápido posible?

Autor: Liu Zhiyuan

Enlace:/question/19895141/answer/24710071.

Fuente: Zhihu.

Los derechos de autor pertenecen al autor. Para reimpresiones comerciales, comuníquese con el autor para obtener autorización. Para reimpresiones no comerciales, indique la fuente.

Ayer, un estudiante que acaba de incorporarse al laboratorio me envió un correo electrónico y me preguntó cómo encontrar trabajos académicos. Esto me recordó la situación cuando era estudiante de posgrado: veía a mis superiores hablar sobre las últimas novedades. tendencias en el campo y no sabía cómo empezar. Después de varios años de contacto con estudiantes de posgrado, finalmente puedo saber con seguridad dónde acudir para conocer las últimas tendencias en investigación científica. Creo que esto puede resultar confuso para los principiantes. En lugar de decírselo a una sola persona, es mejor escribir este conocimiento popular para reducir los problemas a más personas. Por supuesto, este resumen es sólo una opinión. Sólo espero que alguien obtenga algún beneficio de esto. Por conocimiento personal, es inevitable que cometa errores. Espero que todos puedan corregirme.

1. Las organizaciones, conferencias y artículos académicos internacionales

El procesamiento del lenguaje natural y la lingüística computacional son en gran medida consistentes. Al igual que otras disciplinas informáticas, PNL/CL tiene su propia sociedad profesional internacional de mayor autoridad llamada Asociación de Lingüística Computacional (ACL, URL: ACL Home Page). Esta asociación ha celebrado la conferencia internacional más autorizada en PNL/CL, la Conferencia Anual de ACL. La Sociedad ACL también celebrará conferencias anuales en América del Norte y Europa, llamadas NAACL y eACL respectivamente. Además, la Sociedad ACL también tiene varios grupos de intereses especiales (SIG), que reúnen a académicos de diferentes subcampos de PNL/CL y son de naturaleza similar a las sociedades de intereses en los campus universitarios. Entre los más famosos se encuentran Sigdat (método de procesamiento del lenguaje natural basado en datos y corpus del lenguaje) y SIGNLL (aprendizaje de lenguaje natural). Estos SIG también celebrarán algunas conferencias académicas internacionales, las más famosas son EMNLP (Conferencia sobre métodos inteligentes en el procesamiento del lenguaje natural) organizada por SIGDAT y CONLL (Conferencia sobre aprendizaje de lenguajes naturales) organizada por SIGNLL. Además, existe una antigua organización académica de NLP/CL llamada Comité Internacional de Logística Computarizada, que organiza una conferencia internacional cada dos años llamada Conferencia Internacional de Logística Computarizada (Colin), que también es una conferencia académica importante para NLP/CL. En estas conferencias se distribuyen los principales artículos académicos sobre PNL/CL.

Como académico en el campo de PNL/CL, mi mayor alegría es que el sitio web de la Sociedad ACL ha creado una página llamada ACL Anthology (URL: ACL Anthology), que apoya la publicación gratuita de la mayoría de los libros internacionales. Los artículos de conferencias académicas en este campo las descargas incluso incluyen conferencias académicas patrocinadas por otras organizaciones, como COLING, IJCNLP, etc. Y admite la función de búsqueda de texto completo basada en Google, que se puede decir que es una ventanilla única. Tengo un artículo de PNL. Debido a que esta colección de artículos es muy grande y de acceso abierto, muchos académicos también han realizado investigaciones basadas en ella, brindando un apoyo de recuperación más completo. Para entradas específicas, consulte los diferentes botones de búsqueda en el lado derecho del cuadro de búsqueda en la parte superior de la página de selección de ACL.

Al igual que la mayoría de las disciplinas informáticas, debido al rápido desarrollo de la tecnología, PNL/CL presta más atención a la publicación de artículos de conferencias académicas, porque el ciclo de publicación es corto y la comunicación se puede realizar a través de conferencias. Por supuesto, NLP/CL también tiene su propia revista académica emblemática, que ha publicado muchos artículos académicos clásicos, a saber, "Computational Logistics" (URL: MIT Press Journals). Hay solo unos pocos artículos en cada número de esta revista y la calidad promedio es mayor que la de los artículos de conferencias. Vale la pena realizar un seguimiento a tiempo si el tiempo lo permite. Además, para mejorar su influencia académica, la Sociedad ACL acaba de establecer las Transacciones de la ACL (TACL, URL: Transacciones de la Asociación de Lingüística Computacional (ISSN: 2307-387x)), que merecen atención. Cabe mencionar que ambas revistas también son de acceso abierto. Además, existen algunas revistas relacionadas con PNL/CL, como ACM Transactions on Speech and Language Processing, ACM Transactions on Asian Language Information Processing, Journal of Quantitative Linguistics, etc.

Según la evaluación de Google Scholar Metrics 2013 de revistas y conferencias académicas de PNL/CL, ACL, EMNLP, NAACL, COLING, LREC y títulos de lenguaje computacional se encuentran entre los cinco primeros, lo que básicamente refleja la importancia que otorgan los académicos. a este campo.

NLP/CL es un tema interdisciplinario, y sus campos relacionados también son dignos de atención. Incluye principalmente los siguientes aspectos: (1) Recuperación de información y minería de datos. Las conferencias académicas relevantes son organizadas principalmente por la American Computer Association (ACM), incluidas SIGIR, WWW, WSDM, etc. (2) El campo de la inteligencia artificial. Las conferencias académicas relevantes incluyen principalmente AAAI e IJCAI, y las revistas académicas relevantes incluyen principalmente Artificial Intelligence y AI Research Journal; (3) En el campo del aprendizaje automático, las conferencias académicas relevantes incluyen principalmente ICML, NIPS, AISTATS, UAI, etc. Las revistas académicas relevantes incluyen principalmente "Journal of Machine Learning Research" (JMLR) y "Machine Learning" (ML). Por ejemplo, se ha publicado un número considerable de artículos de investigación recientes sobre gráficos de conocimiento en conferencias y revistas en los campos de la inteligencia artificial y la recuperación de información. De hecho, la Federación de Computación de China (CCF) ha formulado el "Directorio de revistas y conferencias académicas internacionales recomendadas por la Federación de Computación de China" (Clasificación recomendada por la CCF). A través de esta lista, puede obtener información rápidamente sobre las principales revistas y conferencias académicas en diversos campos.

Finalmente, vale la pena mencionar que Hal Daumé III de Estados Unidos mantiene un blog sobre procesamiento del lenguaje natural y, a menudo, comenta sobre los últimos avances académicos, lo cual es digno de atención. A menudo leo sus pensamientos sobre la participación en conferencias académicas como ACL y NAACL y sus comentarios sobre artículos, lo cual es muy inspirador. Además, la Sociedad ACL también mantiene una página Wiki (ACL Wiki), que contiene mucha información sobre PNL/CL, como instituciones de investigación famosas, tasas de empleo en conferencias anteriores, etc. , son todos productos esenciales para uso doméstico y vale la pena profundizar en ellos.

2. Organizaciones académicas, conferencias y artículos nacionales

Al igual que la comunidad internacional, China también tiene una sociedad relacionada con PNL/CL llamada Sociedad de Información China de China (URL: Información China de China). Sociedad ). A través de la lista de directores del instituto de investigación (Instituto Chino de Investigación de Información de China), básicamente se pueden comprender las principales unidades y académicos involucrados en PNL/CL en China. La sociedad organiza múltiples conferencias académicas cada año, como la Conferencia Nacional de Lingüística Computacional (CCL), la Conferencia Nacional de Lingüística Computacional Juvenil (YCCL), la Conferencia Nacional sobre Recuperación de Información (CCIR) y la Conferencia Nacional sobre Traducción Automática (CWMT). ). Es una plataforma importante de China para intercambios académicos entre académicos de PNL/CL. Vale la pena mencionar especialmente que el Simposio Nacional de Lingüística Computacional Juvenil es una conferencia académica específicamente para estudiantes graduados nacionales de PNL/CL, desde la organización hasta la revisión por pares, todo está organizado por estudiantes graduados en este campo. Es muy singular y también es un buen lugar para que los estudiantes de PNL/CL tengan intercambios académicos y un rápido crecimiento. Vale la pena mencionar que COLING, que se celebró en Beijing en 2010, y ACL, que se celebrará en Beijing en 2015, son los principales organizadores. Esto también refleja la importante posición de la Sociedad en el campo nacional de PNL/CL. cierta medida. Además, la Conferencia sobre procesamiento del lenguaje natural y computación china (NLP y CC) también es una importante conferencia académica que ha surgido recientemente. "Journal of China Information Science", editado por la Sociedad de Información de China, es una importante revista académica en este campo en China y ha publicado muchos artículos importantes. Además, los artículos de PNL/CL a menudo se publican en revistas nacionales famosas como "China Computer Journal" y "Journal of Software", que merecen atención.

En los últimos años, la página de IA y PNL abierta en Shuimu Community BBS alguna vez fue una plataforma importante para la comunicación y el debate en línea en el campo de PNL/CL en China. En los últimos años, con el desarrollo de las redes sociales, cada vez más académicos se han trasladado a Sina Weibo, que tiene una fuerte atmósfera de comunicación. Una manera fácil de encontrar a estos académicos es buscar las palabras "procesamiento del lenguaje natural", "lingüística computacional", "recuperación de información" y "aprendizaje automático" en la función "Buscar personas" de la búsqueda de Sina Weibo, y podrá comunicarse con profesores y estudiantes que en el pasado solo veían sus nombres en los trabajos. Hay otra manera. El sistema "Weibo People Search" (Grupo de recuperación de información de la Universidad de Tsinghua) desarrollado por Liang Bin de la Universidad de Tsinghua puede buscar personas influyentes en cada campo, por lo que también puede utilizarse para encontrar académicos importantes en el campo de PNL/CL.

Vale la pena mencionar que muchos profesores y estudiantes que enseñan en el extranjero también están activos en Sina Weibo, como Wang William y Li Mu, quienes a menudo dan noticias en la industria y merecen atención. También hay un blog relativamente famoso sobre PNL/CL en China, 52nlp (I Love Natural Language Processing), que tiene una gran influencia. En resumen, la investigación académica requiere tanto trabajo duro como comunicación con las personas. El llamado hablante no tiene intención, pero el oyente sí la tiene. Quizás las palabras de otra persona puedan despertar una pregunta en la que has estado pensando durante mucho tiempo. No hay duda de que blogs como Weibo proporcionan una buena plataforma de comunicación, pero por supuesto hay que tener cuidado de no volverse adicto.

3. ¿Cómo entender rápidamente el progreso de la investigación en un determinado campo?

Finalmente, permítanme hablarles brevemente sobre mi experiencia de comprender rápidamente el progreso de la investigación en un campo determinado. Descubrirá que los motores de búsqueda son una herramienta importante para revisar la literatura, especialmente Google Scholar proporcionado por Google. Por su enorme exponente, será una poderosa herramienta para que superemos las dificultades.

Cuando necesite comprender un determinado campo, le ahorrará mucho esfuerzo si puede encontrar el resumen de investigación más reciente en ese campo. La forma más conveniente es buscar en Google Scholar "dominio + encuesta/revisión/tutorial/resumen". También hay algunas editoriales que se especializan en la publicación de artículos completos en diversos campos, como la serie "Conceptos básicos y tendencias" publicada por NOW Publisher y la serie de conferencias completa sobre tecnología del lenguaje humano publicada por Morgan & Claypool Press. Han publicado muchos comentarios populares, como resúmenes de documentos, análisis de sentimientos y extracción de opiniones, clasificaciones de aprendizaje, modelos de lenguaje, etc.

Si la dirección es demasiado nueva y no hay una revisión relevante, generalmente puede consultar los últimos artículos publicados en la dirección, leer su capítulo "Trabajo relacionado" y seguir las referencias enumeradas para obtener una idea básica. comprensión del contexto de investigación relevante. Por supuesto, hay muchas otras formas, como consultar los informes de entrenamiento presentados por académicos famosos en importantes conferencias académicas o escuelas de verano, consultar directamente a investigadores en este campo, etc.