A partir de la investigación de la traducción automática y la inteligencia artificial en la década de 1950, la PNL (procesamiento del lenguaje natural) tiene una historia de medio siglo.
En este proceso, la comunidad académica ha propuesto muchas teorías y métodos importantes y ha logrado ricos resultados.
El autor cree que en los últimos veinte años, estas contribuciones históricas en este campo son las siguientes:
(1) Conjuntos de características complejas y gramática unificada; (2) Lexicalismo en la investigación lingüística; (3)
Métodos de corpus y modelos de lenguaje estadístico. Estos tres logros seguirán teniendo un profundo impacto en la lingüística y la lingüística computacional. y la investigación de PNL para comprender mejor la importancia de estos logros, primero los presentamos y
Dos hechos relacionados
2. Primer hecho: la gramática de la estructura de la frase no puede describir eficazmente el lenguaje natural >
En el procesamiento del lenguaje natural, para identificar la estructura sintáctica de la oración de entrada, primero debe
cortar las palabras de la oración. uno por uno, y luego busque en el diccionario para dar una referencia a cada palabra de la oración
Pronuncie la parte apropiada del discurso; luego use reglas de sintaxis para envolver la oración. Identificar uno a uno los sintagmas nominales, verbales, cláusulas y demás componentes sintácticos contenidos en él.
Y determinar la función sintáctica de cada sintagma, como sujeto, predicado, objeto, etc., y su semántica. papel,
Finalmente, se obtiene la expresión del significado de la oración, como una expresión semántica lógica.
Todo el proceso
El primer hecho. Lo que se menciona en este artículo es: la gramática de la estructura de frases (PSG) no se puede describir de manera efectiva. La investigación del lenguaje natural de PSG
La teoría juega un papel importante en la descripción sintáctica del lenguaje natural.
Sin embargo, tiene algunas debilidades fundamentales, principalmente porque utiliza partes del discurso y frases, por lo que no puede representar ni explicar eficazmente las ambigüedades estructurales en los lenguajes naturales.
Mire el problema en chino. La combinación de "V+N". Si tomamos "golpear, encomendar, investigar", etc.
La palabra se designa como verbo (v); Estas palabras se utilizan como sustantivos (
n), y "fuerza de la represión" y "método de encomienda" son frases nominales (NP "Represión contra la piratería" y "cliente A" son frases verbales). (VP), por lo que habrá las siguientes dos diferencias.
Reglas sintácticas de significado:
(1)NP→VN
( 2) Frase verbal → Frase verbal
En otras palabras, cuando la computadora observa secuencias adyacentes de partes del discurso "V+N" en el texto, aún no está seguro
de que son NP o VP. . A este tipo de ambigüedad lo llamamos "ambigüedad de tipo frase". Por ejemplo:
La empresa está contratando vendedores.
La tierra está constantemente [cambiando v Forma n] VP
Observando la combinación de "n+v", también habrá reglas para tipos de frases ambiguas.
Sí, por ejemplo:
(3) NP→. Caso NV: estudio de mercado; influencia política.
(4) Ejemplo S→NV: los precios suben; la situación es estable
El símbolo s representa la cláusula.
No sólo eso, a veces, cuando la máquina observa secuencias adyacentes de partes del discurso "n+v", ni siquiera puede determinar si están en la misma frase, es decir, parte de "n+v". secuencia del habla
Puede formar una frase nominal NP o una cláusula S, o puede no estar en la misma frase en absoluto Después...
Esta ambigüedad se llama "Fase". ambigüedad de límites". Aquí hay dos ejemplos relevantes:
El NP [Railway N Construction V] de China se está desarrollando muy rápido.
[China Railway N] NP Construction V es muy rápido. Rápido
En el ejemplo anterior, "construcción ferroviaria" forma un NP; en el último ejemplo, estas dos
dos palabras adyacentes pertenecen a dos frases diferentes.
Esto es suficiente para demostrar que basándose en un solo token, el PSG no puede describir completamente la ambigüedad sintáctica en lenguaje natural. Echemos un vistazo a algunos de ellos.
Ejemplo.
(5)NP→V N1 de N2
(6)VP→V N1 de N2
Donde de representa la partícula estructural "de". Por ejemplo, "VP pela una manzana con un cuchillo" es NP pero "pelar una manzana" NP es VP; Existe tanto ambigüedad de tipo de frase como ambigüedad de frase.
Límites borrosos. Por ejemplo, dos palabras adyacentes "pelar V manzana N" podrían formar una palabra.
VP, también puede estar en dos frases adyacentes.
(7)NP→P N1 de N2
(8)PP→P N1 de N2
La p y PP en las reglas representan preposiciones y preposiciones respectivamente frase. Por ejemplo, "el sello de PP [para Shanghai]
Elefante" es NP; y "para [estudiante de Shanghai] NP" es PP. La palabra adyacente "phu N"
puede. formar un PP, o pueden ser dos frases
(9)NP→NumP N1 de N2
Donde NumP representa una frase cuantitativa aunque la regla (9) representa un NP. pero se puede reemplazar individualmente
Significado de la estructura de la Tabla 2:
Por ejemplo, cinco [empleados de la empresa] NP
(9b) [NUMP. N1. ] NP Den2 Por ejemplo, [cinco empresas] empleados de NP
(10)NP→N1 N2 N3
La regla (10) también representa un NP, pero primero combina "N1+ . N2", o "N2+N3".
En primer lugar, habrá dos métodos estructurales y significados diferentes, a saber:
(10a) [n 1n 2] npn. 3 como: Diccionario NP [chino moderno]
(10b) N1 [N2n3] NP como la nueva versión del [Diccionario chino] NP
El primer hecho discutido anteriormente muestra. : p>
Las reglas del PSG con marca única no pueden resolver completamente la ambigüedad del tipo y los límites de las frases debido a la falta de fuerza vinculante.
En términos matemáticos, las reglas del PSG son necesarias pero no suficientes. p >
Entonces la máquina solo determina si una regla es corta basándose en una secuencia de parte del discurso a la derecha
El lenguaje, o cualquier frase, tiene cierta incertidumbre
.Usar la complejidad. Reconstruir el sistema gramatical del lenguaje natural utilizando conjuntos de características y métodos de lexicalismo es el esfuerzo más importante realizado por los lingüistas de todo el mundo en las últimas dos décadas.
2.2 Hecho 2- La cobertura limitada. de reglas de estructura de frase
A través del examen de corpus a gran escala, se encontró que la distribución de reglas de frase en un idioma se ajusta a la ley de Zipf
Zipf es un estadístico y un lenguaje. El científico propuso que si se cuenta una unidad de lenguaje (ya sea una letra o una palabra), se coloca esa unidad de lenguaje.
La frecuencia de un corpus se denota por F. Ordenar en orden descendente de. frecuencia
A cada celda se le asigna un rango entero R. El resultado es que el producto de R y F es aproximadamente
una constante F...w│w│w).
..p (w [, n] │ w...w │ La probabilidad condicional de w, etc. No
Es feo Para predecir la palabra W │ W [,1]) II [, I = 3,...,n]P(w[,i].
│w[,i-2]w[,- 1]) ( 5)
El método del modelo de lenguaje estadístico es un poco como el pronóstico del tiempo. Estimación a gran escala de parámetros de probabilidad.
El corpus es como los registros meteorológicos acumulados en una región durante muchos años. usando tres elementos. Modelos para crear el cielo
El pronóstico del tiempo es como predecir el tiempo para el día actual basándose en las condiciones climáticas de los dos días anteriores. ¿Cuándo es la previsión meteorológica?
Sin embargo, no puede ser 100% correcta. Esta es también una característica de los métodos de probabilidad y estadística.
3.3.1 Reconocimiento de voz
La gente confía cada vez más en el reconocimiento de voz, como alternativa a la entrada de caracteres chinos mediante el teclado de la computadora.
Interés de todos los ámbitos de la vida.
La llamada máquina de dictado es uno de esos productos. Según los informes, los teléfonos móviles de China
Con la popularidad de los teléfonos móviles y los asistentes digitales personales (PDA), el número de usuarios de teléfonos ha superado los 100 millones, especialmente.
Cuando estos dispositivos portátiles puedan acceder a Internet de forma inalámbrica, esto es aún más urgente para los usuarios.
Me gustaría utilizar el reconocimiento de voz o un panel de escritura a mano en lugar de un teclado para ingresar mensajes de texto cortos.
De hecho, la tarea de reconocimiento de voz puede considerarse como un problema de calcular el valor máximo de la siguiente probabilidad condicional:
W[*]=argmax[, W]P (W│Señal de voz)
=argmax[, W]P(Señal de voz│W)P(W)/
Señal de voz
=argmax[ , W]P (Señal de voz│W)P(W) (6)
El símbolo matemático argmax[, w] en la fórmula indica el cálculo de la probabilidad condicional P (W) para diferentes secuencias de palabras candidatas W
│señal de voz), haciendo que W[*] sea el que tiene el mayor valor de probabilidad condicional.
Secuencia de palabras, que es el resultado del reconocimiento seleccionado por el ordenador. En otras palabras, mediante la fórmula (6)
Mediante el cálculo, la computadora encuentra la cadena de palabras W[1 que es más adecuada para la señal de voz de entrada actual.
*].
La segunda línea de la ecuación (6) es el resultado de la transliteración de la ley de Bayes, porque la probabilidad condicional p(
Señal de voz │W) es más fácil de estimar. El denominador P (señal de voz) de la fórmula es una constante para la señal de voz dada y no afecta el cálculo del valor máximo, por lo que se puede eliminar de la fórmula.
Excepto. En los resultados mostrados en la tercera línea, P(W) es el modelo de lenguaje estadístico mencionado anteriormente, es decir, generalmente se utiliza el modelo ternario mostrado en la ecuación (5) p(señal de voz │W) llamado modelo acústico;
En este punto, los lectores pueden haber comprendido que la conversión de caracteres pinyin-chinos en el método de entrada chino Pinyin es arbitraria.
De hecho, el servicio también se implementa de la misma manera. El modelo de idioma chino utilizado por ambos es el binario (o modelo ternario).
Es el mismo modelo.
Los productos de máquina de dictado actualmente en el mercado y el método de entrada Microsoft Pinyin (versión 3.0) utilizan palabras.
La implementación del modelo ternario casi no requiere análisis sintáctico y semántico. Porque, según revisiones comparables,
los resultados de las pruebas muestran que la tasa de error del sistema de conversión de caracteres pinyin-chino implementado utilizando el modelo ternario es mayor que la de otros productos
en aproximadamente un 50%.
3.3.2 Etiquetado de partes de la oración
Aproximadamente el 14% de los tipos de palabras en el tesauro tienen más de una parte de la oración. En el corpus,
las palabras que representan aproximadamente el 30% del número total de palabras tienen más de una parte del discurso. Por lo tanto, para cada texto
el etiquetado de una palabra como parte del discurso tiene como objetivo resolver la ambigüedad de la parte del discurso a través de restricciones contextuales. Calendario
Ha habido dos sistemas automáticos de etiquetado de partes del discurso en la historia. Una es utilizar reglas sensibles al contexto.
Luego se llamó TAGGIT (1971), y otro modelo binario que aplicaba partes del discurso se llamó CLAWS (
1987) (ver Garside et al. 1989). Los dos sistemas se utilizan respectivamente para evaluar 6,5438 millones de palabras en inglés.
Implementar etiquetado de parte de la oración para texto sin restricciones. Los resultados muestran que la precisión de la anotación del sistema PAW y del modelo de lenguaje estadístico es mucho mayor que la del sistema TAGGIT basado en el método de reglas. Consulte la siguiente tabla.
Relación:
Nombre del sistema Taggit (1971) CLAWS (1987) Número de anotación 86 133 Método 3000 Regla CSG Precisión de anotación del modelo de Markov oculto 77% 96% Corpus de prueba Brown LOB.
Supongamos que c y w representan el orden de las etiquetas de parte del discurso y el orden de las palabras respectivamente, entonces el problema del etiquetado de parte del discurso puede considerarse como una solución.
Calcule el valor máximo de la siguiente probabilidad condicional:
C[*]=argmax[,C]P(C│W)
=argmax[ ,C ]P(W│C)P(C)/P(W)
≈argmax[, C]ⅱ[, i=1,…,n]P(w[,i]│ c[ ,i])P(c[,i]│c[,I
-1]) (7)
donde P(C│W) es la entrada conocida secuencia de palabras Cuando W, aparece la secuencia de etiquetas de parte del discurso C.
Probabilidad de conteo de piezas. La notación matemática argmax[,C] representa encontrar la secuencia de etiquetas de parte del discurso C[*] que maximiza la probabilidad condicional examinando diferentes partes candidatas de la secuencia de etiquetas del discurso C
. Este último debería ser el resultado del etiquetado de parte del discurso de
w.
La segunda línea de la fórmula es el resultado de la transliteración de la ley de Bayes, porque se da el denominador P(W)
w es una constante y no afecta el cálculo del valor máximo. Se puede calcular eliminando de la fórmula. Y luego abierto al público
Una especie de análisis aproximado. Primero, se introduce el supuesto de independencia y se considera que cualquier palabra w[,i] sale.
La aproximación de probabilidad actual solo está relacionada con la etiqueta de parte del discurso c[,i] de la palabra actual, sino con el entorno (contexto).
Las etiquetas de parte del discurso son irrelevantes. Entonces la probabilidad léxica se puede calcular de la siguiente manera:
P(W│C)≈ⅱ[,i=1,…,n]P(w[,i]│c[,i]) ( 8)
En segundo lugar, se adopta una hipótesis binaria, es decir, se considera aproximadamente la probabilidad de aparición de cualquier etiqueta de parte del discurso c[,i].
Solo relacionado con su etiqueta de parte gramatical anterior c[, i-1]. Regla
P(C)≈P(c[,1])ⅱ[,i=2,…,n]P(c[,i]│c[,i-1]) (9 )
P(c[,i]│c[,i-1]) es la probabilidad de transición de la etiqueta de parte del discurso, también llamada dualidad basada en la parte del discurso.
Modelo.
Estos dos parámetros de probabilidad se pueden estimar a partir del corpus con etiquetas de parte del discurso:
P(w[,i]│c[,i])≈count(w [, i],c[,i])/count(c[,i])(
10)
P(c[,i]│c[,i- 1] )≈count(c[,i-1]c[,i])/count(c[,i-1]
) (11)
Según literatura informes, utilice métodos de modelo de lenguaje estadístico y el etiquetado de partes del discurso en chino e inglés sea correcto.
La tasa puede alcanzar alrededor del 96% (Bai Shuaihu 1992).
3.3.3 Ambigüedad de adjunto de la frase preposicional PP
En inglés, si una frase preposicional se adjunta al sustantivo o verbo anterior es una oración.
Problemas comunes de ambigüedad estructural en el análisis jurídico. El siguiente ejemplo ilustra cómo resolver este problema utilizando un enfoque de corpus.
Una pregunta es qué tan alto se puede lograr la tasa de precisión con este método.
Por ejemplo: Pierre Vinken, de 61 años, se incorpora al consejo de administración como director.
Consejero no ejecutivo.
Supongamos que a = 1 representa la vinculación del sustantivo y a = 0 representa la vinculación del verbo, entonces se puede expresar el problema de vinculación PP en el ejemplo anterior.
Usado para:
(A=0, V=unido, n 1 =placa, P=as, N2 =controlador)
Sean V , N1 y N2 representan respectivamente la frase verbal, la frase objeto y la palabra central de la frase objeto.
Y la probabilidad de la siguiente cuatro tupla se cuenta en el corpus con etiquetas sintácticas (también llamada biblioteca de árbol).
P[, r]:
P[, r]=(A=1│V=v, N1=n1, P=p, N2=n2) (10)
El algoritmo para juzgar el adjunto PP de la oración de entrada es el siguiente:
Si p [, r] = (1 │ V, n1, P, n2) ≥ 0,5,
Luego se determina que PP está adjunto a n1,
En caso contrario, se determina que PP está adjunto a v.
Corporación Collins. El corpus utilizado en el experimento de Brooks (1995) fue anotado por la Universidad de Pensilvania.
Banco de árboles del WSJ, que incluye: conjunto de entrenamiento de 20.801 cuádruples, pruebas.
Intenta configurar 3097 quads. Hicieron los siguientes puntos con respecto a los límites superior e inferior de la precisión de la medición automática de los accesorios de PP.
Análisis:
Todos se consideran adjuntos de sustantivos (es decir, A ≡ 1) 59,0%
Solo el 72,2% de los adjuntos más comunes de la preposición P son consideró.
Los tres expertos juzgaron el 88,2% basándose únicamente en las cuatro palabras "centro".
Los tres peritos valoraron el 93,2% de la sentencia completa.
Obviamente, el límite inferior de precisión del juicio automático es del 72,2%, porque la máquina no será mejor que simplemente considerar la sentencia.
La unión más común de la preposición p es aún peor; el límite superior es del 88,2%, porque la máquina no es tan buena como tres.
Los expertos emiten mejores juicios basándose en estas cuatro palabras centrales.
El artículo informa que de los 3.097 cuadriláteros probados, el sistema identificó correctamente los cuadriláteros.
Es 2606, por lo que la precisión media es del 84,1%. Esto es diferente del límite superior del 88,2% mencionado anteriormente
En comparación, debería decirse que es un resultado bastante bueno.
4. Conclusión
Los esfuerzos de los lingüistas, ya sea utilizando conjuntos de características complejas y gramáticas unificadas, o lexicalismo.
Todos los métodos son grandes contribuciones realizadas bajo el llamado marco racionalista original. El método léxico
es particularmente loable porque no sólo propone una representación más detallada del conocimiento del lenguaje.
También encarna una nueva idea de desarrollo progresivo y acumulación del conocimiento del lenguaje. Particularmente digno de atención.
Parece que los corpus y los métodos estadísticos han jugado un papel importante en el desarrollo de muchos recursos léxicos.
Función. Este es también un buen comienzo para la integración del empirismo y el racionalismo. Pen
Los investigadores creen que los métodos de corpus y los modelos de lenguaje estadístico son la corriente principal actual de la tecnología de procesamiento del lenguaje natural.
Su valor práctico ha sido demostrado en muchos sistemas de aplicación. La investigación de modelos de lenguaje estadístico,
especialmente en el modelado estadístico de objetos estructurados, todavía tiene un amplio margen de desarrollo.
Referencias:
Altz, Jane & amp William Mays (Eds. 1990. Corpus Linguistics: Theory and Practice [C] 〕Amsterdam: Rodopi.
Collins, M. y J. Brooks. 1995. Frases preposicionales
Conexión a través del modelo inverso [P]. En actas
Tercer taller sobre corpus muy grandes. Cambridge, Massachusetts.
Garside, R., G. Leech y G. Sampson (eds. 1989. El análisis computacional del inglés: un enfoque basado en corpus).
Londres: Longman.
Hudson, Rhode Island 1991. Gramática de palabras en inglés [M] Cambridge,
Calidad. : Basil Blackwell.
Bai Shuaihu, 1992, Investigación sobre el sistema automático de etiquetado de partes del discurso chino [〔马〕]. Tesis de maestría, Departamento de Computación, Universidad de Tsinghua
Departamento de Ciencia y Tecnología Mecánica.
Dong Zhendong y Dong Qiang, 1997, HowNet[J]. El tercer tema de la aplicación del lenguaje.
Yu et al., 1998, "Diccionario de información gramática china moderna" [M]. Beijing:
Prensa de la Universidad de Tsinghua.