Descripción general del corpus

Sustantivo (corpus, empresa plural)

Se refiere a una gran biblioteca de textos electrónicos que ha sido muestreado y procesado científicamente. Con la ayuda de herramientas de análisis informático, los investigadores pueden realizar investigaciones sobre la teoría y las aplicaciones del lenguaje.

Colección

Sustantivo (abreviatura de sustantivo) (pl. corpus)

Se refiere a una gran cantidad de textos electrónicos que han sido muestreados y procesados ​​sobre estos. textos, El estudio del lenguaje, tanto teórico como aplicado, se puede realizar con la ayuda de herramientas informáticas.

Corpus es el recurso básico para la investigación lingüística de corpus y la principal fuente de métodos empíricos de investigación del lenguaje. Se puede utilizar para lexicografía, enseñanza de idiomas, investigación de idiomas tradicionales, estudios estadísticos o basados ​​en casos en el procesamiento del lenguaje natural, y más. Hay muchos tipos de corpus. La base principal para determinar el tipo es su propósito y uso de investigación, que a menudo puede reflejarse en los principios y métodos de recopilación del corpus. Alguien una vez dividió los corpus en cuatro tipos: ① Tipo heterogéneo: no existe un principio de recopilación de corpus específico, y varios corpus se recopilan y almacenan ampliamente tal como están (2) Homogéneos: solo se recopilan corpus con contenido similar; ⑶ Sistemático: según; predeterminado Recopilar corpus basándose en principios y proporciones para que el corpus sea equilibrado, sistemático y capaz de representar hechos lingüísticos dentro de un cierto rango (4) Especialización: solo recopile corpus para propósitos específicos;

Además, según el idioma del corpus, el corpus también se puede dividir en corpus monolingüe, corpus bilingüe y corpus multilingüe. Según la unidad de recopilación del corpus, el corpus se puede dividir en textos, oraciones y frases. Según la forma organizativa del corpus, los corpus bilingües y multilingües también se pueden dividir en corpus paralelos (alineados) y corpus comparativos. El primer corpus forma una relación de traducción y se utiliza principalmente en campos de aplicación como la traducción automática y la compilación de diccionarios bilingües. El segundo recopila textos en diferentes idiomas que expresan el mismo contenido y se utiliza principalmente en investigaciones comparativas de idiomas. Se ha acumulado una gran cantidad de corpus de varios tipos, tales como: base de datos de árbol portugués, corpus de clasificación de noticias chino-inglés para investigación de clasificación de textos, corpus de entrenamiento de clasificación de textos de Reuters, corpus de clasificación de textos chinos, biblioteca de subtítulos abierta (OpenSubtitles Corpus) multi- corpus paralelo lingual Datos, corpus bilingüe bíblico, corpus de servicio de mensajes cortos (SMS), etc. El corpus tiene tres características.

1. El corpus contiene materiales lingüísticos que realmente aparecen en el uso real del lenguaje, por lo que la biblioteca de oraciones de ejemplo no debe contarse como un corpus.

El corpus es el recurso básico que transporta el conocimiento del lenguaje, pero no es igual al conocimiento del lenguaje.

3. El corpus real necesita ser procesado (analizado) antes de que pueda convertirse en un. recurso útil.

El desarrollo de los corpus ha pasado por la etapa inicial (antes de la invención de las computadoras), el corpus de primera generación, el corpus de segunda generación y el corpus de tercera generación.