El concepto de índice

Indexación, como sugiere el nombre, una etiqueta es una marca y una referencia es una guía que guía a las personas a encontrar la información que necesitan rápida y fácilmente a través de la marca. Mediante el análisis de la literatura, se seleccionan etiquetas de búsqueda precisas (números de categoría, nombres de títulos, descriptores, palabras clave, nombres de personas, nombres de lugares, etc.) para reflejar el contenido literario. La indexación es una parte importante del procesamiento de documentos. A través de la indexación, los trabajadores de documentos asignan etiquetas de recuperación de documentos e indican categorías temáticas de sus características de contenido, y luego las utilizan para compilar varios catálogos e índices que contienen información bibliográfica y los almacenan en computadoras para realizar la recuperación de documentos. Los índices se pueden distinguir según el tipo de idioma de búsqueda utilizado. Cuando se utiliza un lenguaje de búsqueda de clasificación, se denomina indexación de clasificación. Cuando se utiliza un lenguaje de búsqueda de materias, se denomina indexación de materias. La indexación de materias se divide en indexación controlada e indexación no controlada. La indexación controlada significa que las palabras estándar correspondientes deben seleccionarse de un tesauro (tesauro) preespecificado para indexar el documento. La indexación no controlada, también llamada indexación de palabras libres, significa que el indexador selecciona directamente palabras en lenguaje natural en el documento para indexar el documento sin establecer un vocabulario estándar. La esencia de la indexación es clasificar y distinguir las categorías temáticas de los documentos en función de las características de su contenido.

La calidad de la indexación tiene un impacto directo y decisivo en la eficacia de la recuperación de documentos. Para medir la calidad de un índice se suelen utilizar dos métricas objetivamente comparables: la exhaustividad y la coherencia. La exhaustividad del índice, ya sea que las citas del índice reflejen todos los temas tratados en el documento; la coherencia de la indexación se refiere a la coherencia de diferentes indexadores o del mismo indexador que indexa los mismos documentos temáticos en diferentes momentos. Desde la perspectiva de la recuperación de literatura, una alta exhaustividad favorece la mejora de la tasa de recuperación; una fuerte coherencia favorece la mejora de la tasa de precisión.

Aunque la gente ha podido realizar búsquedas de texto completo a través de bases de datos en red, esto no significa que se haya reducido la importancia de la indexación. Por el contrario, frente a la recuperación y extracción masiva de información, la indexación se ha vuelto cada vez más importante. Sin embargo, la indexación manual requiere mucho tiempo y es laboriosa. Tomemos como ejemplo la base de datos de documentos geológicos chinos (chino). La base de datos de documentos geológicos chinos (chino) es una base de datos abstracta creada por la Biblioteca Geológica de China. Utilizando las revistas y libros de la Biblioteca Geológica de China como principal fuente de datos, el control y la indexación de documentos se llevan a cabo de acuerdo con el "Glosario de materias geológicas chinas" (2010), y la edición y el procesamiento están a cargo de más de diez indexadores experimentados. . Al buscar datos de 2013 en la base de datos de literatura geológica china (chino), hay 7915 elementos * * *; en la base de datos de la revista CNKI, hay 24923 elementos de datos para geología y geofísica en 2065, 438-03 solamente. La indexación manual no sólo es lenta sino que también tiene poca coherencia. El erudito estadounidense P. Lunds realizó una vez un experimento. Tenía seis indexadores indexando el mismo documento al mismo tiempo y la consistencia fue de 15,8. Dos personas que indexan el mismo documento al mismo tiempo tienen una consistencia de 54,3 mientras que el mismo documento indexado por la misma persona en diferentes momentos tiene una consistencia de sólo 66,2.

Se puede ver que la indexación manual ya no puede hacer frente al crecimiento explosivo de la información actual. Sólo el aumento de la mano de obra puede ser el final del camino. Con el establecimiento de sistemas informáticos de recuperación y la aplicación y desarrollo de bases de datos bibliográficas, ha surgido la indexación automática. La indexación automática se refiere al proceso de extraer marcas de búsqueda de información o documentos fácticos (temas, resúmenes y textos) para ser almacenados y recuperados por sistemas informáticos.