La calidad de la indexación tiene un impacto directo y decisivo en la eficacia de la recuperación de documentos. Para medir la calidad de un índice se suelen utilizar dos métricas objetivamente comparables: la exhaustividad y la coherencia. La exhaustividad del índice, ya sea que las citas del índice reflejen todos los temas tratados en el documento; la coherencia de la indexación se refiere a la coherencia de diferentes indexadores o del mismo indexador que indexa los mismos documentos temáticos en diferentes momentos. Desde la perspectiva de la recuperación de literatura, una alta exhaustividad favorece la mejora de la tasa de recuperación; una fuerte coherencia favorece la mejora de la tasa de precisión.
Aunque la gente ha podido realizar búsquedas de texto completo a través de bases de datos en red, esto no significa que se haya reducido la importancia de la indexación. Por el contrario, frente a la recuperación y extracción masiva de información, la indexación se ha vuelto cada vez más importante. Sin embargo, la indexación manual requiere mucho tiempo y es laboriosa. Tomemos como ejemplo la base de datos de documentos geológicos chinos (chino). La base de datos de documentos geológicos chinos (chino) es una base de datos abstracta creada por la Biblioteca Geológica de China. Utilizando las revistas y libros de la Biblioteca Geológica de China como principal fuente de datos, el control y la indexación de documentos se llevan a cabo de acuerdo con el "Glosario de materias geológicas chinas" (2010), y la edición y el procesamiento están a cargo de más de diez indexadores experimentados. . Al buscar datos de 2013 en la base de datos de literatura geológica china (chino), hay 7915 elementos * * *; en la base de datos de la revista CNKI, hay 24923 elementos de datos para geología y geofísica en 2065, 438-03 solamente. La indexación manual no sólo es lenta sino que también tiene poca coherencia. El erudito estadounidense P. Lunds realizó una vez un experimento. Tenía seis indexadores indexando el mismo documento al mismo tiempo y la consistencia fue de 15,8. Dos personas que indexan el mismo documento al mismo tiempo tienen una consistencia de 54,3 mientras que el mismo documento indexado por la misma persona en diferentes momentos tiene una consistencia de sólo 66,2.
Se puede ver que la indexación manual ya no puede hacer frente al crecimiento explosivo de la información actual. Sólo el aumento de la mano de obra puede ser el final del camino. Con el establecimiento de sistemas informáticos de recuperación y la aplicación y desarrollo de bases de datos bibliográficas, ha surgido la indexación automática. La indexación automática se refiere al proceso de extraer marcas de búsqueda de información o documentos fácticos (temas, resúmenes y textos) para ser almacenados y recuperados por sistemas informáticos.