Esta era también se puede llamar la "Era de la navegación", y Yahoo y hao123 son representantes de esta era. Mediante la recopilación y clasificación manual, varios sitios web o páginas web de alta calidad se enumeran en categorías. Los usuarios pueden encontrar sitios web de alta calidad según el directorio de categorías. Este método es puramente artificial y no utiliza ningún medio técnico avanzado.
Generalmente, la calidad de los sitios web incluidos en directorios clasificados es mayor, pero este método no es escalable y la mayoría de los sitios web no se pueden incluir.
La generación de recuperación de texto utiliza modelos clásicos de recuperación de información, como modelos booleanos, modelos de espacio vectorial o modelos de probabilidad, para calcular la correlación entre las palabras clave de consulta del usuario y el contenido de texto de la página web. Hay enlaces ricos entre páginas web, pero esta generación de motores de búsqueda no utiliza esta información. Muchos de los primeros motores de búsqueda, como Alta Vista, Excite, etc., adoptaron en su mayoría este modelo.
En comparación con los directorios de clasificación, este método puede incluir la mayoría de las páginas web y ordenarlas según qué tan bien el contenido de la página web coincida con la consulta del usuario. Pero en general, la calidad de los resultados de búsqueda no es muy buena.
Esta generación de motores de búsqueda hace pleno uso de las relaciones de enlace entre páginas web y explora y utiliza en profundidad los significados representados por los enlaces web. En términos generales, los enlaces web representan una relación de recomendación y se pueden encontrar páginas web importantes a partir de contenido masivo mediante el análisis de enlaces. Esta importancia es esencialmente una medida de la popularidad de una página web, ya que una página web que ha sido recomendada varias veces en realidad representa su popularidad. Los motores de búsqueda mejoran la calidad de la búsqueda combinando la popularidad de las páginas web con la similitud del contenido.
Google propuso y utilizó por primera vez la tecnología de análisis de enlaces PageRank, que logró un gran éxito y atrajo la atención del mundo académico y otros motores de búsqueda comerciales. Posteriormente, la comunidad académica introdujo muchos algoritmos mejorados de análisis de enlaces. Actualmente, casi todos los motores de búsqueda comerciales utilizan tecnología de análisis de enlaces.
El uso del análisis de enlaces puede mejorar efectivamente la calidad de la búsqueda, pero este tipo de motor de búsqueda no considera los requisitos personalizados del usuario, por lo que siempre que la solicitud de consulta de entrada sea la misma, todos los usuarios obtendrán los mismos resultados de búsqueda. . Además, para obtener clasificaciones de búsqueda más altas, muchos propietarios de sitios web han ideado esquemas de trampa de enlaces para muchos algoritmos de análisis de enlaces, lo que da como resultado resultados de búsqueda deficientes.
La mayoría de los buscadores actuales se pueden clasificar como de tercera generación, que se basa en comprender las necesidades de los usuarios. Incluso si diferentes usuarios ingresan la misma palabra clave de consulta, sus propósitos pueden ser diferentes. Por ejemplo, si también introduce "Apple" como término de consulta, habrá una brecha considerable entre los objetivos de un joven elegante que busca un iPhone y un agricultor de frutas. Incluso si el mismo usuario ingresa el mismo término de consulta, las necesidades cambiarán debido a diferentes momentos y ocasiones. En la actualidad, la mayoría de los buscadores apuestan por solucionar el siguiente problema: cómo entender las necesidades reales detrás de una consulta breve enviada por los usuarios, por eso a esta generación de buscadores se le llama generación centrada en el usuario.
Para obtener las necesidades reales de los usuarios, la mayoría de los buscadores han hecho muchos intentos técnicos. Por ejemplo, utilizamos la información de hora y ubicación geográfica cuando los usuarios envían palabras de consulta, utilizamos palabras de consulta enviadas por usuarios en el pasado, registros de clics correspondientes, información histórica y otros medios técnicos para tratar de comprender las necesidades reales de los usuarios en este momento.