Situación actual y desarrollo de la recuperación de información en red
Antes de 1990, nadie podía recuperar información en Internet. Debe decirse que todas las herramientas de recuperación de información de red comenzaron con Archie inventado por Alan Emtage y otros en 1990, aunque en ese momento solo podía realizar la recuperación de archivos FTP en un sentido simple. Con la aparición y el desarrollo de la World Wide Web, han surgido y se han desarrollado rápidamente herramientas de recuperación de información basadas en la web. En 1995, Eric Selberg y otros de la Universidad de Washington en los Estados Unidos inventaron el metabuscador, una herramienta de recuperación basada en la propia herramienta de recuperación de información de la red. Con el desarrollo de la tecnología de redes, las herramientas de recuperación de información de redes también han logrado grandes avances. Entonces, ¿cuáles son el estado actual y las tendencias de desarrollo de estas herramientas de recuperación? Intentaremos explorar este artículo.
1. Estado actual y tendencias de desarrollo de las herramientas de recuperación de información en redes basadas en web
1.1 Estado actual. Las páginas web son el componente más importante de Internet y la principal fuente para que las personas obtengan información de la red. Para facilitar que las personas encuentren la información que necesitan en una gran cantidad de páginas web complicadas, este tipo de herramientas de búsqueda se ha desarrollado más rápidamente. . En general, se cree que existen dos tipos principales de herramientas de recuperación de información basadas en páginas web: motores de búsqueda web y directorios de clasificados en red. Los motores de búsqueda web buscan páginas web a través de software de búsqueda web automática, como "arañas web", y luego indexan automáticamente algunos o todos los caracteres de las páginas web para formar archivos de formato de resumen de destino y bases de datos accesibles en la red para que las personas recuperen información de la red. . Un directorio de red es completamente diferente de un motor de búsqueda. No coloca todas las páginas de cada sitio web en toda la red, sino que los profesionales seleccionan cuidadosamente la página de inicio del sitio web y la colocan en la categoría correspondiente. La cantidad de información en los directorios en línea es mucho menor que la de los motores de búsqueda. Además, los estándares de clasificación de los diferentes directorios en línea son algo confusos e inconvenientes para las personas, por lo que, aunque su calidad de indexación es relativamente alta, el número de personas. quienes lo utilizan es aún mayor que el de los motores de búsqueda y mucho menos.
Sin embargo, debido a la complejidad de la información de la red y las limitaciones de la tecnología de recuperación de la red, este tipo de herramientas de recuperación también tienen deficiencias obvias. (1) Con el rápido aumento del número de páginas web, es imposible clasificarlas, indexarlas y utilizarlas manualmente de forma eficaz. Los usuarios de Internet se enfrentan a una enorme cantidad de información desorganizada. Una simple búsqueda por palabra clave arroja una cantidad abrumadora de información, que resulta insoportable para los usuarios. (2) Es difícil evaluar la utilidad de la información. Algunos sitios repiten extensamente ciertas palabras clave en sus páginas web, lo que facilita que algunos motores de búsqueda conocidos las seleccionen para mejorar el estado del sitio, pero en realidad es posible que no proporcionen ninguna información valiosa a los usuarios. (3) La información de Internet cambia rápidamente y la gente siempre quiere elegir la información más reciente. Sin embargo, la información de la red cambia todo el tiempo y la búsqueda en tiempo real es casi imposible. Incluso la página web que acaba de navegar puede actualizarse, caducar o eliminarse en cualquier momento.
1.2 Tendencia de Desarrollo. El desarrollo de herramientas de recuperación de información de red se refleja principalmente en la mejora y mejora de las herramientas de búsqueda y tecnologías de recuperación para mejorar la calidad de los servicios de recuperación y cambiar los aspectos insatisfactorios de la recuperación de información de red. Se refleja principalmente en los siguientes aspectos:
1.21 La cooperación entre los proveedores de desarrollo de herramientas de búsqueda de red es cada vez más estrecha. En el pasado, los proveedores generales de herramientas de búsqueda en Internet sólo dependían de sus propias bases de datos para proporcionar servicios de búsqueda, con un alcance de búsqueda limitado. Ahora, algunos motores de búsqueda conocidos están comprando bases de datos o núcleos técnicos de otras empresas, y algunos han establecido asociaciones con otras. motores de búsqueda para comodidad de los usuarios. Por ejemplo, el famoso Yahoo ahora utiliza el núcleo de búsqueda de Google. NetEase también utilizó la tecnología del núcleo de búsqueda de Google para enriquecer su base de datos de motores de búsqueda como Silicon Valley Dynamics, Guangzhou Window, Sina, Sohu, Chinaren, 21cn, 263 y Tom, etc. Tecnología central de búsqueda integrada de Baidu, etc.
1.22 Profesionalización de herramientas de recuperación de información y profundización de contenidos de servicios. Algunas herramientas de búsqueda ya no persiguen ciegamente aumentar la inclusión y la indexación, sino que prestan más atención a resaltar las características profesionales.
En el directorio de motores de búsqueda de Lycos, podemos ver que la recuperación de información de redes profesionales, como motores de búsqueda de negocios, motores de búsqueda de TI, motores de búsqueda de talentos, motores de búsqueda financieros y motores de búsqueda médicos, han surgido uno tras otro. La especialización de las herramientas de recuperación de información ha surgido. convertirse en una tendencia irreversible. Los proveedores de servicios de recuperación de información han profundizado aún más sus servicios: Google lanzó un servicio de consulta de citas de páginas web, a través del cual puede verificar si la información que desea consultar es citada por otros sitios web, para que los usuarios puedan comprender mejor la calidad de la información de la página web; En agosto de 2003, salió el motor de búsqueda chino Huicong de tercera generación, que integra muchas funciones de búsqueda como "búsqueda regional extensa", "búsqueda industrial poderosa", "búsqueda perfecta de MP3 y Flash" y también desarrolló una "consulta de relevancia para el contenido". " y " consulta difusa según las características chinas " pueden realizar consultas pinyin chinas y corrección de errores homófonos.
1.23 La tendencia de desarrollo de las herramientas de información de red inteligentes: (1) La inteligencia de las herramientas de recuperación de información es, en primer lugar, la inteligencia de las arañas web. En respuesta al reemplazo dinámico de la información de la red, las arañas web utilizan el aprendizaje heurístico para adoptar la estrategia de búsqueda más efectiva y elegir el mejor momento para obtener información recopilada y organizada automáticamente desde Internet. Las arañas web pueden trabajar en cualquier lugar de la web y pueden extraer y obtener la mayor cantidad de información posible. Las arañas web también deben tener funciones de seguimiento y monitoreo de páginas web. Si las páginas web se actualizan o eliminan, deben actualizarse en la base de datos de manera oportuna. Las arañas web tienen la capacidad de trabajar en plataformas y manejar una variedad de estructuras de documentos mixtas. (2) El segundo es la inteligencia del software de búsqueda. Ahora existen principalmente motores de búsqueda inteligentes, navegadores inteligentes y agentes inteligentes. Estas herramientas de recuperación de red otorgan gran importancia al desarrollo e implementación de entradas basadas en lenguaje natural. Los buscadores pueden ingresar sus propias preguntas de búsqueda y frases, frases e incluso oraciones en forma de lenguaje natural podrán analizarlas automáticamente. Luego forme una estrategia de recuperación para la recuperación. Por ejemplo, la búsqueda actual de Baidu puede proporcionar continuamente algunas palabras clave similares para que usted elija después de ingresar las palabras clave hasta que encuentre los resultados que necesita. Google utiliza tecnología de traducción automática para convertir un lenguaje natural en otro lenguaje natural, lo que permite a los usuarios buscar páginas web no nativas en su idioma nativo y explorar los resultados de búsqueda en su idioma nativo. Eureka, Wenwen y ASK Jeeves extranjeros utilizan la combinación de tecnología semántica y tecnología de recuperación para lograr la comprensión del nivel semántico de los términos de búsqueda mediante herramientas de búsqueda y brindar a los usuarios los servicios de recuperación más precisos.
2. Herramienta de búsqueda basada en archivos FTP.
2.1 Situación actual. Como se mencionó anteriormente, el prototipo de los motores de búsqueda y los primeros motores de búsqueda se basaban en la búsqueda de archivos FTP. El primer motor de búsqueda FTP fue Archie, basado en visualización de texto. Posteriormente, debido a la aparición de WEB, el desarrollo de los buscadores FTP se vio afectado en cierta medida. No fue hasta la aparición de los motores de búsqueda FTP basados en WEB que se hizo cada vez más popular, el número de usuarios también aumentó rápidamente y su importancia se hizo cada vez más evidente. La función del motor de búsqueda FTP es recopilar la lista de directorios proporcionada por el servidor FTP anónimo y proporcionar a los usuarios servicios de consulta de información de archivos. En la actualidad, el mejor y más grande de China es el motor de búsqueda de archivos FTP Skynet, que ahora puede buscar 24 millones de archivos (los datos provienen de la página de inicio de Skynet. El número estadístico de visitas diarias en 2002 fue de 400.000). líder en el mundo de los motores de búsqueda FTP. Además, a nivel nacional existen el motor de búsqueda Tsinghua 9#, el motor de búsqueda Siyuan de la Universidad Xi'an Jiaotong, el motor de búsqueda Kapok del sur de China, Internet Compass, el motor de búsqueda Sirius de la Universidad de Ciencia y Tecnología de China y el motor de búsqueda "Catch All" del Instituto Tecnológico de Nanjing. , etc., y los extranjeros incluyen Philes.com, AlltheWeb.com, Filesearching.com, souborak.com y ftpfind.com, etc. Entre ellos, ftpfind.com es actualmente el extranjero más avanzado y admite funciones emergentes como sitio instantáneas y clasificación de archivos, y la cantidad de datos de archivos es muy grande.
Aunque la tecnología de los motores de búsqueda FTP se ha desarrollado rápidamente en los últimos años, en comparación con los motores de búsqueda WWW, sólo existen unos pocos motores de búsqueda FTP y la tecnología aún no está muy madura. Aún quedan muchas mejoras por hacer. Lugares: (1) El número de motores de búsqueda FTP incluidos es todavía relativamente pequeño, y la escala y la calidad del motor de búsqueda todavía dependen de la cantidad de información que mantiene. Según las estadísticas, hay cientos de millones de entradas de archivos proporcionadas por servicios FTP anónimos globales. Incluso Philes.com, actualmente el más grande, sólo tiene 209.698.206 archivos, según estadísticas de Chen Hua y Li Xiaoming en julio de 2002. (2) La función de búsqueda aún no es perfecta. La función de búsqueda es la parte más importante de un motor de búsqueda. Hay muchos motores de búsqueda que no admiten búsquedas booleanas simples como "y" y "o", lo que hace que no se puedan recuperar los archivos de la base de datos. (3) Las características del propio servidor FTP determinan las debilidades del motor de búsqueda FTP, es decir, debido a que los servidores FTP tienen horarios de apertura, algunos también restringen las direcciones IP, otros restringen el número de usuarios conectados y los números de puerto de conexión configurados por diferentes servidores no son los mismos, etc. Algunos de los resultados de la búsqueda son inaccesibles, lo que reduce en gran medida la satisfacción del usuario.
2.2 Tendencia de Desarrollo. Como se mencionó anteriormente, la tecnología del motor de búsqueda de archivos FTP aún no está muy madura, pero se está desarrollando muy rápidamente. Sus tendencias de desarrollo se reflejan principalmente en los siguientes aspectos: (1) Las funciones de búsqueda son cada vez más ricas. El motor de búsqueda de archivos FTP de Skynet ahora puede implementar búsquedas avanzadas basadas en múltiples condiciones, como el tamaño del archivo, la fecha de carga del archivo y el segmento de red (por ejemplo, Red del Norte de China, Red del Este de China, etc.) para limitar los resultados de búsqueda. capacidades de búsqueda agregadas Métodos (recuperación de expresiones de reglas, recuperación precisa, navegación, distinción entre mayúsculas y minúsculas, etc.), restricciones en el host (edu, gov o com, etc.), tipo de archivo, tamaño de archivo, fecha y otras funciones. (2) Personalización de los servicios de recuperación. Ahora los investigadores del motor de búsqueda FTP han comenzado a prestar atención a este aspecto. El motor de búsqueda ftp Skynet ya tiene muchas opciones personalizadas: puede configurar el método de clasificación según las diferentes preferencias del usuario, puede configurar si se da prioridad a los archivos extranjeros o a los archivos nacionales. ¿Deben los usuarios dar prioridad a archivos extranjeros, archivos en FTP o WWW, elegir chino o inglés, etc.? AlltheWeb.com puede completar configuraciones personalizadas más ricas. Por ejemplo, puede elegir un host para proporcionar un resultado, configurar el idioma, configurar el tamaño del archivo de la búsqueda, resaltar las palabras clave de búsqueda, configurar el idioma del usuario y los atajos de teclado. etc. espera.
3. El estado actual y la tendencia de desarrollo de la tecnología de recuperación basada en herramientas de recuperación de red.
3.1 Con la expansión y el desarrollo de los recursos de información en línea, un motor de búsqueda, por perfecto que sea, no puede satisfacer todas las necesidades de búsqueda de una persona. Si se encuentra con situaciones como censo de literatura, consultas especiales, investigación y rastreo de noticias, búsqueda de direcciones de descarga de software y MP3, etc., las personas necesitarán usar múltiples motores de búsqueda para comparar, filtrar y verificar entre sí. Para resolver las engorrosas operaciones de iniciar sesión en cada motor de búsqueda uno por uno e ingresar la misma solicitud de búsqueda (cadena de búsqueda) varias veces en cada motor de búsqueda, se crearon herramientas de búsqueda basadas en herramientas de búsqueda de red.
En la actualidad, sólo existen dos tipos de herramientas de búsqueda de esta serie: motores de búsqueda integrados y metabuscadores. El llamado motor de búsqueda integrado vincula varios motores de búsqueda independientes en una interfaz de búsqueda. Al realizar la búsqueda, una entrada de búsqueda puede especificar un motor de búsqueda o requerir que varios motores busquen al mismo tiempo. Los resultados de la búsqueda son enviados por cada motor de búsqueda en diferentes. Las herramientas de búsqueda en red son en realidad una colección de motores de búsqueda formados mediante tecnología de enlaces a sitios web. La tecnología integrada de producción y mantenimiento del motor de búsqueda es simple, y los motores de búsqueda vinculados se pueden agregar, eliminar, ajustar y actualizar de manera oportuna en cualquier momento, especialmente motores de búsqueda profesionales a gran escala (como FLASH, MP3, etc.). Los enlaces integrados son muy populares entre grupos de usuarios específicos.
Como los nacionales Tianwang Soba y Baidu Soba, los extranjeros más famosos incluyen "Search Home" (/), "Internet Swiss Army Knife" (, Yahoo!, Infoseek, Lycos y otros motores de búsqueda de uso común, algunos motores de búsqueda grandes como NorthernLight, HotBot, etc. están excluidos, lo que limita artificialmente el uso de los recursos de búsqueda (5) En términos de resultados de búsqueda, los metabuscadores solo pueden devolver más de una docena o docenas de resultados con alta "relevancia" y una gran cantidad; número de resultados potencialmente valiosos Los resultados de búsqueda de los motores de búsqueda de origen se ignoran, lo que afecta la exhaustividad de los resultados de búsqueda.
3.2 Las tendencias de desarrollo de este tipo de herramientas de búsqueda se reflejan principalmente en los siguientes aspectos: (1) La profundización de los resultados de búsqueda. Como Vivisimo, EZ2WWW, MetaCrawler, etc. pueden clasificar automáticamente los resultados de búsqueda. Los usuarios pueden explorar los resultados de la manera tradicional o utilizar las indicaciones de resultados de clasificación en la misma pantalla para encontrar el contenido que necesitan. La función de búsqueda proporciona más de 1000 tipos de recuperación de recursos especiales, la búsqueda en el directorio es posible. SurfWax tiene una función única que otros metabuscadores no tienen, es decir, haciendo clic en el icono del "botón URL" a la izquierda de cada resultado. puede navegar por cualquier página incluida en el resultado y mostrar los términos de búsqueda en el archivo. En la ubicación, también puede almacenar los resultados de la búsqueda y los archivos para su uso posterior. Tianwang Soba ya tiene una función única de detección de enlaces, que verifica si el actual. Los resultados de la consulta de la página son accesibles en unos segundos. Si está marcado en verde, entonces el enlace se puede conectar (actualmente solo se detectan enlaces que comienzan con http:// y ftp:// en la página) (2) Tendencia de personalización de la página. Interfaz de búsqueda. Tianwang Soba y Google proporcionan complementos del navegador IE. Después de la instalación, se integrarán en la barra de herramientas de IE y los usuarios pueden buscar sin iniciar sesión en la página de inicio de Skynet. Los usuarios pueden configurar sus motores de búsqueda favoritos como búsqueda principal o agregarlos. sus propios motores de búsqueda favoritos No hace mucho, Mamma lanzó un complemento que se puede incrustar en la barra de tareas del sistema de Windows. Ahora los usuarios ni siquiera necesitan abrir el navegador IE, pueden optar por usar la función de búsqueda de frases. tiempo de búsqueda y establece la cantidad de registros que se pueden mostrar en cada página. También proporciona servicios de recuperación especiales para recuperar títulos de archivos de páginas, así como la función especial de transmitir resultados de recuperación a través de correo electrónico. motores de búsqueda, filtrar los resultados de recuperación según nombres de dominio, regiones o países, y establecer el tiempo máximo de recuperación, establecer la cantidad de resultados de búsqueda que se pueden mostrar en cada página y permitir que cada motor de búsqueda regrese, y configurar los resultados de búsqueda. base de clasificación (incluida la relevancia, el nombre de dominio, el motor de búsqueda de origen) para personalizar y guardar (3) ProFusion puede implementar automáticamente conversiones que cumplan con requisitos especiales de sintaxis de búsqueda, como convertir "NEAR" a "AND" al llamar a Excite, InfoSeek, y WebCrawler, y eliminar "NO" al llamar a GoTo y Yahoo también admite la sintaxis de búsqueda común en Conversion en diferentes motores de búsqueda; aunque no tiene su propia base de datos, puede proporcionar resultados de búsqueda en línea.