Este proyecto proporciona la función de rastrear y extraer datos de páginas web. No solo puede extraer el contenido de las páginas web, sino también extraer datos de URL, encabezados HTTP y cookies.
Este proyecto define una estructura o sintaxis regular concisa, flexible y ágil. Haga todo lo posible para extraer campos de datos significativos y valiosos del contenido de la página web, encabezados HTTP, cookies e incluso datos relacionados con otras páginas web y otros sitios web para formar un registro de datos. Además, se pueden incrustar solicitudes http para complementar los campos de datos, como los campos que deben traducirse al diccionario, etc.
El proyecto también puede admitir la extracción de datos de varios tipos de documentos, como html/xml/json/javascript/text.
También proporcionamos configuración visual de reglas. Descargue la versión comunitaria de la plataforma Golden Data completamente gratuita, sin límite en la cantidad de colecciones, sin límite en la cantidad de rastreadores y sin límite en la cantidad de datos exportados. y documentación detallada.
Comenzando
Primero, necesitamos agregar dependencias al proyecto de la siguiente manera:
1, para proyectos maven
2. Para el Proyecto Greer.
Luego podrá utilizar la API limpia y concisa proporcionada por la dependencia, como se muestra a continuación:
Ejecute la prueba anterior y verá un resultado similar al siguiente:
Utilizado como servicio o API.
Puedes utilizarlo como servicio de llamadas y API en tu proyecto. Por ejemplo, tendrá este aspecto:
Para la preparación visual, puede consultar la documentación gratuita de Community Edition. Aquí hay una breve introducción a la versión comunitaria gratuita. ¡Consulte el sitio web oficial para obtener más detalles!
Versión comunitaria gratuita:
Código abierto/gratuito
Permite que los usuarios comprendan y utilicen mejor el producto.
Recopilamos datos de forma gratuita y también abrimos y mantenemos proyectos centrales de código fuente abierto. Para que los usuarios puedan utilizar y comprender mejor la colección y aprovecharla al máximo. Permita a los usuarios aplicar la conveniencia que brinda la recopilación de datos dorados en varios escenarios. Estamos seguros de que nuestros clientes verán una plataforma de datos abiertos que brindará a los usuarios tranquilidad/ahorrará preocupaciones/esfuerzos.
Libertad/Flexibilidad
Revela un fuerte núcleo de colección.
Nuestro recopilador expondrá todos los datos de destino a los usuarios, además del contenido web habitual, como URL, encabezados HTTP, cookies, etc. También proporciona varias herramientas y funciones de análisis, lo que permite a los usuarios no solo obtener datos en el contenido de la página web, sino también obtener datos centrales ocultos en URL, encabezados HTTP y cookies, y pueden desbloquearlos de manera flexible.
Recogida distribuida
Nube privada, más flexible, más segura y protegida.
Puede implementar libremente la cantidad de recopiladores según sus propias necesidades, ejecutarlos de forma continua los 7 x 24 horas y el backend de recopilación es centralizado y flexible. Usted es libre de ordenar qué recopilador recopila datos. Puede definir recogidas programadas sin personal de guardia.
Los datos se pueden correlacionar y rastrear.
Valor intrínseco y extrínseco de los datos recuperados/reconstruidos
Cada dato se puede actualizar a medida que se actualiza el contenido de destino (como los precios de las materias primas) del sitio web de destino, en el usuario tabla de aplicación El contenido de los campos relevantes de los datos también se puede actualizar.
Fusión no invasiva
La integración nunca ha sido más realista y sencilla.
Los datos recopilados se pueden integrar en la tabla de la aplicación sin cambiar la estructura de la tabla de la aplicación del usuario (agregar, eliminar, cambiar columnas de la tabla).
Automatización/Integración
No requiere trabajo manual, listo para usar.
No solo se pueden capturar colecciones automáticamente, sino que la integración también proporciona potentes funciones de automatización manuales.
Las operaciones de recopilación y fusión también se conectarán sin problemas. Los datos de destino se pueden capturar y fusionar y fluir a la tabla de la aplicación en tiempo real, ¡listos para usar!
Haga clic en el siguiente enlace para obtener la dirección de descarga del software
Página de inicio, documentación y descargas de GoldDataSpider-Herramienta de extracción de datos de red-Código abierto China