Reptiles(1)

En los últimos dos años, con el auge del big data, los rastreadores y sus grupos han ido apareciendo gradualmente en la atención pública. ?

Y soy un novato, y debido a una serie de coincidencias, poco a poco me he convertido en miembro de la industria de los reptiles.

Estoy aquí para describir brevemente mi comprensión de los reptiles. ¡Todos son bienvenidos a compartir sus opiniones!

Reptil:

El rastreador web (también conocido como araña web, robot web, en la comunidad FOAF, más comúnmente conocido como cazador web) es un tipo de rastreador que sigue ciertas Reglas A. programa o script que rastrea automáticamente información de la World Wide Web. Otros nombres menos utilizados son ant, autoindex, emulador o gusano. ——Extraído de la Enciclopedia Baidu

Según tengo entendido, es un programa que simula protocolos de red y comportamientos artificiales. La función es recopilar datos. Para facilitar el análisis estadístico de big data, etc.

Clasificación de reptiles:

rastreadores generales, rastreadores enfocados, rastreadores incrementales y rastreadores profundos. ——Extraído de la Enciclopedia Baidu

En mi opinión, si se distinguen en esencia, se pueden dividir en dos tipos. Uno es un rastreador incremental, adecuado para rastrear todo el sitio. Uno es general y adecuado para recopilar tipos específicos de páginas.

En pocas palabras, si es un incremento, significa uno dentro y otro fuera. El número de hilos aumentará. Generalmente, el número de subprocesos no aumenta. Sólo se rastrean algunas páginas designadas para la recopilación de datos.

Si hacemos una distinción de la composición, también se puede dividir en dos tipos.

? Una es agarrar mediante renderizado.

? ¡Una es tomar paquetes y datos! Ambos tienen pros y contras. ?

Si se divide por función, se puede dividir en dos tipos.

Uno es ejecutarlo como un módulo integrado del programa, por lo que no hay omisión de datos y existen ciertos requisitos en cuanto al tiempo de respuesta, y es necesario garantizar la puntualidad y la precisión.

Uno se mide como un módulo independiente del reptil. En cuanto al tiempo de respuesta y pérdida de datos, no se puede decir que no existan requisitos, pero los requisitos serán mucho menores.

El rastreador parece no tener requisitos de idioma, siempre que pueda analizar los datos y enviar una solicitud. Estas dos son condiciones básicas. Todos los idiomas parecen poder hacer esto. Y las personas que conozco que se dedican a los rastreadores son todas c#, java, php, python e incluso js.

Rastreador incremental: adecuado para rastrear todo el sitio web y todas las páginas de todo el sitio web. La biblioteca de URL dentro del rastreador seguirá aumentando. y aumentar el número de hilos.

Rastreador universal: adecuado para monitorear y capturar datos fijos para entrenamiento de rotación, monitoreo y otros fines.

Rastreador de renderizado: es un rastreador que adopta el modo de renderizado y utiliza el kernel del navegador para cargar la página renderizada. Tiene características que imitan a un mouse. Teclado y otros comportamientos, pero lentos.

Crawler que captura paquetes: simula el protocolo http fijo capturando paquetes para cubrir algunas necesidades. Características: Rápido.

Rastreador integrado: Altos requisitos de precisión y actualidad de la información. Por ejemplo, dentro de los 3 segundos de una palabra clave, se puede obtener toda la información del producto de la palabra clave en Taobao para poder proporcionar comentarios oportunos a la aplicación.

Rastreadores ordinarios: monitorean los cambios de precios de un determinado tipo de producto o de un determinado producto, y la precisión de los requisitos de datos es menor que la anterior. Después de todo, el status quo de hace 1 año. En el caso de grandes cantidades de datos, ¡el impacto en estas palabras no es grande!