1. Primero seleccione algunas URL iniciales cuidadosamente seleccionadas
2. Coloque estas URL en la cola de URL para rastrearlas
.3. Saque la URL que se va a rastrear de la cola de URL que se va a rastrear, analice el DNS, obtenga la IP del host, descargue la página web correspondiente a la URL y guárdela en la biblioteca de páginas web descargadas. Además, coloque estas URL en la cola de URL rastreadas.
4. Analice las URL en la cola de URL rastreadas, analice otras URL y coloque las URL en la cola de URL para rastrear, ingresando así al siguiente ciclo.
Se puede ver que los datos que desea deben transmitirse a través de la URL. Si la URL no es válida, es casi imposible obtener los datos por medios normales. Básicamente, cualquier cosa que la gente no pueda ver se puede desactivar de forma predeterminada.