Traductor rastreador

Descargo de responsabilidad: ¡El siguiente código está escrito y depurado en Python 3.3!

Primero, hice esto:

Importar urllib.request

url = "/"

data = URL lib .request. urlopen(URL). Leer ()

Imprimir (datos)

Resulta que OSC está protegido, no solo OSC, CSDN y muchos otros sitios web, por lo que es necesario disfrazar el estado normal del navegador. , al igual que las arañas y los rastreadores, por lo que tenemos que agregar un encabezado al código e intentar leer el HTML.

Cómo ver el título del navegador en Chrome:

Una imagen tiene una solución completa, ¿existe alguna?

F12 abre las herramientas de desarrollo. Otros navegadores tienen funciones similares, lo cual es muy conveniente. Aquí solo necesitamos el User-Agent en el encabezado de la solicitud.

Hay varios enredos. Muchos códigos en Internet son Python2, yo uso 3.3 y hay muchas importaciones diferentes. No puedo evitar mirar la documentación oficial de Python, el inglés es un poco difícil. Afortunadamente, mi Chrome puede traducir en cualquier momento, lo que reduce la carga.

En la documentación oficial 3.3, encontré la documentación para urllib.request: docs.python.org/3/library/urllib.request.html.

Encontré un ejemplo de cómo para agregar un título. Lo probé y funciona. Aquí está el código.

'''

Creado el 27-1-2013

@Autor: Esaid

'''

Importar urllib.request

url = "/"

headers = ('User-Agent ',' Mozilla/5.0(Windows NT 6.1)apple WebKit/537.11( KHTML, como un gecko) Chrome/23.0 1271.64 Safari/537.11 ')

opener = URL lib request . >

datos = opener.open(url). Leer()

Imprimir(datos)

Aquí puede generar el HTML de la página, o puede guardar directamente el archivo HTML local y abrirlo normalmente.

Además, todavía estoy un poco confundido acerca de este problema de codificación.

Otra declaración útil type() es similar a typeof() en lenguaje C. Se puede imprimir para verificar directamente el tipo de datos, ¡lo cual es muy conveniente!