Los graduados deben aprender habilidades de rastreo de Python.

Siete consejos para empezar rápidamente con Python

Siete consejos para empezar rápidamente con Python.

1. Rastreo web básico

Método de adquisición

Método de publicación

2. Usar IP proxy

En Durante el proceso de desarrollo de rastreadores, las IP a menudo se bloquean, por lo que es necesario.

IP del proxy;

Hay una clase de controlador de proxy en el paquete urllib 2 a través de la cual se puede configurar el proxy.

Visite la página web, el siguiente fragmento de código:

3. Procesamiento de cookies

Algunos sitios web utilizan cookies para identificar a los usuarios y realizar un seguimiento de las sesiones.

Python proporciona datos almacenados en el terminal local del usuario (normalmente cifrados).

El módulo Cookie lib se utiliza para manejar cookies. El trabajo principal del módulo Cookie lib es

Se utiliza para proporcionar un objeto que pueda almacenar cookies para facilitar la cooperación con urllib. 2 módulos.

Se utiliza para acceder a recursos de Internet.

Fragmento de código:

La clave es Cookie Jar(), que se utiliza para administrar los valores y el almacenamiento de las cookies HTTP.

Una cookie generada por una solicitud HTTP, un objeto que agrega la cookie a una solicitud HTTP saliente

. La cookie completa se almacena en la memoria y se ingresa en la instancia de Cookie Jar.

La cookie también se perderá después de la recolección de basura y no es necesario que todos los procesos funcionen individualmente.

Agregue cookies manualmente:

4. Finja ser un navegador.

A algunos sitios web no les gustan las visitas de los rastreadores, por lo que rechazan las solicitudes de los rastreadores. Por lo tanto, el error HTTP 403: Prohibido ocurre a menudo cuando se usa

urllib 2 para acceder directamente al sitio web.

Preste especial atención a algunos encabezados, el servidor apuntará a estos encabezados.

Verificar:

1. Algunos servidores o proxies verificarán este valor para determinarlo.

Si el navegador inició la solicitud.

2. Al utilizar la interfaz REST, el servidor lo comprobará.

Valor utilizado para determinar cómo analizar el contenido en el cuerpo HTTP.

Esto se puede lograr modificando los encabezados en el paquete http. El fragmento de código es el siguiente.

5. Procesamiento de códigos de verificación

Para algunos códigos de verificación simples, se puede realizar una identificación simple. Sólo lo hicimos una vez.

Algunos códigos de verificación simples, pero algunos códigos de verificación antihumanos, como 12306.

, puedes codificar manualmente a través de la plataforma de codificación, por supuesto, esto se cobrará.

Compresión 6.gzip

¿Alguna vez te has encontrado con algunas páginas web? No importa cómo lo transcodifiques, todo es un galimatías. Jaja, eso

quiere decir que no sabes que muchos servicios web tienen la capacidad de enviar datos comprimidos, lo que puede ser

reduciendo así la gran cantidad de datos transmitidos en la red. línea en más del 60%. Esto se aplica especialmente a los servicios web XML porque la relación de compresión de los datos XML puede ser muy alta.

Pero generalmente el servidor no le enviará datos comprimidos a menos que usted le indique que puede hacerlo

para procesar los datos comprimidos.

Entonces necesitas modificar tu código de esta manera:

Aquí está la clave: crea un objeto de solicitud, agrega un encabezado de codificación de aceptación para informarle al servidor. que puedas Acepta datos comprimidos gzip.

Luego viene la descompresión de datos:

7. Adquisición concurrente de subprocesos múltiples

Si un solo subproceso es demasiado lento, se necesitan subprocesos múltiples. A continuación se muestra una plantilla de grupo de subprocesos sencilla.

Este programa simplemente imprime del 1 al 10, pero se puede ver que es concurrente.

Aunque el subproceso múltiple de Python es inútil, resulta muy difícil para los rastreadores que trabajan en red con frecuencia.

, también puede mejorar la eficiencia hasta cierto punto.

上篇: La temporada de datos más sólida, 46 primicias en la historia ¿Qué más puede decir la historia además de sorprenderse? 下篇: Exposición Financiera de Shanghai con riqueza ilimitada