Los graduados deben aprender habilidades de rastreo de Python.
Siete consejos para empezar rápidamente con Python.
1. Rastreo web básico
Método de adquisición
Método de publicación
2. Usar IP proxy
En Durante el proceso de desarrollo de rastreadores, las IP a menudo se bloquean, por lo que es necesario.
IP del proxy;
Hay una clase de controlador de proxy en el paquete urllib 2 a través de la cual se puede configurar el proxy.
Visite la página web, el siguiente fragmento de código:
3. Procesamiento de cookies
Algunos sitios web utilizan cookies para identificar a los usuarios y realizar un seguimiento de las sesiones.
Python proporciona datos almacenados en el terminal local del usuario (normalmente cifrados).
El módulo Cookie lib se utiliza para manejar cookies. El trabajo principal del módulo Cookie lib es
Se utiliza para proporcionar un objeto que pueda almacenar cookies para facilitar la cooperación con urllib. 2 módulos.
Se utiliza para acceder a recursos de Internet.
Fragmento de código:
La clave es Cookie Jar(), que se utiliza para administrar los valores y el almacenamiento de las cookies HTTP.
Una cookie generada por una solicitud HTTP, un objeto que agrega la cookie a una solicitud HTTP saliente
. La cookie completa se almacena en la memoria y se ingresa en la instancia de Cookie Jar.
La cookie también se perderá después de la recolección de basura y no es necesario que todos los procesos funcionen individualmente.
Agregue cookies manualmente:
4. Finja ser un navegador.
A algunos sitios web no les gustan las visitas de los rastreadores, por lo que rechazan las solicitudes de los rastreadores. Por lo tanto, el error HTTP 403: Prohibido ocurre a menudo cuando se usa
urllib 2 para acceder directamente al sitio web.
Preste especial atención a algunos encabezados, el servidor apuntará a estos encabezados.
Verificar:
1. Algunos servidores o proxies verificarán este valor para determinarlo.
Si el navegador inició la solicitud.
2. Al utilizar la interfaz REST, el servidor lo comprobará.
Valor utilizado para determinar cómo analizar el contenido en el cuerpo HTTP.
Esto se puede lograr modificando los encabezados en el paquete http. El fragmento de código es el siguiente.
5. Procesamiento de códigos de verificación
Para algunos códigos de verificación simples, se puede realizar una identificación simple. Sólo lo hicimos una vez.
Algunos códigos de verificación simples, pero algunos códigos de verificación antihumanos, como 12306.
, puedes codificar manualmente a través de la plataforma de codificación, por supuesto, esto se cobrará.
Compresión 6.gzip
¿Alguna vez te has encontrado con algunas páginas web? No importa cómo lo transcodifiques, todo es un galimatías. Jaja, eso
quiere decir que no sabes que muchos servicios web tienen la capacidad de enviar datos comprimidos, lo que puede ser
reduciendo así la gran cantidad de datos transmitidos en la red. línea en más del 60%. Esto se aplica especialmente a los servicios web XML porque la relación de compresión de los datos XML puede ser muy alta.
Pero generalmente el servidor no le enviará datos comprimidos a menos que usted le indique que puede hacerlo
para procesar los datos comprimidos.
Entonces necesitas modificar tu código de esta manera:
Aquí está la clave: crea un objeto de solicitud, agrega un encabezado de codificación de aceptación para informarle al servidor. que puedas Acepta datos comprimidos gzip.
Luego viene la descompresión de datos:
7. Adquisición concurrente de subprocesos múltiples
Si un solo subproceso es demasiado lento, se necesitan subprocesos múltiples. A continuación se muestra una plantilla de grupo de subprocesos sencilla.
Este programa simplemente imprime del 1 al 10, pero se puede ver que es concurrente.
Aunque el subproceso múltiple de Python es inútil, resulta muy difícil para los rastreadores que trabajan en red con frecuencia.
, también puede mejorar la eficiencia hasta cierto punto.