python爬虫基础-反爬机制的处理

suger · 发表于 2020-6-1 17:46:34

反爬虫更多是一种攻防战，针对网站的反爬虫处理来采取对应的应对机制，一般需要考虑以下方面：

①访问终端限制：这种可通过伪造动态的UA实现；

②访问次数限制：网站一般通过cookie/IP定位，可通过禁用cookie，或使用cookie池/IP池来反制；

③访问时间限制：延迟请求应对；

④盗链问题：通俗讲就是，某个网页的请求是有迹可循的，比如知乎的问题回答详情页，正常用户行为必然是先进入问题页，在进入回答详情页，有严格的请求顺序，如果之间跳过前面请求页面就有可能被判定为到了，通过伪造请求头可以解决这个问题；

对于反爬虫机制的处理的一些方法

使用代理

适用情况：大部分网站均限制了IP的访问量

对于“频繁点击”的情况，我们还可以通过限制爬虫访问网站的频率来避免被网站禁掉。

#! -*- encoding:utf-8 -*- import requests import random # 要访问的目标页面 targetUrl = "http://httpbin.org/ip" # 要访问的目标HTTPS页面 # targetUrl = "https://httpbin.org/ip" # 代理服务器(######) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理隧道验证信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 设置 http和https访问都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 设置IP切换头 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text

时间设置

适用情况：限制频率情况。大部分网站有频率限制，比如搜索后需要一定间隔才能获取详情页面等。

我们可以用sleep方式来做出以下延迟。

import timetime.sleep(1)

伪装成浏览器，或者反“反盗链”

有些网站会检查你是不是真的浏览器访问，还是机器自动访问的。这种情况，加上User-Agent，表明你是浏览器访问即可。有时还会检查是否带Referer信息还会检查你的Referer是否合法，一般再加上Referer。

User-Agent可以用亿牛云提供给的真实库，Referer的来源可以伪装成百度搜索来的。

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.1276.73 Safari/537.36', 'Referer':'https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=nike'}response = requests.get(url=url, headers=headers)

windover · 发表于 2020-6-2 13:34:49

没看完~~~~~~

先回复换一下帖子，我是好学生

a20200303 · 发表于 2020-6-2 13:37:19

过来看看的

q20203123 · 发表于 2020-6-2 13:39:24

路过，学习下

旺崽牛奶 · 发表于 2020-6-3 09:49:57

路过，学习下

lesliehuang · 发表于 2020-10-15 17:55:39

不少业内人士对人人归来的怀旧牌,也并不看好。毕竟人人网之后,在校园社交这个赛道上,目前幸运时时彩还未出现过一款爆款产品,人人网还有机会。但是难点在于,属于人人网的SNS时代已经过去,想要重回社交超级大乐透并不容易,主打校园社交的人人网面临的是一波新的年轻大学生又有新的阵地,他们是微信和QQ的用户,同时也是天津时时彩抖音、快手、微的用户

		自动登录	找回密码
密码			立即注册

python爬虫基础-反爬机制的处理

浏览过的版块