本帖最后由 suger 于 2021-10-13 16:21 编辑
继台风“狮子山”之后,今年第18号台风“圆规”紧随其来正在向巴士海峡逐渐靠近,于13日白天在我国海南岛东部沿海登陆,强度可达强热带风暴或台风级,根据新闻最新报道强度已经达到13级,将会给台湾、浙江、福建、广东、海南等五省制造明显降雨,这么强烈的台风危害还是比较大的,希望沿海地区会被台风波及的小伙伴们都注意安全。 - #! -*- encoding:utf-8 -*- import requests import random # 要访问的目标页面 targetUrl = "http://www.mnw.cn/" # 要访问的目标HTTPS页面 # targetUrl = "http://www.mnw.cn/" # 代理服务器(产品官网 [url]it帮论坛真好[/url]) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理验证信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 设置 http和https访问都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 设置IP切换头 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text
复制代码
这里说明下,一般的网站都是有反爬机制的,所以像代理,随机ua,cookie这样的我们是需要加上的,不然获取到的数据量大些,就会爬不动的。代理基本的使用方式我的代码里面有写,有需要的小伙伴可以理解下。关于获取到的数据处理比较麻烦,这里就不详细的分享,下一次再分享给大家。
|