[color=var(--yq-text-primary)]大数据时代,Python 是目前使用最广泛的编程语言之一,它是一种解释型高级通用编程语言,具有广泛的用途,几乎可以将其用于所有事物。其以简单的语法、优雅的代码和丰富的第三方库而闻名。python除了有很多优点外,但在速度上还有一个非常大的缺点。虽然Python代码运行缓慢,但可以通过下面分享的5个小技巧提Python运行速度。[size=1em]
1、选择合适的数据库结构,使用正确的数据结构对python脚本的运行时间有显着影响。[size=1em]
2、善用强大的内置函数和第三方库,如果你正在使用python并且仍在自己编写一些通用函数,那建议可以试试 Python提供的库和内置函数来帮助你不用编写这些函数。 [size=1em]
3、避免循环重复计算,如果你有一个迭代器,必须用它的元素做一些耗时计算,比如匹配正则表达式。你应该将正则表达式模式定义在循环之外,因为最好只编译一次模式,而不是在循环的每次迭代中一次又一次地编译它。只要有可能,就应该尝试在循环外进行尽可能多的运算,比如将函数计算分配给局部变量,然后在函数中使用它。[size=1em]
4、访问目标网站过程中多做反爬措施,尤其是一些比较有价值的网站对IP的要求很严。在访问的过程中需要加上高质量的IP。代理有很多的选择,比如使用隧道模式的代理。这里我们示例的亿牛云爬虫代理IP,简直的代理IP的添加方式如下:[size=1em]
[backcolor=var(--yq-bg-primary)][backcolor=var(--yq-white)]
Plain Text
复制代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
#! -*- encoding:utf-8 -*-
import requests
import random
# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"
# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"
# 代理服务器(产品官网 it帮论坛真好)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text
[color=var(--yq-text-primary)][backcolor=var(--yq-bg-primary)]
[color=var(--yq-text-caption)]若有收获,就点个赞吧
[color=var(--yq-text-caption)]
|