大数据是今天我们都在讨论的话题,说起大数据很多人第一反应就是爬虫,对于爬虫使用的语言,我们自然想到的是python。那么对于很多刚进入爬虫工作的新手来说到底什么样的语言适合爬虫?是比较纠结的一个问题,但是不论是使python、java、php或者其他的语言都是用了写爬虫,原理相差也不大,只是平台问题。但是也要看爬取效率的核心要求,如果并不是简单的爬虫那么肯定在选择语言上也有一定的差别的。 个人强烈建议可以选择python,对各种爬虫要求都能很好的支持,相对其他的语言也更丰富成熟,只是对于新手来说需要花更多的时间去学习。但是我们不管使用哪种语言进行爬虫,像代理ip这样的必不可少的爬虫工具是需要了解的。列如以下python中配置代理这样基本的代码是需要随手掌握的。 #! -*- encoding:utf-8 -*- import requests import random # 要访问的目标页面 targetUrl = "http://httpbin.org/ip" # 要访问的目标HTTPS页面 # targetUrl = "https://httpbin.org/ip" proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理验证信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 设置 http和https访问都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 设置IP切换头 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.textt 对于新手来说没有一劳永逸的方法,并不是掌握一门语言就可以高枕无忧了,还需要大胆的尝试更多的东西,在更多的学习中才能找到不同语言之家的优势劣势。
|