[color=var(--yq-text-primary)]初学爬虫的时候我们都会选择一门语言,很多人会直接选择python,关于Golang 好像很少有人了解过,今天我们就详细跟大家介绍下Golang。Golang语法简洁,并发和异步编程可以快速上手,从搭建框架到并发和异步编程都很高效的语言。从语言设计方面Golang 简单易懂。而 Golang 的 Goroutine 和 Channel 则是并发和异步处理的优秀封装。回调设计使用起来也很方便。有的一定基础的研发在几天内就可以学习 掌握Golang ,并开发出一个效率不低的软件。另外在部署方面也有很大的优势,可以编译成无依赖的可执行文件,并且标准库的功能很全,因此用可以快速实现爬虫程序,并且方便的部署在云服务平台,实现数据的长期稳定采集。当然要让爬虫程序长期采集目标网站不被反爬,还需要配合使用爬虫代理,如下就是简单案例:[size=1em]
[backcolor=var(--yq-bg-primary)][backcolor=var(--yq-white)]
Go
复制代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
package main
import (
"net/url"
"net/http"
"bytes"
"fmt"
"io/ioutil"
)
// 代理服务器(产品官网 it帮论坛真好)
const ProxyServer = "t.16yun.cn:31111"
type ProxyAuth struct {
Username string
Password string
}
func (p ProxyAuth) ProxyClient() http.Client {
var proxyURL *url.URL
if p.Username != ""&& p.Password!="" {
proxyURL, _ = url.Parse("http://" + p.Username + ":" + p.Password + "@" + ProxyServer)
}else{
proxyURL, _ = url.Parse("http://" + ProxyServer)
}
return http.Client{Transport: &http.Transport{Proxy:http.ProxyURL(proxyURL)}}
}
func main() {
targetURI := "https://httpbin.org/ip"
// 初始化 proxy http client
client := ProxyAuth{"username", "password"}.ProxyClient()
request, _ := http.NewRequest("GET", targetURI, bytes.NewBuffer([] byte(``)))
// 设置Proxy-Tunnel
// rand.Seed(time.Now().UnixNano())
// tunnel := rand.Intn(10000)
// request.Header.Set("Proxy-Tunnel", strconv.Itoa(tunnel) )
response, err := client.Do(request)
if err != nil {
panic("failed to connect: " + err.Error())
} else {
bodyByte, err := ioutil.ReadAll(response.Body)
if err != nil {
fmt.Println("读取 Body 时出错", err)
return
}
response.Body.Close()
body := string(bodyByte)
fmt.Println("Response Status:", response.Status)
fmt.Println("Response Header:", response.Header)
fmt.Println("Response Body:\n", body)
}
}
要快速大量的获取数据只是添加了爬虫代理ip是很难达到的,还有其他的反爬策略也需要做的很好,下次我们可以就目标网站反爬策略问题跟大家详细分享下。[size=1em]
[size=1em]
[size=1em]
[backcolor=var(--yq-bg-primary)][color=var(--yq-text-primary)]
[color=var(--yq-text-caption)]若有收获,就点个赞吧
[color=var(--yq-text-caption)]
|