找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 3017|回复: 5

目标网站封代理怎么解决?

[复制链接]

93

主题

6

回帖

113

积分

初中生

热心值
2
IT币
595
贡献值
1
QQ
发表于 2020-7-28 17:30:37 | 显示全部楼层 |阅读模式
现在很多爬虫都会有抓取数据的需求,因此网络爬虫在一定程度上越来越火爆,其实爬虫的基本功能很简单,就是分析大量的url的html页面,从而提取新的url,但是在实际操作中通常都会遇到各种各样的问题,比如说抓取数据的过程中需要根据实际需求来筛选url继续爬行;或者说为了能正常爬取,减少别人服务器的压力,你需要控制住爬取的速度和工作量,但是即便再小心,很多时候也会遇到被网页封禁的情况。在实际操作过程中,我们经常会被网站禁止访问但是却一直找不到原因,这也是让很多人头疼的原因,这里有几个方面可以帮你初步检测一下到底是哪里出了问题。例如以下一段代码
<?php
    // 要访问的目标页面
    $url = "http://httpbin.org/ip";
    $urls = "https://httpbin.org/ip";

    // 代理服务器
    define("PROXY_SERVER", "tcp://t.16yun.cn:31111");

    // 代理身份信息
    define("PROXY_USER", "username");
    define("PROXY_PASS", "password");

    $proxyAuth = base64_encode(PROXY_USER . ":" . PROXY_PASS);

    // 设置 Proxy tunnel
    $tunnel = rand(1,10000);

    $headers = implode("\r\n", [
        "Proxy-Authorization: Basic {$proxyAuth}",
        "Proxy-Tunnel: ${tunnel}",
    ]);
    $sniServer = parse_url($urls, PHP_URL_HOST);
    $options = [
        "http" => [
            "proxy"  => PROXY_SERVER,
            "header" => $headers,
            "method" => "GET",
            'request_fulluri' => true,
        ],
        'ssl' => array(
                'SNI_enabled' => true, // Disable SNI for https over http proxies
                'SNI_server_name' => $sniServer
        )
    ];
    print($url);
    $context = stream_context_create($options);
    $result = file_get_contents($url, false, $context);
    var_dump($result);

    // 访问 HTTPS 页面
    print($urls);
    $context = stream_context_create($options);
    $result = file_get_contents($urls, false, $context);
    var_dump($result);?>
curlGuzzleHttp
如果你发现你抓取到的信息和页面正常显示的信息不一样,或者说你抓取的是空白信息,那么很有可能是因为网站创建页的程序有问题,所以抓取之前需要我们检查一下;不管是用户还是爬虫程序,其实在浏览信息的时候就相当于给浏览器发送了一定的需求或者说是请求,所以你要确保自己的所有请求参数都是正确的,是没有问题的;很多时候我们的ip地址会被记录,服务器把你当成是爬虫程序,所以就导致现有ip地址不可用,这样就需要我们想办法修改一下现有爬虫程序或者修改相应的ip地址,修改IP地址,可以用亿牛云IP家的代理IP来解决。;注意调整自己的采集速度,即便是要再给程序多加一行代码,快速采集也是很多爬虫程序被拒绝甚至封禁的原因。


ITbang.Net是一个IT教程分享社区!

寻找论坛资源请善用论坛搜索功能,这样会为你节约不少学习时间;

论坛资源如有过期链接失效等,请到教程反馈区发帖反馈,我们会为您良好的行为点赞加分!

回复

使用道具 举报

0

主题

96

回帖

112

积分

初中生

热心值
12
IT币
32
贡献值
1
发表于 2020-7-29 15:48:28 | 显示全部楼层
论坛自动回复选择了自动发表就好了。。。

ITbang.Net是一个IT教程分享社区!

寻找论坛资源请善用论坛搜索功能,这样会为你节约不少学习时间;

论坛资源如有过期链接失效等,请到教程反馈区发帖反馈,我们会为您良好的行为点赞加分!

回复

使用道具 举报

0

主题

91

回帖

104

积分

VIP

热心值
3
IT币
65
贡献值
5
发表于 2020-7-30 20:49:36 | 显示全部楼层
相当不错,感谢无私分享精神!

ITbang.Net是一个IT教程分享社区!

寻找论坛资源请善用论坛搜索功能,这样会为你节约不少学习时间;

论坛资源如有过期链接失效等,请到教程反馈区发帖反馈,我们会为您良好的行为点赞加分!

回复

使用道具 举报

0

主题

104

回帖

119

积分

初中生

热心值
10
IT币
21
贡献值
3
发表于 2020-8-3 15:14:59 | 显示全部楼层
不知该说些什么。。。。。。就是谢谢

ITbang.Net是一个IT教程分享社区!

寻找论坛资源请善用论坛搜索功能,这样会为你节约不少学习时间;

论坛资源如有过期链接失效等,请到教程反馈区发帖反馈,我们会为您良好的行为点赞加分!

回复

使用道具 举报

0

主题

96

回帖

101

积分

初中生

热心值
1
IT币
21
贡献值
0
发表于 2020-8-4 04:22:13 | 显示全部楼层
找到好贴不容易,我顶你了,谢了

ITbang.Net是一个IT教程分享社区!

寻找论坛资源请善用论坛搜索功能,这样会为你节约不少学习时间;

论坛资源如有过期链接失效等,请到教程反馈区发帖反馈,我们会为您良好的行为点赞加分!

回复

使用道具 举报

0

主题

87

回帖

92

积分

初中生

热心值
0
IT币
-2
贡献值
0
发表于 2020-8-5 01:54:42 | 显示全部楼层
找到好贴不容易,我顶你了,谢了

ITbang.Net是一个IT教程分享社区!

寻找论坛资源请善用论坛搜索功能,这样会为你节约不少学习时间;

论坛资源如有过期链接失效等,请到教程反馈区发帖反馈,我们会为您良好的行为点赞加分!

回复

使用道具 举报

*滑块验证:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

免责声明:
IT帮论坛所发布的一切视频资源、工具软件和网络技术相关的文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该资源,请支持正版软件,购买注册,得到更好的正版服务。

Mail To:Service@ITbang.Net

QQ|Archiver|手机版|小黑屋|IT帮社区 ( 冀ICP备19002104号-2 )

GMT+8, 2025-5-3 10:50 , Processed in 0.198318 second(s), 26 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表