IT帮

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 26|回复: 4

python爬虫对于Ajax请求的处理

[复制链接]

10

主题

15

帖子

18

积分

小学生

Rank: 1

热心值
1
IT币
76
贡献值
0
QQ
发表于 2020-6-2 17:30:38 | 显示全部楼层 |阅读模式

Python爬虫Ajax动态加载知识点讲解,Ajax动态加载从网页的url加载网页的源代码之后,会在浏览器里执行JavaScript程序。这些程序会加载出更多的内容,并把这些内容传输到网页中
动态加载页面信息的提取
当我们浏览一个新闻类的网站,例如微博,搜狐,今日头条等,因为这些网站的内容很多,所以当我们搜索某一关键词的信息后,服务器只会向我们返回少量的数据,微博和头条是返回指定数量的数据,当我们再次向下刷新的时候,会再次通过Ajax请求返回指定数目的数据(如果你的网络不好时,会出现一个表示正在加载的小圆圈的动画效果)。知乎是当浏览器的滚动条触底时,再次提取数据。这就产生了一个问题,通过爬虫如何来提取通过Ajax请求动态加载的数据呢?
它的工作原理是:从网页的url加载网页的源代码之后,会在浏览器里执行JavaScript程序。这些程序会加载更多的内容,“填充”到网页里。这就是为什么如果你直接去爬网页本身的url,你会找不到页面的实际内容。
这里,若使用Google Chrome分析”请求“对应的链接(方法:右键→审查元素→Network→清空,点击”加载更多“,出现对应的GET链接寻找Type为text/html的,点击,查看get参数或者复制Request URL),循环过程。

  • 如果“请求”之前有页面,依据上一步的网址进行分析推导第1页。以此类推,抓取抓Ajax地址的数据。
  • 对返回的json格式数据(str)进行正则匹配。json格式数据中,需从'\uxxxx'形式的unicode_escape编码转换成u'\uxxxx'的unicode编码。
爬取有两个需要注意的问题:
  • 如何处理js生成的cookie
可以使用无头浏览器获取大量cookie,存储后备用。
  • 如何控制频率和利用代理破除反爬限制

ITbang.Net是一个IT教程分享社区!

寻找论坛资源请善用论坛搜索功能,这样会为你节约不少学习时间;

论坛资源如有过期链接失效等,请到教程反馈区发帖反馈,我们会为您良好的行为点赞加分!

回复

使用道具 举报

0

主题

62

帖子

14

积分

小学生

Rank: 1

热心值
1
IT币
22
贡献值
0
发表于 2020-6-3 11:23:26 | 显示全部楼层
相当不错,感谢无私分享精神!

ITbang.Net是一个IT教程分享社区!

寻找论坛资源请善用论坛搜索功能,这样会为你节约不少学习时间;

论坛资源如有过期链接失效等,请到教程反馈区发帖反馈,我们会为您良好的行为点赞加分!

回复

使用道具 举报

0

主题

63

帖子

0

积分

小学生

Rank: 1

热心值
0
IT币
0
贡献值
0
发表于 2020-6-3 22:45:58 | 显示全部楼层
相当不错,感谢无私分享精神!

ITbang.Net是一个IT教程分享社区!

寻找论坛资源请善用论坛搜索功能,这样会为你节约不少学习时间;

论坛资源如有过期链接失效等,请到教程反馈区发帖反馈,我们会为您良好的行为点赞加分!

回复

使用道具 举报

0

主题

69

帖子

19

积分

小学生

Rank: 1

热心值
10
IT币
22
贡献值
3
发表于 2020-6-4 16:02:44 | 显示全部楼层
好好 学习了 确实不错

ITbang.Net是一个IT教程分享社区!

寻找论坛资源请善用论坛搜索功能,这样会为你节约不少学习时间;

论坛资源如有过期链接失效等,请到教程反馈区发帖反馈,我们会为您良好的行为点赞加分!

回复

使用道具 举报

0

主题

62

帖子

22

积分

小学生

Rank: 1

热心值
12
IT币
33
贡献值
1
发表于 2020-6-5 20:41:10 | 显示全部楼层
不错不错,楼主您辛苦了。。。

ITbang.Net是一个IT教程分享社区!

寻找论坛资源请善用论坛搜索功能,这样会为你节约不少学习时间;

论坛资源如有过期链接失效等,请到教程反馈区发帖反馈,我们会为您良好的行为点赞加分!

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

免责声明:
IT帮论坛所发布的一切视频资源、工具软件和网络技术相关的文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该资源,请支持正版软件,购买注册,得到更好的正版服务。

Mail To:Service@ITbang.Net

QQ|Archiver|手机版|小黑屋|IT帮社区 ( 冀ICP备19002104号-2 )

GMT+8, 2020-7-15 19:05 , Processed in 0.056249 second(s), 24 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表