找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 3420|回复: 0

利用爬虫更好的分析新媒体数据

[复制链接]

93

主题

6

回帖

113

积分

初中生

热心值
2
IT币
595
贡献值
1
QQ
发表于 2021-8-16 16:25:10 | 显示全部楼层 |阅读模式
最近公司有要求抓取一些头条号的数据, 涉及到部分加密字段的逆向, 在这方面我还是小白阶段,所以只能使用爬虫抓取一些数据,都是些最简单的,我需要对账号的阅读数,评论数以及文章标题进行数据分析。
于是展开了艰难的爬虫探索之旅,一开始只是少量的爬取几个账号的历史数据简单的分析下,但是太少的数据并没有什么意义,所以需要加大数据获取量,可是有一点就是,今日头条有反爬虫机制,如果通过机器批量下载存在风险,如何避过反爬虫机制又不需要花大量时间,我请教了大神的到的经验,遇到反爬机制最好的办法就是上代理呀,代理质量越优质越好。例如这家www.16yun.cn
最重要的一点就是获取数据,那么我们通过以下的方式获取数据,还可以分享一下代理的使用方式给大家参考,
// 要访问的目标页面string targetUrl = "https://www.toutiao.com/";// 代理服务器(产品官网 www.16yun.cn)string proxyHost = "http://t.16yun.cn";string proxyPort = "31111";// 代理验证信息string proxyUser = "16EDEWIU";string proxyPass = "205517";// 设置代理服务器WebProxy proxy = new WebProxy(string.Format("{0}:{1}", proxyHost, proxyPort), true);ServicePointManager.Expect100Continue = false;var request = WebRequest.Create(targetUrl) as HttpWebRequest;request.AllowAutoRedirect = true;request.KeepAlive = true;request.Method    = "GET";request.Proxy     = proxy;//request.Proxy.Credentials = CredentialCache.DefaultCredentials;request.Proxy.Credentials = new System.Net.NetworkCredential(proxyUser, proxyPass);// 设置Proxy Tunnel// Random ran=new Random();// int tunnel =ran.Next(1,10000);// request.Headers.Add("Proxy-Tunnel", String.valueOf(tunnel));//request.Timeout = 20000;//request.ServicePoint.ConnectionLimit = 512;//request.UserAgent = "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.82 Safari/537.36";//request.Headers.Add("Cache-Control", "max-age=0");//request.Headers.Add("DNT", "1");//String encoded = System.Convert.ToBase64String(System.Text.Encoding.GetEncoding("ISO-8859-1").GetBytes(proxyUser + ":" + proxyPass));//request.Headers.Add("Proxy-Authorization", "Basic " + encoded);using (var response = request.GetResponse() as HttpWebResponse)using (var sr = new StreamReader(response.GetResponseStream(), Encoding.UTF8)){    string htmlStr = sr.ReadToEnd();}
获取到数据后就是需要对数据进行清理分析,这也是一个不小工程,爬虫还得花时间好好用,虽然还没有达到理想的爬虫效果,但是也取得了一部分进展,下次接着更新。


ITbang.Net是一个IT教程分享社区!

寻找论坛资源请善用论坛搜索功能,这样会为你节约不少学习时间;

论坛资源如有过期链接失效等,请到教程反馈区发帖反馈,我们会为您良好的行为点赞加分!

回复

使用道具 举报

*滑块验证:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

免责声明:
IT帮论坛所发布的一切视频资源、工具软件和网络技术相关的文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该资源,请支持正版软件,购买注册,得到更好的正版服务。

Mail To:Service@ITbang.Net

QQ|Archiver|手机版|小黑屋|IT帮社区 ( 冀ICP备19002104号-2 )

GMT+8, 2025-5-4 01:13 , Processed in 0.055818 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表