我想经常刷抖音的小伙伴们肯定都刷到过一个叫张同学的视频,就突然间爆火,而且两个月涨粉一千多万,这个简直数据量简直惊人, 我想很多人都对他的爆火好奇,所以今天这篇文章,我们就通过抓取张同学的视频的评论数据,从文本分析的角度,挖掘一下大家对张同学感兴趣的点。看了下他的视频量不是很多,但是视频的点赞量一直很高,11.17 号的视频达到了顶峰,收获 250w 个赞,之后关注量也开启了暴涨,所以我们可以通过抓取这个高点赞量的视频的评论来帮助我们完成需求。 现在的抖音有了web版,获取数据比app更容易些。但是难道肯定是有的,比如最基本的,限制ip的访问频率,所以我们在抓取过程中是需要加上代理ip的,文章主要是使用的了亿牛云提供的动态转发模式的代理,使用比较简单,方便,对一些新手爬虫更友好。我们找到访问的接口,就可以写 Python 程序模拟请求,获取评论数据,部分示例如下: #! -*- encoding:utf-8 -*- import requests import random # 要访问的目标页面 targetUrl = "https://www.douyin.com/search/%E5%BC%A0%E5%90%8C%E5%AD%A6?" # 要访问的目标HTTPS页面 # targetUrl = "https://www.douyin.com/search/%E5%BC%A0%E5%90%8C%E5%AD%A6?" # 代理服务器(产品官网 it帮论坛真好) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理验证信息 proxyUser = "16UVMAYI" proxyPass = "018675" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 设置 http和https访问都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 设置IP切换头 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text从获取的数据分析,经过主题分类后,我们可以发现,张同学不仅仅是农村生活引起了大家的关注,更多的是视频中大量反常态的镜头,很多你以为他接下来会做的事并没有发生而是做了让你意想不到的事。从抓数据到分析,做得比较仓促,下期我们再做一遍更详细的分析。
|