6月3日,微博话题“信小呆现状”登上热搜,2018年支付宝中一亿“锦鲤”信小呆,你关注过她吗?最近她发视频谈现状:没钱没工作,有抑郁倾向,而且据企查查APP显示,信小呆目前已被多家公司、个人注册商标,其中2018年注册数量居然高达98家,注册公司地址遍布全国,目前已有29项商标被成功注册,大家如何看待商标抢注行为? 由于自己一直做Python大数据挖掘技术开发,经常会遇到一些朋友要做大数据分析,找我帮忙爬商标网的数据。做过数据爬虫挖掘的都知道,商标网是目前国内最难爬的网站之一,因为商标网请了中国第三方权威安全机构做了各种高级的反爬措施。我想大家在采集的时候一定遇到过很多的问题,并且封ip肯定是遇到的最对的,因为商标网对每个访问的用户会进行IP锁定和跟踪,当我们发出去的http请求到商标网站的时候,正常情况下返回200状态,说明请求合法被接受,会有数据返回。但是它的反爬机制算法也很严,如果检查到同一个IP来不断的采集他网站的数据,那么他会把这个IP列入异常黑名单,再用这个ip去访问的时候,会发现被拦截了。那么解决这个问题就比较简单了,我们可以用代理IP池解决封IP的问题,也就是我们每一次请求的时候都采用动态不同的代理IP方式去请求,而且这个代理IP是随机变动的,每次请求都不同,所以用这个代理IP技术解决了被封的问题。
|