今日起全国各地 高考分数线陆续公布, 高考成绩也将陆续公布。这相对高考来说也是蛮令人激动的,因为大家可以看到自己付出了几年的努力最后是什么样的收获。 关于高考分数线,每年每个地方都是不同的,那么我们今天可以通过python大数据获取一下往年各个地区的高考分数线数据,做一个简单的分析,这样可以帮助大家在得知自己的分数后在选择学校,专业的时候有个参考。 爬虫我比较喜欢使用php来写,你们一般都是使用的什么语言呢? 我们获取历年高考数据可以从高考网获取,但是我们一般只要是是大量获取数据都会存在网站封ip的情况,所以我们在采集的时候最好是挂上代理,使用过很多的代理,目前感觉比较靠谱的是亿牛云,有需要的小伙伴可以去了解下。 一些就是通过亿牛云代码件实现的高考分数线数据: <?php // 要访问的目标页面 $url = "http://www.gaokao.com/"; $urls = "http://www.gaokao.com/"; // 代理服务器(产品官网 www.16yun.cn) define("PROXY_SERVER", "tcp://t.16yun.cn:31111"); // 代理身份信息 define("PROXY_USER", "username"); define("PROXY_PASS", "password"); $proxyAuth = base64_encode(PROXY_USER . ":" . PROXY_PASS); // 设置 Proxy tunnel $tunnel = rand(1,10000); $headers = implode("\r\n", [ "Proxy-Authorization: Basic {$proxyAuth}", "Proxy-Tunnel: ${tunnel}", ]); $sniServer = parse_url($urls, PHP_URL_HOST); $options = [ "http" => [ "proxy" => PROXY_SERVER, "header" => $headers, "method" => "GET", 'request_fulluri' => true, ], 'ssl' => array( 'SNI_enabled' => true, // Disable SNI for https over http proxies 'SNI_server_name' => $sniServer ) ]; print($url); $context = stream_context_create($options); $result = file_get_contents($url, false, $context); var_dump($result); // 访问 HTTPS 页面 print($urls); $context = stream_context_create($options); $result = file_get_contents($urls, false, $context); var_dump($result);?>curlGuzzleHttp数据分析我们下一篇文章见,最后就祝大家都能考上自己心仪的院校,都能比自己预估的分数高了又高!
|