注册 投稿
经济金融网 中国经济学教育科研网 中国经济学年会 EFN通讯社

网络爬虫技术在经济学的应用

原标题:《经济学家也要学点网络爬虫技术》

文/钟锃光(厦门大学经济学院)

1. 经济学实证研究中的的网络数据以及网络数据的特点

随着科技的发展,人们正面临信息爆炸。2010 年,零售巨头沃尔玛每小时都要处理100 多万笔交易,为数据库上传大概 2,500 兆数据,相当于美国国会图书馆存书数的 167倍。2沃尔玛在 2011 年收购了数据处理公司 Kosmix,成立了沃尔玛实验室,专门针对大数据开发了一系列的产品。可想而知,这个世界上数据量多到难以想像的地步,而且还在不断地快速增长,它们对世界的影响也越来越大。

与此同时,经济学家的研究也越来越离不开数据的支持。以 2012 年第 1 期的《经济研究》为例,11 篇学术文章,除了一篇纯理论研究的文章外,其余 10 篇均引用了各种数据。在中国经济学工作者常常访问的论坛里也充斥大量关于数据的下载、交换和交易的信息。为了获取所需的数据,经济学家不得不投入大量资金来搜集、购买各种数据库。

如果数据已经被很好的整理,即使需要高价购置,对经济学家而言已属幸运,实际上很多研究所需的数据往往无处寻觅或者分散在多处。好在随着互联网的发展,电子商务、电子政务的逐渐推广,部分数据在网站上直接公开了,只是并未以良好的格式加以组织、对研究者不够友好。笔者在十年前做一个厦门市场房地产交易价格的论文时就碰到无法获取交易价格的问题,转而向多家在线房地产代理商索取数据,结果当然可想而知。被拒绝后,笔者对在线房地产代理商的网站进行了研究,并决定采用爬虫技术(web crawler)收集数据并最后完成了任务。很多互联网上的“大数据”都可以类似的方法收集,比如,地方政府出让土地时需要在报纸和互联网上公告地块信息、很多城市的空气监测站发布每天甚至每小时的空气质量数据、各个城市的天气预报数据、携程网上的机票价格、Google trend 提供的搜索信息等,这些数据都已经被搜集来做经济学研究。比如,斯坦福大学经济系的 Scott Baker 就用 Google trend 的数据来研究失业保险对工作搜寻强度的影响。3

2. 如何利用网络爬虫技术有效率地抓取网上数据

2.1 爬虫技术简介

爬虫(web crawler)是一种专门的程序,用于在互联网上自动抓取内容。常见的爬虫都来自搜索引擎公司。在互联网刚刚兴起的 1994 年,yahoo 采用了层次归类的方法来索引当时的互联网站点,在站点数目较少的时候,手工还能处理为数不多的数据,但随着互联网的发展,就需要自动化的工具来收集数据、更新内容、根据网站内容的链接来发现新的页面和网站,这时爬虫就变得必不可少了。早期的爬虫主要功能是索引网站中的文本内容,随着技术的发展,爬虫的功能也越来越强,例如对图片、视屏与内容的关联,对各种数据格式(如 pdf、doc、xls)的解析等。

在经济学研究中,其实并不需要像搜索引擎公司那样开发一种功能特别强大的爬虫,
需要的是使用爬虫技术,能方便、大批量的下载网站上的数据,并且能够把数据整理成实
证研究所需要的格式。

2.2 爬虫技术原理

用户在访问网页的时候,可能是打开某个网站作为起步,然后通过在浏览器上显示的该网站的内容,再加以浏览、点击等等,从而在不同的站点间跳转并获取信息。个人和服务器之间的交互以浏览器作为中介,浏览器把用户的点击,输入转化成 REQEUST(请求)并传输给服务器,服务器收到请求后,根据请求的内容,按需生成浏览器可以识别的数据格式,作为 RESPONSE(响应)传输给浏览器,浏览器解析服务器传递的内容,并把它显示成图文并茂的页面,这就完成了一次交互。可以看到,一次交互由 以下几个步骤组成:一只简单的爬虫需要完成上述步骤中的 1、2、5 步,首先爬虫需要一个预先设置的起点,然后根据需要向服务器发送请求,这里的请求必须符合 HTTP 协议标准,在服务器看来,这个请求和正常浏览器发来的请求是一样的,所以照样生成相应的结果并返回给爬虫,这时爬虫收到的内容通常是 HTML 或其他浏览器可读的数据格式,但是爬虫不用显示这些内容,而是需要解析这些内容,或保存,或丢弃,或者从里面发现其他的 Link (链接)来作为下一步的工作,这样一只爬虫就可以从一个起点,爬遍网上的每一个节点。

......

点击查看完整版内容

(责任编辑邮箱:zhouhz@efnchina.com)
 

文章评论
关注我们

快速入口
回到顶部
深圳网站建设