学院官网 | 简体中文 | ENGLISH

【干货】经济研究中应用的数据介绍及分享

发布时间:2019-12-16 作者: 来源:社会调查中心

大数据在经济研究中的应用研讨会与会嘉宾合影

 

2019年12月初,由暨南大学经济与社会研究院(IESR)、香港浸会大学商业数据分析与数码经济研究中心(CBADE)及经济学系联合主办的“大数据在经济研究中的应用研讨会”在暨南大学曾宪梓科学馆406室顺利举行。

 

会上专家学者探讨了如何将大数据更好地应用在经济学领域的研究中,并分享了不同研究领域的高质量数据库。暨南大学社会调查中心(以下简称“中心”)执行主任何李芮介绍了中心目前已开放使用的广东千村调查和中国乡城人口流动调查数据,吸引了在座师生的关注。

 

步履不息,求索不止,中心将承载广大师生的期待前行,继续提供优质的学术公共产品,致力于为经济学研究夯实发展基础,为政策制定及学术研究提供有力数据支持,为建设中国高质量数据共享平台贡献力量。

 

下面,一起来回顾研讨会上的一些高质量数据吧!

 

“大数据在经济研究中的应用研讨会”

高质量数据汇总

 

来源:暨南大学经济与社会研究院

 

No.1

广东千村调查数据


广东千村调查项目旨在追踪乡村振兴战略实施下农村的发展与变化,收集和利用一手数据,进而研究三农问题。调查采用四阶段按规模大小成比例的概率抽样(PPS Sampling)方法,设有行政村问卷、自然村问卷和家户问卷三种主体问卷类型,系统地收集了广东省乡村发展的微观数据。据统计,2018年广东千村数据含99个行政村样本、207个自然村及3012个家户样本,2019年(扩样后)数据含119个行政村样本及3622个家户样本,数据呈现了多维度的调查结果。

 

涉及到的话题包括:精准扶贫战略、乡村治理与乡村运行效率、农村生态环境、教育脱贫战略、农村金融改革等等。除此之外,数据的采集与整理过程经过了专业的质控把关,使最终数据成果足以实现学术研究与政策研究的有机结合,为广东省乃至全国的乡村振兴建言献策。

 

数据来源:暨南大学经济与社会研究院

 

研究方向:精准扶贫、乡村治理、农村生态环境、教育脱贫、农村金融改革、农村征地问题、农业生产、农村家庭收入与消费。

 

数据获取途径:暨南大学社会调查中心官网“数据申请”可供申请使用2018年广东千村数据。

 

问卷下载地址:

https://sdc-iesr.jnu.edu.cn/wdzx_15988/list.htm 

或进入“暨南大学社会调查中心”官网—调查项目—广东千村调查—文档中心-下载。

 

申请流程:请提供

1)最近个人简历;

2)初步使用计划,包括研究问题、研究意义与现状、研究内容、研究方法、预期成果等。

 

请将相关资料打包发送至gdqc_jnusdc@163.com 


No.2

中国乡城人口流动调查

 

中国乡城人口流动调查数据追踪记录了在工业化和城市化发展下的人口流动迁移情况,是了解当前政策限制对外来务工人员及其家庭影响的有力依据。项目早期是由澳洲国立大学孟昕教授于2006年发起并执行,2008年基线调查开启后逐年开展项目追踪。2016年,暨南大学经济与社会研究院参与该项目执行,自2017年起该项目由经济与社会研究院独立开展。调查范围涵盖了全国流动人口迁入和迁出人数最多的9个省份15个城市。目标面向农业户口的、过去一年内累积在城市居住达3个月人群以及常住地为非户口所在地的外来务工人群。

 

据统计,2016年与2017年的目标样本总量均为5000户,其中老住户的追踪率约为60%。数据内容主要围绕家庭成员基本信息、教育、就业、收支和居住条件等问题展开。2018-2019年则调整了调查对象、调查方式和内容:以2016、2017年参与了该项目的受访者为访问对象,调查手段从原来的计算机辅助面对面访问改为计算机辅助电话访问,问卷在保留最核心的家庭成员基本信息和就业模块的基础上,增设了未来预期模块。随着调查方法的改进创新,项目的调查成果备受瞩目,具有高学术价值。

 

数据来源:暨南大学经济与社会研究院

至2019年10月为止,社会调查中心共拥有4轮调查数据(2016-2019年),数据包含问卷、问卷数据和编码手册。

 

研究方向:流动人口的社会保险和健康状况、成年人教育及培训、就业状况、子女教育、家庭社会关系、重大事件、家庭收支、住房和居住条件等。

 

数据获取途径:暨南大学社会调查中心官网“数据申请”

目前2016-2018乡城人口流动数据(RUMiC2016-2018)已开放使用。

 

问卷下载地址:

https://sdc-iesr.jnu.edu.cn/2018_16170/list.htm 

或进入“暨南大学社会调查中心”官网-调查项目-中国乡城人口流动调查-文档中心。

 

申请流程:请提供

1)最近个人简历;

2)初步使用计划,包括研究问题、研究意义与现状、研究内容、研究方法、预期成果等。

 

请将相关资料打包发送至rumic_jnu@163.com


No.3

气象及污染数据

 

对气候变化经济学、环境污染经济学等感兴趣的研究者,或者在研究中需要利用气象变化作为因果识别方法的研究者,可以参考以下与污染及气象有关的数据,以获得所需的数据。

 

以下数据分为三类:气象监测数据、污染监测数据和污染源数据库。

 

1) 气象监测数据:

① 国家气象信息中心的中国地面气候资料日值数据集,包含了中国699个基准、基本气象站1951年1月以来本站气压、气温、降水量、蒸发量、相对湿度、风向风速、日照时数和0cm地温要素的日值数据。

 

数据来源:国家气象信息中心

数据获取途径:目前数据对拥有教育科研实名注册的用户开放,详情请参考以下网址(http://data.cma.cn/data/detail/dataCode/SURF_CLI_CHN_MUL_DAY_V3.0.html )。

 

②栅格数据University of Delaware Air Temperature & Precipitation,包含了1900-2017年全球月度气温和降水数据,此数据由University of Delware的Cort Willmott 和 Kenji Matsuura共同完成。

 

数据来源:University of Delaware

数据获取途径:

目前数据可以公开下载,详情请参考以下网址:

(http://climate.geog.udel.edu/~climate/html_pages/download.html)

2) 污染监测数据:

①生态环境部污染监测站点空气污染数据,包含2013-2018年中国1500个观测站点的月度数据,监测的指标包括AQI, SO2, NO2, CO, O3, PM10, PM2.5等。

 

②水污染监测数据,包含2014-2018年分布在中国102个城市中共144个站点的监测数据,监测的指标包括ph值,DO,TOC,NH3-N,COD等。

 

数据来源:监测站点

数据获取途径:暂无

 

③卫星遥感数据:来源有很多,如NASA的Dark Target (https://darktarget.gsfc.nasa.gov/),MODIS Land Products(https://modis-land.gsfc.nasa.gov/index.html)和 Global Sulfur Dioxide Monitoring Home Page(https://so2.gsfc.nasa.gov/index.html)。

数据来源:NASA

数据获取途径:请参考对应数据的链接

3) 污染源数据库:环保部的监控数据,包括所有重要的污染源,记录了从1998年到2012年的数据,主要变量有六位的县代码、总产值、生产时间、开工年份、工业用水量、废水处理量、废水排放量、煤炭燃烧量、废气排放量、二氧化硫排放量、氮氧化物排放量、烟尘、工业粉尘排放量等。

数据来源:中华人民共和国生态环境部(数据暂未开放使用)

 

No.4

经济史数据

 

1) 中国历史地理信息系统项目(CHGIS)

CHGIS项目试图建立一套中国历史时期连续变化的基础地理信息库,为研究者GIS数据平台、时间统计以及查寻工具和模型。用户下载CHGIS数据后,可按中国历史上任何时间检索行政单位和聚落,并创建特定时间和特定地区的用户自己电子地图,也可以加入用户自己数据作空间分析和专题制图,或按自己的兴趣建立特定的统计模型。本数据中也包括历史海岸线、历史主要河流和概括性的地形图像。

 

数据来源:哈佛大学、复旦大学、格林菲斯大学

 

数据获取途径:

目前可供用户公开下载,请参考网址:(http://yugong.fudan.edu.cn/views/chgis_download.php)

 

2) 中国人物历代人物传记资料库(CBDB)

CBDB是关系型资料库,目的在于系统性地收入中国历史上所有重要的传记资料。截止到2019年4月为止,CBDB共收录月427000人的传记资料,主要出自七世纪到十九世纪。CBDB除可作为人物传记的参考资料外,也可通过和地理位置等数据结合进行分析。

 

数据来源:哈佛大学费正清研究中心、北京大学中国古代史研究中心、中央研究院历史语言研究所

 

数据获取途径:

目前可供用户公开下载,请参考网址(https://projects.iq.harvard.edu/chinesecbdb)

 

3) 中国多世代人口数据库(CMGPD)

CMGPD收录了从晚清到当代中国的社会调查、族谱、碑文、口述历史等数据。目前CMGPD包括两个地区的数据:黑龙江双城区以及辽宁省。黑龙江双城区的数据包括1866-1913年间居住在该区125个社区中约108100人的记录。辽宁省的数据包括从1749-1909年间居住在该省698个社区中约260000人的记录。

 

数据来源:香港科技大学-李中清及康文林的研究团队

数据获取途径:

目前可供用户公开下载,请参考网址(https://www.shss.ust.hk/lee-campbell-group/projects/china-multi-generational-panel-databases-cmgpd/)

 

No.5

中国企业创新创业调查

 

中国企业创新创业调查(Entrepreneur Survey for Innovation and Entrepreneurship in China, ESIEC)由北京大学国家发展研究院和中国社会科学调查中心实施,以获取反映中国企业创新创业状况的微观数据。2018年ESIEC展开全国范围的调查,样本分布在全国的6个省(辽宁、甘肃、上海、河南、浙江和广东),具有省级代表性。调查总样本量为58500,其中广东的样本数量为14500,河南样本量为10000,浙江和辽宁的样本量分别为9000,甘肃和上海的样本量分别为8000。各省的样本区县与CFPS的样本区县一致(除浙江省),因此可和CFPS的数据通过区县进行匹配,对比企业家和普通人群的数据进行分析。

 

问卷分为创业史、工作与家庭背景、企业经营规模、利润和产业链、企业管理、创新、个人基本资料与主观态度8个模块。

 

数据来源:北京大学国家发展研究院和中国社会科学调查中心(数据暂未发布)


No.6

农村固定观察点调查数据

 

全国农村固定观察点调查是1984年经中央书记处批准建立的农村社会经济典型调查系统。调查数据经过35年翔实的积累,逐渐成为指导农业农村工作与发展的重要决策参考。农村固定观察点调查数据有许多鲜明的特征与优势:调查范围广、样本量大、时间跨度长以及调查内容丰富。该调查目前有调查农户23000户,调查村360个行政村,样本分布在全国除港澳台外31个省(区、市)。

 

自2003年起,调查使用了两级问卷(农村住户和家庭成员问卷),内容涉及家庭成员构成、土地情况、家庭全年收支等等,累积的数据可以达到较为全面的反映我国各地区农户及家庭成员的生产、消费、就业、生活等各项活动。通过对家庭、农户和村庄样本变量进行统一匹配后,分别形成了1986-2017年家庭面板数据、2003-2017年农户面板数据以及1986-2017年村庄面板数据。中间缺失的1992年与1994年则由于并未实施调查工作。

 

数据来源:中华人民共和国农业农村部全国农村固定观察点调查(数据暂未开放使用)

 

研究方向:乡村统计工作、乡村人口劳动力情况、农作物种植与农产品出售、农户与家庭收支情况、乡村振兴进展等。


No.7

海关及贸易大数据

 

中国海关进出口数据库涵盖了中国海关总署对中国进出口贸易过程中交易层面的统计数据。该数据囊括了中国对 200 多个国家和地区的进出口数据。数据详尽的统计了每一笔进出口的产销国,海关关区,产品种类,产品数量,产品价值,单位价格,进出口公司信息以及进出口运输方式等信息。

 

数据来源:中国海关总署(数据未开放使用)

 

研究方向:产业组织理论、企业理论、公司金融、转型经济学、国际贸易、劳动经济学和区域经济学等方向。


No.8

中国知网学术发表大数据

 

中国知网学术发表大数据统计了学术文献的基本信息,包括论文题目、所在期刊(期刊隶属单位、部分年份的影响因子等)、卷期、年月、论文作者(第一作者、合作者、作者音序、作者数量)、作者单位、论文起止页码和页数(论文版面排序)、关键词(关键词个数)、摘要、中图分类号、引用率、下载率等。学术信息含期刊共计1051个,论文324.4万篇,数据时间跨度为1998-2018年。通过机器学习和自然语言处理,数据可用于识别学术研究主题变迁和研究人员兴趣转移。

 

数据来源:中国知网,通过数据爬虫抓取数据。

 

研究方向:中国社科研究人才迁移、机器学习、数据拓展。


No.9

Orbis企业、专利数据库

 

Orbis企业、专利数据库是Bureau van Dijk (BvD)公司经营的产品之一。数据的特点体现在分类细致、数据的宽度与深度以及数据使用的合法性。代表性数据库有ORBIS-全国企业数据库与Orbis Intellectual Property-全球知识产权数据库。其中,ORBIS-全国企业数据库包含全球超过3亿家企业的财务、管理层、董监高管、评级报告、原始财务报表、新闻与并购记录和行业信息。数据库的展示界面简洁实用,具有导出向导功能,方便信息检索。而Orbis IP 则拥有1.1亿专利申请人数据(截止到目前),并与 BvD 现有的2.8亿家公司信息相结合,呈现出一个包含公司信息及其集团专利组合的、更广泛详细的数据视角。

 

数据来源:Bureau van Dijk(BvD)公司。目前国内部分高校图书馆已有该数据库。

 

研究方向:商业决策、金融投资、风险评估、教学科研。


No.10

Patentics系统

 

Pententics是索意互动(北京)信息技术有限公司自主研发的智能化信息处理系统,采用文本自动理解/概念搜索技术,将自动计算的搜索结果与全世界专利审查员人工搜索结果匹配,为专利、知识产权等研究提供相关信息和数据。系统通过对非结构化的专利文本进行变换处理,量化文字,自动化专利数据的处理过程,并自动生成用户所需的报告。Pententics可提供的分析及报告包括但不限于量化专利的质量、对比不同行业或不同企业间的专利情况。

 

数据来源:Patentics目前整合了全球各大专利局专利数据库,包括:美国申请、美国专利、欧洲申请、欧洲专利、世界专利、日本申请、韩国申请、韩国专利、中国发明申请、实用新型、中国发明授权、中国台湾申请、中国台湾授权专利的全文数据库。