【SEMINAR回顾】暨南大学陈光慧:大数据背景下现代抽样技术方法及应用思考
发布时间:2022-01-04 作者: 来源:社会调查中心
讲座回顾
12月29日,社会调查中心邀请暨南大学经济学院陈光慧教授担任“社会调查与应用”系列讲座第二十九期的主讲人,与参会师生们分享他关于大数据与抽样调查数据及其推断估计方法结合的研究成果与实践应用。
陈光慧,暨南大学经济学院统计学系教授、博士生导师,兼任暨南大学研究生院副院长。入选国家特殊支持计划青年人才项目,主要研究领域为抽样调查及应用。主持国家社科基金项目3项、国家统计局重大项目2项,在统计学各类期刊共发表学术论文40多篇。
讲座现场
讲座伊始,陈光慧简要介绍了现代抽样技术的大数据背景。目前,大数据盛行,虽然大数据有着免费获取、数据量大和具有相关性等优点,同时也具有不完整、不完全正确、难以清洗及确定因果关系的缺点,因此,抽样调查有其不可替代性。
陈光慧指出,抽样调查虽然广泛应用于各个领域,但现行抽样技术方法存在三个主要问题:一是重样本量充足,轻抽样随机性;二是重抽样设计,轻抽样估计;三是重一次性抽样,轻样本轮换的连续性抽样调查。针对这些问题,他提出,可以整合利用大数据资源推动现代抽样技术改进,在不显著增加调查经费的前提下,更加准确、及时、全面和连续地产生各类数据,推进中国调查理论方法的改革与发展。
主讲人陈光慧
具体来说,抽样调查方法存在以下几组容易混淆的概念和误区:目标总体和抽样总体、调查单位和抽样单元的区别,随机和随意的区别,概率抽样和等概率抽样的区别。他指出,传统抽样调查中,抽样框的构建和辅助信息的利用两个问题容易被忽略。抽样框的构建必须是有序的且抽样单元务必要“不重不漏”,否则会引起抽样框误差。而辅助信息可以渗透到抽样设计、估计等抽样调查的各个方面,从而提高抽样精度。
关于如何在不显著增加成本的情况下改进抽样设计的方法,陈光慧提出三种方案。一是整合利用各类辅助信息、大数据资源,设计科学有效的多阶抽样调查方案,能够有效提高抽样估计精度。二是找到与研究变量有相关关系的辅助变量x并且x的总体总值或均值已知,建立模型辅助的回归估计系统,提高调查数据精度。三是运用轮换样本的方法来巧妙回避因人的心理而产生的误差。陈光慧以建立我国农村连续性抽样调查体系为例,根据我国实际情况,提出用实施二维平衡单水平轮换模式更新连续性住户调查样本,与现行的农村抽样调查制度与方法能够较好的衔接。
陈光惠通过板书讲解样本轮换
讲座的最后,陈光慧提出,大数据与抽样调查数据的融合在实践中应从理论上系统研究大数据与现行各类复杂多阶抽样调查方案的结合,得出基于多个信息来源的样本推断结果,并以如何利用行政记录大数据推测深圳常住人口的实例展示这一方法的应用。应用大数据与抽样调查数据进行融合推断,不仅增强整体样本的代表性,同时提高了估计的精度。会后,陈光慧与现场师生积极互动,一一回答了他们关于如何改进抽样设计方面的疑问。