学院官网 | 简体中文 | ENGLISH

【SEMINAR回顾】北京大学孙妍:运用并行数据评估调查质量——基于中国家庭追踪调查(CFPS)

发布时间:2022-10-18 作者: 来源:社会调查中心

10月13日,暨南大学社会调查中心邀请北京大学中国社会科学调查中心副研究员孙妍担任“社会调查与应用”系列讲座第35期的主讲人,基于她在中国家庭追踪调查(CFPS)中的主管实施经验,向线上参会的师生重点介绍了并行数据的种类、特点,以及如何运用并行数据对问卷的设计质量、访员执行情况及访问模式切换的影响等情况进行评估。

主讲人孙妍具有多年大型综合性社会调查项目的设计及管理经验,先后负责中国养老与追踪调查(CHARLS)、中国家庭追踪调查(CFPS)两大旗舰追踪调查项目的问卷设计与调查组织管理。其研究领域为社会调查方法,侧重调查数据质量评估。

 

讲座中,孙妍首先介绍了并行数据的定义、种类与特点。并行数据是指在调查数据收集过程中记录下的,与调查执行相关的各类信息。根据并行数据的获取方式,可将其分为附加类数据与采集类数据。附加数据是在访问过程中可由计算机辅助调查系统自动记录的数据,如访问用时情况、鼠标键盘操作痕迹数据、访问录音等;采集类数据则需要额外花费人工记录或整理,如各类访员观察数据、样本联系记录、访问行为编码等。孙妍指出,并行数据的种类丰富,具有数据采集层次多样、结构差异大、数据加工复杂以及采集类数据质量难保障等特点。

 

并行数据的类型

并行数据的运用可以有效辅助制定调查策略、评估调查执行难度、监控调查执行进度、评估访员工作质量、改进调查(问卷)设计以及辅助数据清理等。以用时数据为例,访员在访问过程中耗费在每项操作上的时长可以根据研究需要在行为、题项、模块或整体访问等不同层面上进行汇总。其中,以单题访问时长为例,作为问卷评估中最常用的时长指标,单题访问时长过长代表该题目从提问到获取答案的过程持续时间较长,可以解读为题目的问答环节存在一定困难;而时长过短则通常是由访员背离访问规范或受访者跳过部分思考过程引起的,这可能会影响相关题目的数据质量。因此根据单题访问时长数据能够有效筛选异常题项,为问卷设计和修改提供参考依据。

并行数据的应用

为了能够更直观地理解并行数据在问卷评估中的使用,孙妍主要介绍了三个运用并行数据改善中国家庭追踪调查(CFPS)问卷设计的案例。案例详细展现了各类并行数据的分析与应用,探讨了涉及就业状态界定、时间利用测量与家庭间财务往来相关题目的潜在问题。除此之外,孙妍还分享了运用并行数据制定联系策略与培训访问团队的经验,描述并行数据分析下电访与面访在完访时间、问卷类型人群特征与时间偏好方面的差异情况,展示了使用并行数据对执行进度及数据质量监控的实践方案。在讲解并行数据综合运用示例时,孙妍特别强调应当注意控制样本选择偏差,正确使用数据对比,以保证所得结果能够相对准确反映调查特征与现象。

讲座最后,孙妍回答了参会师生关于如何设定单题标准时长、以及如何取舍问卷题目、保证访问规范等问题,双方积极交流,更加深入地探讨并行数据在社会抽样调查中的应用方案和应用价值。