追踪调查通过对同一样本在不同时点上的重复观察,可以掌握个体在不同时间的状况,帮助研究者更好地判断事件随时间发展的因果关系及推断总体的变化趋势,对于总体异质性、因果推论以及状态变化这些社会科学领域的重要研究课题有着非常重要的价值(任强、谢宇等,2011)。但追踪调查的难度也随着受访对象的生活变迁而呈几何级数的增长,其中最突出的一个挑战便是追踪样本的流失。以美国收入动态追踪调查(PanelStudyofIncomeDynamics,PSID)为例,经过三轮逐年追踪,原始样本流失比例达15%;至1989年第20轮追踪时,PSID基线人群已有近半数流失,基线样本完访率仅为50。6%(Fitzgeraldetal。,1998)。如何解决样本流失是所有追踪调查项目实施者共同关心的难题,在我国也不例外。
单纯从社会调查与统计分析的角度而言,样本的流失至少会产生两方面的负面影响。一方面,样本流失会直接导致样本量的缩减,削弱统计的效度。数据使用者在检验假设时,可能无法得到有力的证据来拒绝一个实际上是错误的原假设,导致出现“以假当真”的错误。虽然样本流失导致的样本规模减小可以通过补充新样本的方式进行弥补,但其中牵涉到如何重新抽样,如何确保新样本与原有样本之间的一致性与代表性,如何在添加新样本后对新老样本重新计算权数等一系列问题,而这些问题解决起来会更加复杂。另一方面,更严重的是追踪调查中的样本流失可能会导致系统性的偏误。偏误可以进一步分成两类。第一类是由于可观测到的因素导致的偏误(Groves,2006)。例如,相较于老年人,年轻人可能更容易迁移,高收入的人可能比低收入的人更不愿意持续接受访问,从而导致追访样本流失并非随机。如果不加以控制,经过几轮追访后,追踪项目的样本可能会被易访群体所统治,丧失了全体人群代表性。由此将导致某个单变量的描述性统计指标无法得到一个无偏估计。如果说由于可观测的因素而导致的偏误尚可能通过计算倾向值、反概率加权等统计手段做某种程度上的调整,那么,样本流失引起的第二类偏误,即由于不可观测到的因素导致的偏误,则几乎是无解的。在研究目标变量无法被测量(或无法被准确地测量)的情况下,即使控制了其他可观测的因素,依然无法得到无偏的统计估计。由此可见,追踪调查项目面临着样本流失的潜在威胁,如果不采取一定的措施,追踪数据质量可能会出现较大的滑坡;而借助追踪项目数据所做的研究则将承担数据失实和结论不可靠的风险。
本文将从设计与执行两个层面就中国家庭追踪调查(ChinaFamilyPanelStudies,CFPS)在样本追踪方面的尝试及其效果进行介绍。
<<