【量化历史研究】测量误差问题新解:数字化报纸数据的应用
历史
历史 > 自媒体 > 正文

【量化历史研究】测量误差问题新解:数字化报纸数据的应用

近年来,数字化报纸数据越来越多地被经济史学家所使用。Andreas Ferrara, Joung Yeob Ha和Randall Walsh三位学者最新发表在The Journal of Economic History的论文 “Using Digitized Newspapers to Address Measurement Error in Historical Data”,提出了一种利用数字化报纸数据解决测量误差的新方法。通过复制最近的四篇经济史论文,作者证明了其方法的实用性。

测量误差问题

测量误差是历史数据统计分析中普遍存在的问题。它的存在会使代理变量的系数估计偏向零,出现衰减偏误。代理变量主要可以分为两类,连续变量和二分类变量。对于具有经典测量误差的连续变量,解决这种衰减偏差的方法是使用工具变量(IV)法,但是这种方法通常要花费大量的时间和精力收集原始数据。对于存在测量误差的二分类变量,IV的估计值将会被放大,不再准确。

解决方法的提出

作者展示了如何通过较低的成本从数字化报纸的文本数据中生成辅助变量,以及如何利用它来解决测量误差问题。分两种情况。第一,当是连续变量时,可以直接使用生成的辅助变量作为工具变量。在不存在其他任何内生性问题,且两个测量误差互不相关的情况下,IV估计值将恢复真实参数。第二,当是二分类变量时,此时测量误差就不再是经典的测量误差,IV系数将不再是无偏的。作者提供了三种可能的解决方案。

(1)集合识别。即使不能直接确定真实参数,也可以将 OLS 和 IV 系数分别作为下限和上限。(2)一致样本。考虑代理变量和构造的辅助变量提供相同值的那部分样本,就可以减少OLS偏差。(3)参数偏差校正。虽然OLS和IV本身都不能识别真实参数,但它们的估计值可以共同用于恢复真实参数。这种偏差校正方法只有在OLS和IV的估计参数同号时才有效。

根据理论预测,OLS和IV可以提供包含真实参数的已识别集合的下限和上限,而来自一致样本和参数偏差修正的系数应位于这些界限之间。此外,偏差修正后的估计值在大小上仍应大于来自一致样本的OLS系数。以上框架的一个关键假设是,除了测量误差外,不存在其他内生性问题。

方法的实践——两篇棉铃虫相关研究的复现

作者通过复现最近的关于美国南部棉铃虫害的两项研究,以实例说明如何利用历史报纸数据解决测量误差问题。这两篇论文分别研究棉铃虫对糙皮病死亡(Clay, Schmick, and Troesken,2019)和棉花生产力(Ager, Brueckner, and Herz,2017)的影响。

首先,作者介绍了棉铃虫研究的背景及美国农业部数据的测量问题。棉铃虫是从1892年开始在美国南部蔓延的一种甲虫,到1922年时已经侵袭了美国南部所有的棉花种植区。美国农业部Hunter and Coad (1923)的年度报告中提供了由昆虫学家绘制的一张地图,显示了棉铃虫抵达各县的时间,如图1所示。该地图是现有研究人员用来衡量棉铃虫到达县一级时间的唯一数据来源。但是,地图上的棉铃虫到达日期是实际经济影响日期的误差替代值。这种测量误差会明显减弱估计的效应大小。

图1 美国农业部提供的棉铃虫到达地图

说明:每条实线表示棉铃虫到达的年份

接着,作者展示了如何用报纸数据生成衡量棉铃虫到达时间的辅助变量。作者使用的数据库是目前网上最大的报纸档案库Newspapers. Com,样本是1882-1932年间美国南方13个州的911个受虫害影响的县。这种基于报纸的测量方法的误差与美国农业部地图的误差无关。

主要过程分为两步。第一,通过在数据库中联合搜索各州各县所有报纸中包含“棉铃虫”和各县名称的板块,构建棉铃虫在新闻中的显著性指标。棉铃虫在新闻中的显著性=州内报纸中提及“棉铃虫”和县名的版面数量/州内报纸中提及县名的版面数量。第二,为了平滑噪声,选取棉铃虫在新闻中显著性指标五年移动平均数的最大值作为虫害发生的年份。

然后,作者分别展示了棉铃虫到达时间被定义为连续变量和二分类变量时,如何运用辅助变量来校正测量误差。最后,作者应用构造的辅助变量对两篇论文进行了复现。两次论文复现结果都发现了比原始研究更大的系数,这证明了该方法在处理测量误差方面的有效性。这两个案例验证了前述理论所规定的模式,即普通OLS得到的系数最小,其次是一致样本和参数偏差校正。

方法的推广——另外两外两篇论文的复现

上述两次文章复现都以棉铃虫为重点,是为了证明使用该种方法减少偏差并非侥幸。作者通过复现Hilt and Rahn (2020)和Howard and Ornaghi (2021)的两项研究来证明该方法的可推广性。基于历史报纸数据库,作者分别构建了“代表流感流行严重程度”和“预测每个县施行禁酒令时间”的辅助变量,对两篇论文进行复现。论文复现的结果同样证明了该方法可以减少测量误差。

总 结

文章的主要贡献在于提供了一种简便的方法,为给定的测量误差变量生成辅助变量,并说明如何利用它来解决测量误差问题。作者将针对经典测量误差的框架扩展到变量为二进制的情况。任何可以用一个搜索词或几个词的组合来测量或提取的东西都适合这种方法。大型或突出事件往往可以运用此类方法,因为这类事件会得到报纸的报道。同时,也应当意识到数字化报纸档案的缺陷和不足。这些档案并不包含美国所有的报纸,也不包含所有的文章。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载