【量化历史研究】历史记录中的中文姓名匹配问题
历史
历史 > 自媒体 > 正文

【量化历史研究】历史记录中的中文姓名匹配问题

(图片来源于网络)

Explorations in Economic History于2023年1月发行的第87卷是一期专门探讨历史数据中有效信息挖掘方法进展的专刊。专刊中的文章主要集中于对人口数据和地理数据的处理,并涵盖了多种前沿方法,如机器学习、手写识别等等。

对人口数据的处理包括对于西文数据里中文姓名匹配的改进 (Postel, 2023),对死亡数据中死亡原因进行整理并集合成家庭代际数据 (Bailey et. al, 2023),建立用于离线手写文本识别的手写姓名数据库 (Dahl et. al, 2023),以及用深度学习和手写文本识别方法来阅读16世纪的手写税务记录 (Blomqvist et. al, 2023)。

对地理数据的改进包括对人口普查微观数据中的城镇进行地理编码和标准化 (Berkes et. al, 2023),将历史上的城市目录转化为以地理位置和社会地位为参照的家庭层面数据集 (Albers and Keppner, 2023)。

专刊还收录了一些对其他记录的处理方法,例如用OCR识别历史资产负债表的预处理和后处理 (Correia and Luck, 2023),用机器学习和自然语言处理的方法将卡片索引记录数字化并构建数据框架 (Amujala et. al, 2023),以及用词嵌入的加权平均数衡量不同结构历史文档的相似性 (Seegmiller et. al, 2023)。

本专刊为经济史研究者提供了许多有效信息挖掘的新方法,以提高历史数据精度和完整度,促进经济史领域的研究进展,进一步拓宽了我们对经济发展和历史变迁的理解。

本文主要介绍Postel (2023) 提出的对于中文姓名匹配的新方法。

处理历史数据时,我们需要利用姓名、出生地和年龄等特征来将多个数据集联系起来。为了最大限度地提高这种工作的准确性和效率,目前学界已经开发了多种自动算法。然而,这些算法对于非英语姓名的转录仍面临着很大的困难。例如,一个标准的匹配方法发现,1880年生活在美国的中国男性中只有3.6%在1900年再次出现。这种低准确度使得样本的匹配出现偏差,不利于中国经济史研究的开展。

对此,Hannah M. Postel 开发了一个三步预处理方法,以提高19世纪末排华法背景下移民社区历史记录的匹配问题。新的方法将匹配成功率比标准方法提高了三倍,使匹配成功的中国人比例与欧洲移民群体的比例持平。

本文所述的匹配方法具有很强的适应性。它可以与任何匹配算法一起使用,也可以被用于其他基于字符的语言(如日语),以实现对其他移民社区的定量分析。最重要的是,它强调了为移民群体量身定做语言匹配方法的必要性和前景。代码和字典对照表都可以在Dataverse上公开获得。

中文姓名匹配中的问题

中文是一种由非语音符号("字符")组成的逻辑学语言。词语(包括名字)可以由多个字符组成。另外,中国幅员辽阔,方言多样。直到1958年,中国政府才制定了一套系统的方法,将文字翻译成罗马字母。这些因素使得中文姓名统计面临三个普遍性错误:分段问题,姓名顺序和标准化问题。

分段问题

中文名字多由多个字符组成,因此,单词分割往往是中文自然语言处理任务的第一步。这个问题在考察统计数据的中文名字索引时尤为明显。例如,在犹他州的一个县,有两个人被清点并被编入索引,情况如下。

由于标准匹配算法是将待匹配的名与名、姓与姓相比较,因此,要匹配的名字缺少任何一栏都会造成困难。

姓名顺序

从前的人口普查员很多都不确定中文名字的顺序。因此,很多统计都是按照欧洲人姓名顺序来录入的。并且,名字排序的做法在不同的时间或地区也可能不一致。

姓名标准化

语言多样性在美国的中国移民中尤为普遍,他们大多来自方言众多的中国东南省份。因此,人口普查员记录姓名的方式可能反映了不同方言的不同发音。且在1932年之前,中文并没有标准化的口语形式。由于缺乏统一的方法将汉字音译成罗马字母,一个字可以有许多不同的音译方式。例如,“杨”这个姓氏被记录为Young, Yeo, Yong, Yeung, Yeang或Yung。

依赖将名与名、姓与姓联系起来作为索引的方法的根本问题在于,他们非常容易受到分段和名字排序错误的影响。Abramitzky、Boustan和Eriksson(ABE)算法的内置名字清理程序对多部分名字的处理,就是一个鲜明的例子。多数情况下,该算法会自动删除第一个片段外的所有后缀。这意味着包括 "Chin "在内的1625个多部分原始名称(如 "Chin Fung"、"Chin Hing"、"Chin Lung")在清理后都被浓缩为简单的 "Chin"。这不仅过度压缩了多部分的名字,而且使它们等同于417个仅以 "Chin"为名的人。

匹配过程与结果

本文为基于字符的名字开发了一个三步预处理方法,可以和任何研究者选择的标准匹配方法配合使用。作者使用了由IPUMS提供的1880年和1900年的全部人口普查数据。数据包括在中国出生并居住在美国大陆的中国男性:1880年为97,970人,1900年为76,484人。人口的大幅减少可归因于这一时期日益严格的排华法。

第一步是通过以单字为片段来解决划分错误。每个名字在索引列中被一个空格隔开,将每个片段分割成一列。

划分完毕后,再通过ABE方法匹配每个名字片段。这个步骤增加了2,225个成功匹配对象。

第二步是通过改变上一步创建的姓名片段的顺序来解决不一致的姓名顺序问题。这一步将原来的1880年的姓名片段与1900年的数据集相匹配,其中的姓名片段以不同的顺序列出。

在两段式的简单姓名中,“Hang Lee”将在1880年与前一步保持一致,并在1900年反转为 "Lee Hang"。三段式姓名则有两种改变方法。例如,一个人的名字在1900年被列为Ping Deng Xiao. 此处姓氏可能是Ping也可能是Xiao,因为单字的姓氏可能在最前或最后。因此,作者将这个人的名字先转换为Xiao Ping Deng,再转为Deng Xiao Ping,然后进行匹配。这一步又增加了2,193个匹配,总共有6,836个匹配对。

最后,作者对中文名字进行了名称标准化。这一步的目的是通过将罗马化的拼写映射到其对应的汉字,来尽量减少索引中的人为增多的变化。利用中国移民档案的历史数据库,作者编制了一个由罗马化姓名和汉字之间的对等关系组成的标准化姓氏对照表。到美国的中国移民在入境和出境时必须填写申请表格;这些签名往往以罗马化和汉字格式记录,如下图所示。

该索引包含18,533人,其中60%的人被列为罗马化和字符形式的姓氏。作者将其与Unihan数据库合并,形成罗马化姓氏和字符映射的交叉图,并计算了数据库中罗马化姓氏的总数以及每个确定字符映射的频率。例如,姓氏 "Ho "在索引中出现了49次,每次都被对应于“何”字。而"Fong "出现了137次,并被映射到多个字符,例如“方”、“冯”等。

下一步是将姓名对照表应用于人口普查数据。对于“何”这种单一映射是非常简单的。然而,对于像“Fong”这样的情况,没有决定性的字符对应,作者则使用了一个频率百分比阈值。一个罗马音对某个汉字对应的频率在这个阈值以上,则认定这个罗马音和字符相匹配。以0.7位临界值,这一步确定了另外509对匹配。

本文所描述的Postel方法将1880年至1900年间的7,345个中国人匹配起来,与基线相比增加了三倍,这些成果主要是由分段和姓名顺序的变化所驱动。完善后的匹配占1900年中国移民人口的9.6%,与欧洲移民群体的匹配率相当。

平衡试验显示,Postel方法和ABE标准方法产生了类似的代表性样本,尽管两者与中国整体人口相比都有一些偏差,特别是在年龄方面。与其他匹配数据一样,使用这种匹配方法的研究应该讨论样本的代表性,并根据观察到的特征对样本进行加权。

稳健性及准确性

作者又将上述方法应用于另一对人口普查年份(1900-1910)。并将本方法匹配结果的数量、准确性和独特性与ABE、MLP和BYU Census Tree等方法产生的结果进行了比较。

结果表明,由于消除了大部分完全不可靠的匹配,Postel匹配的质量要高于其他算法产生的结果。另外,本方法确定了2860个没有被其他任何方法识别的匹配。由于只有本文的方法对名称顺序有所改善,可见 此方法所增加的匹配大部分来源于对名称顺序问题的解决。

一个增长核算框架

本文开发了一种弥补19世纪和20世纪美国的中国移民记录的姓名匹配方法。作为美国第一个主要的非白人移民群体,对中文姓名的匹配能够使我们深入了解核心的社会政治过程,如种族边界的形成、移民融合和移民政策的有效性等。与基线相比,这种方法使匹配的数量增加了三倍,使中国人的匹配率与一些欧洲移民群体的匹配率一致。与标准记录联系方法相比,这些匹配的数量和质量都更高。

这种方法也可用于匹配中国妇女,因为中文中不存在改姓的惯例。虽然这是一个小群体,但对了解基于性别的移民限制具有实质性的意义。此外,类似的方法也可用于其他以字符为基础的东亚移民群体(如日本等)。

更广泛地说,本文所开发的方法表明了姓名预处理对特定群体历史记录联系的重要性。鉴于移民群体的匹配率相对较低,使用语言上的匹配方法为研究少数民族群体的经历和减少整体匹配样本的偏差提供了一个重要的机会。

轮值主编:蒋 勤 责任编辑:彭雪梅

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载