[ 17 ]自动记录链接应用于包含家谱相关数据的大型数据库似乎特别有趣。然而,记录链接必须始终考虑数据的具体结构。与家谱相关的数据集具有与简单列表(例如学校成绩表)不同的特征。德语国家的家谱数据库通常关注五个人生事件:出生、洗礼、结婚、死亡和葬礼。这些方面的记录形成了描述个人生命历程的基本框架。此外,通常还会添加其他信息,如居住地或工作详情,但最重要的是与父母和子女的联系。
[ 18 ]包含家谱相关数据的来源的结构非常不同。底层主要来源通常是手稿。这里主要要提到的是教堂登记册。不同的传记资料包含不同的信息。[29]然而,也有大量的二手资料提供了已经处理过的数据。这些数据可以采用不同的结构且高度个性化,例如作为编年史中的连续文本或打印在家谱中。数字空间中也存在许多不同的格式。然而,这里也开发了用于家谱数据的特殊交换格式。
[ 19 ]对于这项研究,假设可以以表格形式呈现各个来源。源中的每个条 荷兰电报数据 目对应一行(通常是一个人),而每一列对应源中的一个数据字段。一行中包含的信息称为一条记录。这里的挑战是数据字段/列必须实际包含可比较的信息。将一个来源的信息分配给正确的数据字段很困难,因为尽管名称相同,但在原始来源中可能意味着不同的信息。例如,来源中的“状况”可以指职业(例如“磨坊主”)或婚姻状况(例如“已婚”)。对于不同数据集之间的记录链接,数据字段内容的定义至关重要。