3. 技术实现
3.1 从 Word 到 XML – 工具和标准
对于文本标记,使用既定的标准来确保长期独立于程序和平台的数据进一步处理。原始数据收集(如前所述)最初是 Word 表格的形式,首先使用TEI OxGarage和正则表达式 (RegEx) 转换为 XML,然后手动编辑。
图 2:数据收集和转换(图片:Bibliotheca legum 2017)。
图 2:数据收集和转换(图片:Bibliotheca legum 2017)。
在创建层次结构和选择元素时,请注意确保它们尽可能接近根据 TEI P5 在手稿描述中使用的元素,以确保轻松生成。生成的语料库文件的主体由一个列表组成,其中包含一个 带有每个手稿的xml:id属性的<item>。该 ID 基于签名(对于手稿Admont,Stiftsbibliothek, 712 而言,该条目例如为<item xml:id="admont-sb-712" n="1">),并且也对应于此手稿的 xml 文件的后续 乌拉圭电报数据 文件名。一方面,语料库文件作为各种概述的数据基础(从而可以作为访问各个文本见证的渠道)。另一方面,符合 TEI 标准的手稿描述是使用 XSL 生成的,它反映了当前的研究状态并可供下载。这个工作流程意味着只需要在语料库文件中进行添加和更改。这些随后会自动反映在依赖文件中。[16]