此处提出的研究旨在比较手动和计算生成的注释。注释是指在解释过程中和解释之后对文本进行标记以组织信息和记录解释过程。[15]人类和机器都可以做到这一点。通过我们的研究,我们解决了两个问题:一方面,数字人文学科在很大程度上缺乏比较计算和人类内容检索的系统研究。[16]另一方面,机器学习中通常缺乏定性评估程序来验证自动生成结果的质量。[17]这一点尤为重要,因为定性研究人员使用数字化方法的障碍仍然很高,而通过这样的质量保证措施可以降低这一障碍。[18]
下面,我们首先介绍研讨会的流程,然后依次介绍手动和机器注释的结果。然后以系统的方式对它们进行比较。本文最后考虑了实验方法的局限性,并对机器和手动注释进行了比较。
2. 方法论:民族志文献比较研讨会
[ 8 ]我们调查了实验研讨会上提出的问题,并与四位研讨会领导者一起对研讨会事件进行了民族志记录。研讨会的目的是通过具体使用文本语料库来研究,访问视角如何以及在何处有所不同,这取决于最初是通过主题建模还是通过手动 纳米比亚电报数据 注释来访问来源。此外,这些观点应该在小组中得到体现。这是对两种方法的探索性但有条不紊的评估,为进一步系统化和方法组合奠定了基础。因此,研讨会上提出的问题与这里探讨的问题密切相关,但并不相同。该研讨会由慕尼黑大学计算社会科学系 (Lina Franken) 和哈根远程大学 »数字人文科学 » 研究小组 (Dennis Möbus) 合作举办。为了实现具有定性研究/口述历史和数字人文背景的研究人员的异质组成,并建立研究和教学之间的转移,特别邀请了来自慕尼黑大学和费尔南多大学这些领域的学生、主办机构的员工以及来自他们自己研究网络的合作伙伴提交一封简短的动机信进行申请。