Page 1 of 1

学院 Ulrik Brandes 的“社交网络”工作组

Posted: Thu Feb 06, 2025 6:57 am
by Bappy11
2. 细分
2.1 语言学中的切分
[ 5 ]根据沃尔夫·图梅尔(Wolf Thümmel)在《梅茨勒语言词典》[7]中的文章,最古老的分割方法是书写,因为在书写的过程中,口语的声音连续体必然被分解成离散的单元,从而易于分类和反思。写作和文本也可以经历不同层次的分割:例如,中欧写作和文本的现代书写和布局见证了, B. 只是在中世纪连续体文字阶段之后才发展起来的,没有对单词和文本单元进行分割。在语言学中,分割是将复杂单元分解为其元素以便进行分类。因此,问题在于在对话链[8]中区分各个单位,并对它们进行分类定义,例如B. 将一个声音(phon)分配给一个声音类(phoneme)。切分已经成为结构主义语言描述范式中的标准程序,传统上适用于句子级别以下的语言单位:音素(声音类别)、词素、单词和短语。在语言学之外也为人所知的切分程序包括,例如,学校课堂上用来识别句子元素的实践,如重排和替换测试。

单位 例子 班级 例子
順 |
图形 [daχ] |
屋顶
音素 |字素 /d/ – /a/ – /x/ |
<D> – <a> – <通道>
变形 床 –和
孩子 –他
词素 屈折词素,主格复数
单词/标记 声音
奇迹
词性 名词 称谓
短语 小蜜蜂
我们美丽的花园
短语类型 名词短语
句子 最明智的人会屈服。
格特鲁德的邻居种植仙人掌,她站在窗边。 句子类型 陈述句
文本 亲爱的 Heidrun,
我很好。
你的沃尔克
文本类型 信
表 1:切分的语言单位。合作。[47]该研究的目的是确定中篇小说易于概括的特点(即一种类型特征)是否可以通过实证得到证明。我们实验中参与者总结的高度一致性可以证明这一点。评估基于达姆施塔特工业大学 2019 年夏季学期“实证文本分析”研讨会学生完成的问卷调查记录。由于测试对象在总结中没有像我们希望的那样清楚地遵守我们提供的行框,因此我们 尼日利亚电报数据 将每个单独的句子视为评估的一个片段。在预处理中,删除了停用词,并使用 Levenshtein 距离[48]进行自动标准化 (例如›adlig‹ - ›adlig‹)。目前数据的评估仍在进行中。在前面的计算中,针对每个segment的词语级别确定了词频-逆文档频率(tf-idf)分数,以确定其在所有segment的语料库中的特征程度。基于这种形式化,可以计算出到我们自己的样本摘要的距离。考虑到我们的元数据,对结果进行初步聚类似乎表明,经常阅读的人群子集比以德语为母语的人群子集的一致性更高。然而,评估过程中出现了许多困难,我们必须首先克服这些困难,然后才能对这些结果施加任何解释负担。比较金本位从我们自己的样本摘要和问卷摘要中,我们注意到参与者在将框架和内部动作之间的关系整合成所需的完整句子序列时特别困难。因此,我们要求研讨会“实证文本分析”的学生根据问卷的句子序列创建另一个示例摘要。在此基础上,我们想批判性地审视我们以前的成果和实验方法。