当前位置: 首页 > news >正文

b2b b2c 平台网站建设方案/百度推广开户渠道

b2b b2c 平台网站建设方案,百度推广开户渠道,网站设计的导航栏怎么做,网站一般用什么免费字体基于众包标注的语文教材句子难易度评估研究 论文精读信息摘 要0 引言1 相关研究2 众包标注方法3 语料库构建3.1 数据收集3.1 基于五点量表的专家标注3.3 基于成对比较的众包标注4 特征及模型4.1 特征抽取4.2 模型与实验设计4.2.1 任务一:单句绝对难度评估4.2.2 任务二:句对相对…

基于众包标注的语文教材句子难易度评估研究 论文精读

  • 信息
  • 摘 要
  • 0 引言
  • 1 相关研究
  • 2 众包标注方法
  • 3 语料库构建
  • 3.1 数据收集
  • 3.1 基于五点量表的专家标注
  • 3.3 基于成对比较的众包标注
  • 4 特征及模型
    • 4.1 特征抽取
    • 4.2 模型与实验设计
      • 4.2.1 任务一:单句绝对难度评估
      • 4.2.2 任务二:句对相对难度评估
  • 5 实验结果与分析
    • 5.1 任务一
    • 5.2 任务二
  • 6 总结
  • 自结[^1]

信息

标题: 基于众包标注的语文教材句子难易度评估研究
时间: 2020/2/15
会议: 中文信息学报 信息科技 计算机软件及计算机应用
作者: 于 东,吴思远1,2,耿朝阳,唐玉玲
单位:(1.北京语言大学 信息科学学院,北京 100083;2.北京语言大学 汉语国际教育研究院,北京 100083)
链接: https://kns.cnki.net/kcms2/article/abstract?v=3uoqIhG8C44YLTlOAiTRKibYlV5Vjs7i8oRR1PAr7RxjuAJk4dHXohTl3Ytpz4iO8nWfCwFgVq4mVFDH_115BySqYu1owXIW&uniplatform=NZKPT

摘 要

摘 要:该文提出了一种基于成对比较的众包标注方法,该方法可以通过非专业人士的简单判断获取标准统一的 句子难度标注结果。基于该方法,构建了基于语文教材的由18 411个句子组成的汉语句子难度语料库。面向单句绝对难度评估和句对相对难度评估两项基本的句子难易度评估任务,使用机器学习方法训练汉语句子难度评估模 型,并进一步探讨了不同层面语言特征对模型性能的影响。实验结果显示,基于机器学习的分类模型可以有效预 测句子的绝对难度和相对难度,最高准确率分别为63.37%和67.95%。语言特征可以帮助提升模型的性能,相比 于词汇和句法层面的特征,加入汉字层面特征的模型在两项任务上的准确率最高。

关键词:句子难易度评估;可读性研究;众包标注;语文教材语料库

0 引言

阅读是人类获取信息,认识世界和发展思维的重要活动,也是语言学习的重要内容。难度合适的阅读文本可以促进阅读过程的顺利进行,难度不合适则会阻碍阅读的进行,甚至损害读者的阅读兴趣。 因此,评估阅读材料的难度并根据语言水平进行针对性,个性化的阅读逐渐成为社会各界的共识。其中,评估阅读文本的难易程度,即文本可读性研究扮演着关键而基础的角色[1]。

文本可读性的自动评估是文本可读性研究的核心,也是语言学,心理学与自然语言处理领域共同探讨的课题之一。自动评估文本可读性,就是将影响阅读难度的,可以量化的文本因素综合起来,构建一个自动评估模型,通过模型评估文本的可读性[2]。 由于文本的可读性可以用连续的难度值或者离散的难度级别(如年级)表示,所以可读性自动评估任务通常被转化为回归或分类问题。基于多层面语言特征的机器学习方法是可读性自动评估的主流方法,其核心是从字,词,句和篇章等层面分析和筛选可以预测文本难度的有效语言特征[3-4]。语言特征的选择与文本的语言属性有关,其他语言研究中的有效特征对汉语特征选择具有启发意义,但不能直接应用于汉语可读性评估[1-2]。

按照文本粒度的不同,可读性自动评估任务主要分为文档级的可读性评估和句子级的可读性评估[5]。现有研究多以文档级为主,但文档级的评估模型在短文本上表现不佳,也无法满足特定任务的需求[6]。句子级的难易度评估拥有更加切实的应用场景。例如,根据句子难易度评估结果,教师和图书出版商可以有针对性地修改困难句子[6]。作为一项语言评价技术,句子难易度评估在试题研制,翻译质量评估上也有广泛的需求[7]。同时,句子难度评估方法的研究可以为文档级的可读性研究奠定基础。

目前的汉语可读性研究集中在文档级的可读性评估上[8-10]。一些句子难易度评估研究对影响句子难度的语言特征进行了探讨,但缺乏具体的量化方式和实验证据,在语言特征的选择上也存在不足[11-13]。没有发现使用机器学习方法进行汉语句子难易度评估的研究。 因此,汉语句子难易度自动评估有很大的研究空间。

本文首先提出了一种基于众包标注的成对比较方法来标注句子的难度级别。基于该方法,我们构建了基于语文教材的汉语句子难易度语料库把句子难易度评估转化成分类问题,探究了机器学习方法在两种句子难度评估任务(句对相对难度评估和单句绝对难度评估)上的表现,本文还对比分析了汉字,词汇和句法特征对句子难度评估的作用。实验结果表明,机器学习方法可以有效地评估汉语句子的难度。在预测单句难易度的五分类任务上,模型的准确率达到了63.37%。在句对相对难度评估任务上,最高准确率为67.95%。

本研究的主要贡献包括以下4个方面:
(1)提出了基于众包标注的句子难度标注方法,这种方法通过非专家的简单判断任务就可以获取标准统一的难度标注结果,适用于大规模的句子难度标注语料库的构建。
(2)构建了基于语文教材的汉语句子难度标注语料库。该语料库包含18 411个具有五个难度级别标注的汉语句子,为汉语可读性研究提供了数据支持。
(3)使用机器学习方法进行单句绝对难度评估和句对相对难度评估两项任务,验证了机器学习模型在汉语句子难易度自动评估上的有效性。
(4)选取并分析了多层面语言特征,并对语言特征在难度评估上的预测作用进行了验证。

1 相关研究

评估文本的难易程度一直是教育学,语言学和自然语言处理领域所关心的问题。从20世纪20年代以来,各个语言的研究者根据自身语言特点,通过量化不同层面,不同维度的语言特征,构建线性或者非线性的模型进行自动评估[1,3]。传统的可读性研究通过量化文本的表层特征(如词长,词频等),构建多元线性回归公式来评估文本的阅读难度。最具代表性的可读性公式有**Flesch-Kincaid可读性公式[14]和smog公式[15]**等。随着计算机和自然语言处理技术的发展,越来越多的复杂模型被构建出来应用于文本可读性评估工作[16-18]。可读性自动评估拥有广泛的应用场景,不仅可以帮助教师选择合适的阅读材料,为教材编写,阅读测试提供参考,而且也可以应用于一些自然语言处理任务,如智能改编,中国雄雄[19]。

有监督的机器学习方法是自动评估文本可读性的主流方法。相关研究包括构建统计语言模型评估网页文本的阅读难度[16],或者把可读性评估任务视为分类任务,构建分类模型预测文本的可读性级别[3,8]。这些基于特征工程的方法发现,语言特征的选择对于可读性评估起着重要的作用[20]。但有效特征的预测能力与语言特点有关[20-21]。这些研究中预测能力高的语言特征是否适用于汉语,还有待进一步探究。

句子是语言学习中常用的语言单位,也是多项 自然语言处理任务的基本处理单元,句子级的可读 性研究受到越来越多的关注。按照任务的不同,可 以把句子级可读性评估分为单句绝对难度评估和句 对相对难度评估两项。

Pilán等[5]从第二语言学习角度探讨了影响瑞典语句子难易度的语言因素。该研究将句子可读性评估抽象为二分类问题,支持向量机分类器在该任务上达到了71%的准确率。DellOrletta等[22]对比了表层特征,词汇特征,形态句法特征和句法特征在意大利语文本可读性评估中的作用。他们的研究17表明,无论是句子级还是文档级的可读性评估,句法特征都是预测意大利语文本可读性最重要的预测指标。Brunato等[23]发现,在表层特征,形态句法特征和句法特征中,与句子结构相关的句法特征与英语文本的阅读难度高度相关

Inui和Yamamoto[24]首次提出了句对相对难度评估的任务,通过收集原句与手工简化句之间的相对难度判断,该研究使用基于支持向量机的比较器评估了听力障碍人士对句子难度的感知。Vajjala和Meurers[25]提出基于配对排序的句子可读性评估方法。该任务是对句对的相对难度进行判断,具体来说,给定包含一个简化句-原句的句子对,判断哪个句子更难。舒马赫等[26]评估了一组句子在有上下文和无上下文条件下的相对阅读难度。该研究使用众包标注的方法收集了人类对句对相对难度的判断,然后使用词法和句法特征训练了逻辑回归模型预测句子对的相对难度。研究发现,词汇相关特征可以帮助预测句对相对难度,句子在文本中的上下文信息会影响人类对句子难度的判断

国内句子难易度自动评估的研究仍处于起步阶段。 江少敏[11]采用调查问卷和对比分析的方法,从字,词和句法层面收集了被试对语言特征预测能力的主观评价,并建立了句子难易度测量公式。庞成[13]把影响句子难度的因素分为内部结构,外部结构和意义形式三个范畴。郭望皓[12]对字层面和词层面的特征进行了量化,并使用批评家加权赋值法计算了各指标在预测句子难度上的权重,构建了线性公式上述研究在影响句子难度因素的选择上缺乏系统性和结构性,还没有学者使用机器学习的方法进行汉语句子难易度评估工作,也没有对语言特征的预测作用进行系统的考察。汉语句子的难易度自动评估的难点在于缺乏一定规模的难度标注句子语料库。

2 众包标注方法

基于机器学习的文本难易度自动评估方法需要 一定规模的标注数据。然而作为一种缺乏形式标记 的信息,文本难度标注的困难之处在于难度无法界定、标注标准无法统一。

主观量表法与成对比较法是主要句子难度标注方法。 主观量表是一种包含若干有序级别的量表,用以测量个人对文本的主观难度评价,按照级别可分为5点量表,7点量表,9点量表等,教师[27]。主观量表法可以有效地确定文本的阅读难度[28],但数据规模较小。标注者面对大量的待标注数据时,很难保证统一的标注标准。 成对比较法需要标注者比较给定的两个句子并判定哪个句子更难[24-25]成对比较法是一种相对简单的标注任务,具有正常语言能力的标注者都可以进行句子相对难度的判断。但该方法只能得到句子的相对难度,无法给出精确的难度级别或难度值[17]。 现有的两种难度标注方法只能标注小规模的数据面对大规模数据无法给出标准统一且具有具体难度值的标注结果。

本文提出了一种基于成对比较的众包标注方法,该方法首先通过主观量表标注小规模句子的难度。量表的使用不仅为量化难易度提供统一的坐标,量表中的量点还可以把连续的难度划分成若干个难度区间。然后通过基于成对比较的众包方法把未标注句归类到某个难度区间上,达到标注句子难度的目的。 这种方法把难度标注转化为简单的难易判断任务,便于非专业人士使用统一的标注标准对句子难度进行标注。 该标注方法的原理如图1所示。
在这里插入图片描述
具体来说,该方法主要包括两个步骤:
(1)在小规模数据上使用主观量表量化句子的难易程度。根据主观量表的评定结果,在量表的每个点上选择部分句子作为锚点,如5个点量表,则选择可以代表5个个难度点的句子作为锚点,5个“中国雄安”(“雄安”)。
(2)使用众包标注的方法,通过成对比较任务判断锚点句和未标注句的相对难度,根据判断结果把未标注句划分到特定的难度区间中,该难度区间即为该句子的难度级别。主要流程如图2所示。
在这里插入图片描述

3 语料库构建

3.1 数据收集

语料库中的汉语句子来源于汉语语文教材中的课文文本。语文教材中的课文属于权威典范的文本,体裁丰富,来源广泛。我们收集了人教版,苏教版和北师大版三个版本1~12年级的语文课文,剔除了特殊体裁和特殊栏目的课文文本,如文言文,诗歌,剧本,识字文本。对句子进行去重后,1 392篇课文共产生51 298个句子,句子的平均长度为24.6(md =16.19)。

3.1 基于五点量表的专家标注

我们从原始句子集中随机选择250个句子。3名小学教师和2名教育领域研究生被要求认真阅读这些句子,并在5点量表上对句子的难度进行评分,1表示非常简单,5表示非常难包含250个句子的5点量表问卷需要大约20分钟完成。最终收集了1 250个标注数据。5位专家之间的肯德尔一致性系数(肯德尔s和谐系数)为0.712(P<0.001),说明5位专家的标注一致性较高。

对于每一句话,我们使用多数投票原则确定句子的最终难度。为了保证作为锚点的句子难易度一致,计算了每个句子被标注为最终难度的概率,具体来说,如果5位专家都把句子标注为,则被标注5的概率为1.0,如果有4位专家把句子标注为5,1位专家标注为4,则被标注为最终难度5的概率为0.8。我们选择概率大于等于0.8的句子作为锚点句。

最终,62个句子被选择为锚点句,四组句子代表4个难度锚点(没有难度为5的句子)。为了保证四组锚点句之间在难度上具有较高的差异,对四组锚点句的难度差异进行了测量。单因素方差分析结果显示,四组句子的难度差异显著(f =469, p < 0.01)。更多信息和示例如表1所示。
在这里插入图片描述

3.3 基于成对比较的众包标注

我们使用成对比较的标注任务,通过众包标注 确定大规模句子的难度级别。本研究的标注过程 如下:

标注平台 为了发布众包任务,我们在微信开 放平台上开发了众包标注的微信小程序。

标注人员共有110名标注人员参与了众包任务。在参与标注之前,他们被要求报告自己的年龄,性别,教育程度等个人信息。标注者年龄在19至27岁之间,男女比例为1∶5,大多数人接受大学教育。

标注流程登录标注平台后,屏幕上会显示一条标注指导语和一对句子,一个是锚点句,一个是待标注的句子,如图3所示标注者被要求认真阅读这两条句子并选择相对简单的那条。每个待标注句会随机与特定锚点中的句子进行匹配。为了减少标注工作量,我们在匹配过程中使用了折半插入策略。例如,一个待标注句首先与锚点2的某个句子进行匹配,根据标注结果,该句子与锚点的某个句子进行配对重复这个过程直至确定一个句子的难度级别。每个句子由至少3个标注者进行标注,即每个句子至少被标注3次。平均说来,每个待标注句需要经过两次成对比较得到最终的难度标签,每个句子平均需要30s的时间进行判断。

在这里插入图片描述
数据处理 4周的标注共收集了378 183个成对判断。对于每个句子、我们删除了标注时间小于15秒(1%)和标注次数小于3次(28%)的句子我们使用多数投票原则决定单个句子的难度级别。

数据集构建 最终我们构建了一个基于汉语语文教材的句子难度语料库。该语料库共包含18 411个汉语句子,每个句子被标注为1到5共5个难度级别,,级别1表示很简单,级别5级表示很难。表2给出了每个难度级别上的示例句子。语料库中5个难度级别的统计信息如表3所示。表中除了包含每个级别中句子的数量信息,还包括了每个级别上句子的平均长度(以字为单位)和句子的平均难度值。句子的难度值的计算方式来自于江少敏[11],值越大则难度越高。
在这里插入图片描述
在单句绝对难度评估任务上,我们使用基于语 文教材的句子难度标注语料库作为实验数据。

在句对相对难度评估任务上,基于句子难度标注语料库,我们使用随机配对的方法构建了句对数据集。具体来说,对于句子Si,从语料库中随机选择句子Sj组成<Si,Sj>句对。为了保证数据不重复出现在训练集或者测试集中,句对数据集中的每个句子在整个数据集中仅出现一次,因此,在随机匹配的过程中,每个句子Si只能匹配或被匹配一次。最终,18 411个句子共组成9 205个句对。我们把相对难度定义为两个句子难度级别的关系。例如,如果句对中两个句子的难度级别相等,则这两句话的相对难度标签为0。每类难度关系在句对数据集上的分布如表4所示。
在这里插入图片描述

4 特征及模型

本文在基于语文教材的汉语句子难度语料库基 础上进行两项句子难易度评估任务,分别是单句绝 对难度评估和句对相对难度评估。我们把这两项任 务抽象为有监督的机器学习任务,通过构建模型评 估句子的绝对难易度和相对难易度。为了提高模型 的准确率,并探讨不同层面语言特征在汉语句子难 易度评估任务上的作用,我们加入了汉字、词汇和句 法层面的语言特征。

本节将对所用语言特征、模型和实验设置进行 介绍。

4.1 特征抽取

特征体系的设计参考了吴思远等[29]的特征框架,该研究从汉字,词汇,句法和篇章四个层面构建了汉语文本可读性特征体系来进行文档级的汉语可读性评估。本文从汉字,词汇和句法三个层面实现句子语言特征的量化计算。下面是三个层面语言特征的简要说明。

汉字层面 汉字是汉语的书写符号,汉字的识 别难度影响句子的阅读难度。汉字层面的语言特征 可以从字形复杂度、汉字熟悉度和汉字多样性三个 角度进行量化。

汉字字形复杂度的量化主要考虑了汉字笔画数,汉字对称性,共计6个指标。考虑到笔画数效应的大小与汉字频率有关,相比于低频字,笔画数效应在高频字上作用更小[30]。因此在量化笔画数时,对笔画数进行了频率加权,加权方式参考了吴建国等[31]的研究。汉字熟悉度表现为汉字的使用频率,以及未登录汉字在句子中的占比信息,共计4个指标。汉字字频信息来源于国家语委现代话语语料库提供的“现代汉语语料库字频表”。汉字多样性的量化主要使用类符-形符比(TTR),即文本中出现的不重复汉字数和汉字总数的比值,以及单次汉字信息,共计5个指标。

词汇层面 词是语言中最基本的造句单位,词 汇复杂性在句子理解中起着关键作用。影响词汇难 度的特征主要包括词汇复杂度、词汇熟悉度、词汇多 样性和词汇语义难度四个维度。

词长是预测可读性的主要指标,该维度主要量化了8个指标,考虑到词长与词频的协同作用,对词长进行了频率加权。词汇熟悉度的量化主要计算词频和单次词,共4个指标。词频的信息来自于国家语委现代汉语语料库的"现代汉语语料库词频表"和"汉语字幕词频表"。词汇多样性上计算了句子的总词数,句子中不重复的词数,单次词和成语使用数,共计7个指标。词汇语义难度是汉语可读性研究中由于技术限制没有纳入的维度,但词义的理解是句子理解的重要内容。词性层面包括句子中的5种词性(名词,动词,形容词,副词,中国雄雄)的使用情。本文关注句中5类具有特殊语义作用的词的使用情况,包括实词,虚词,否定词,命名实体。此外,词汇语义难度还包括词在词典中的义项数。共有9个指标来量化句子的词汇语义难度。

句子结构层面句子结构层面包括:句子表层的复杂度,词性复杂度,句法结构复杂度,共计28个指标。

表层复杂度包括句子的长度信息和单句复句信息。句长是影响句子难度判断的重要标准之一,同时长句会倾向于包含更复杂的句法结构,因此句长可以反映句法的结构复杂性。句法结构复杂度分别量化自基于短语结构的句法分析结果和基于依存结构的句法分析结果,计算了句子中名词短语,动词短语,形容词短语,副词短语和介词短语的使用情况,统计了句法树的树高作为句法复杂性的指标。主要动词和依存距离[32]被认为可以反映句子加工的难度,因此,句法结构复杂度还对主要动词前的词数和依存距离进行了计算。句法结构复杂度维度共计8个指标。

特征计算首先,我们对文本进行了一系列的分析,使用哈尔滨工业大学研发的语言技术平台(语言技术平台,LTP)对文本进行分词,词性标注,“中国雄雄”(斯坦福解析器)构建了短[34]。在文本分析的基础上,我们通过Python编程计算得到了汉字,词汇和句法层面的特征指标。

4.2 模型与实验设计

4.2.1 任务一:单句绝对难度评估

任务 单句绝对难度评估任务是句子可读性研 究中的典型任务,其目标是,给定任意一个句子,评 估该句的难度水平。我们把单句绝对难度评估任务 定义为五分类问题。

模型我们对比了支持向量机(Support Vector Machine,SVM)和逻辑回归(Logistic regression,LogR)两种模型的表现。

我们把基于tf-idf的词袋向量作为输入构建了基线模型,词袋向量的维度是200维;然后把不同层面的语言特征作为句子的向量表示,构建了特征模型。在训练过程中采用了5折交叉验证。我们在Python中使用scikit-learn实现了模型。

评估标准任务一使用准确率(准确性)作为分类模型的评估指标。在句子难度分类任务中,难度级别之间并不是相互独立的,而是有序的。难度为1的句子比难度为2的句子简单,如果模型把难度为2的句子判定为中国雄雄。因此,任务一还使用邻近准确率(±accuracy)和皮尔逊相关系数(Pearson)作为模型的评估指标。

准确率(精度,Acc):被预测正确的句子占所有句子的比例;

邻近准确率(±准确度,±Acc):句子的预测级别与标注级别的误差在1个级别内的句子占所有句子的比例;

皮尔逊相关系数(皮尔逊):句子预测级别与实际级别的相关程度。

4.2.2 任务二:句对相对难度评估

任务 句对相对难度评估任务的内容是评估两个给定句子之间的相对难度关系[16-17]。具体来说,给定一个随机句对<Si,Sj>,句对的相对难度关系为[-1,0,1],其中-1表示比容易,0表示比难度相等,,1表示比难,这种关系可以以形式化地表示为:
在这里插入图片描述
其中,D(Si)为句子Si的难度,相对为句对<Si,Sj>之间的难度关系。我们把句对相对难度评估任务抽象为三分类问题。

模型 本任务使用了SVM和LogR两个经典的分类模型。我们把两个句子的tf-idf向量拼接起来,组成400维的向量作为句对表示,构建了基线模型;把两个句子的特征向量拼接起来作为句对表示,中国雄雄。在训练过程中,采用了5折交叉验证。

评估指标 任务二采用准确率(准确性)作为模型的评估指标。

5 实验结果与分析

5.1 任务一

单句绝对难度评估的实验结果如表5所示,该表展示了仅使用词袋特征的基线模型和加入不同层面语言特征的模型在准确率,邻近准确率和皮尔逊相关系数上的表现。我们对比了SVM和LogR两种不同的分类模型在该任务上的表现。可以看出,LogR的准确率高于SVM。

由表5可知,基于tf-idf的词袋模型在该任务上可以达到43%~46%的准确率,说明词的使用可以在一定程度上评估单句的难度。基于语言特征的模型高于仅基于词袋的模型,说明tf-idf可以提升模型的准确率,帮助预测句子的难易度。

Svm模型中,基于所有语言特征模型的准确率和相关系数最高,但基于汉字特征的模型,其相关系数与基于所有语言特征的模型相当。LogR中,基于汉字层面特征的模型达到最高的准确率和邻近准确率,皮尔逊相关系数比基于所有语言特征模型下降了0.01。基于汉字,词汇和句法三个层面特征的模型准确率都高于基线模型,说明加入语言特征有助于提升句子难度预测模型的性能。
在这里插入图片描述
在汉字,词汇和句法三个层面的语言特征中,基于汉字层面特征的模型准确率较高,基于词汇层面特征的模型次之,基于句法层面特征的模型准确率最低,说明汉字特征对于单句难易度评估的预测能力更强。该结果和江少敏[11]的结论不一致,江少敏把句子的难度分为句法,短语和字词三个层面,调查问卷的结果发现,对于小学生和留学生来说,中国雄雄。本研究把影响句子难易程度的因素分为汉字,词汇和句法三个层面,发现相比于词汇和句法层面的特征,汉字层面特征拥有最好的预测能力。这可能是由于,江少敏的目标群体为小学生和留学生,而本研究的标注人员为汉语水平较高的大学生,大学生的句法知识已经较为丰富,句法因素在判断句子难易程度的时候影响较小

图4显示了基于汉字层面特征的LogR模型的混淆矩阵。可以看到,大部分被错误分类的句子都被分到了邻近的难度级别。这说明,句子的难易程度实际上是连续的,分类模型可以把句子分为某几个难度级别,但是各等级之间的边界较为模糊。即使我们使用两两比较的方法,通过锚点句把句子按难度级别划分开来,但标注者在识别具有微小难度误差的句子时仍比较困难。同时,由于我们的标注者的教育水平为大学以上,语言水平较高,在区分低难度级别的句子时不敏感。

在这里插入图片描述
模型在难度级别为5的句子上分类效果不佳,仅有约42%的句子被正确地分类。通过分析混淆实例,我们发现,被标注为难度级别为5的句子不仅包括现代白话文的句子,还包括语境依赖度较高的对话,非白话文的句子等。这些句子由于使用了特殊的文体或表达方式,理解时需要依靠上下文信息或者背景知识,因此标注者把这些句子认定为难度较高的句子。我们的模型只依靠句子的语言特征区分难易,不能考虑文体和语境依赖程度的影响,所以在这些句子上模型的判断与人工标注的结果产生了偏差。这也说明,语境和文体是影响篇章中句子理解难度的重要因素。

5.2 任务二

我们把词袋模型作为基线模型,表6对比了基线模型与加入不同语言特征的模型在预测句对相对难度任务上的实验结果。SVM与LogR的对比显示,SVM的预测准确率略高于LogR。词袋模型的准确率只能达到36%左右,基于语言特征的模型比词袋模型准确率高30%左右,说明语言特征可以提升句对相对难度预测模型的性能。从整体上看,基于汉字特征的模型准确率最高,分别为67。95%和66。87%,基于句法特征的模型准确率最低,分别为64.69%和65。67%,比最高的基于汉字特征的模型降低了2%,左右。说明汉字特征在句对相对难度评估中的预测作用最强。
在这里插入图片描述
图5显示了句子相对难度预测的混淆矩阵。从图中可以看出,标签1和标签-1之间的混淆最小,模型在原标签为0的实例上没有达到较好的分类结果。标签为0的实例是难度级别一致的句子,我们的难度级别只分为5个级别,但语言难度是一个连续体,即使在一个级别内部,中国雄雄。在数据集构建过程中,我们把两句话的难度相等定义为两个句子的难度级别相等,这种做法忽略了级别内部的句子难度差异。句对相对难度的预测任务实际上是在学习句子之间的难度关系,也说明相比于五分类任务,句对相对难度评估任务可以关注到更小的难度差距。
在这里插入图片描述
由于标签为0的句对,其平均长度差小于标签为1和标签为-1的句对,这可能是导致标签为0中国雄雄。因此,我们绘制了模型准确率在不同长度差的句对上的分布,见图6。从图6可以看出,在两个句子的长度差小于30时,句子长度差与模型的准确率成正比关系,长度差越大,中国雄雄。当句对的长度差大于50字时,模型可以达到100%的准确率。这说明当句对中两个句子的长度差大于一定的阈值时,句子的长度差可以准确预测两个句子的相对难度。在成对比较的标注过程中,我们同样发现了句子长度差对句对相对难易度的影响。当呈现两个句子,标注者被要求判断两个句子的相对难易度时,句子长度是标注者考虑的首要因素,只有在句子长度相近或者字义和词义的理解难度过大,标注者才会考虑从其他因素评估句子难度。
在这里插入图片描述

6 总结

本研究提出基于成对比较的众包标注方法来标注大规模句子的难度级别,并使用该方法构建了基于语文教材的汉语句子难度语料库,该语料库中包含18 411个被标注为5个难度级别的句子。基于该语料库,本研究探讨了有监督的机器学习方法在单句绝对难度评估和句对相对难度评估两项句子难易度评估任务上的表现。为了提升模型的性能,本研究量化并提取了汉字,词汇和句法层面的句子特征,并对比了这些特征对汉语句子难易度评估的作用。

实验结果显示,加入语言特征可以提升模型的 预测准确率,尤其是,相比于词汇和句法特征,基于 汉字层面特征模型的预测准确率最高,说明汉字特 征对句子难易度的预测作用最强。实验结果还显 示,在单句绝对难度评估中,句子的语境依赖程度和 表达方式影响句子的理解难度,在句对相对难度评 估中,句对中两个句子的长度差影响模型的预测 性能。

未来的研究会考虑扩大句子语料的规模,以期 实现更复杂的模型。同时,本研究仅使用语言水平 较高的大学生作为标注人员,未来的标注会面向年 龄跨度更大,教育背景更丰富的广泛群体。

自结1

本文构建了基于语文教材的汉语句子难度语料库,使用众包标注和单句绝对难度和句对相对难度评估句子难度。先从语文课本中收集数据,再找3名小学教师和2名教育领域研究生对句子进行5点量表评分,使用多数投票原则确定锚点句,在微信小程序上发布任务找110名标注人员(大多受过大学教育)进行句对标注(两个句子当中选择更简单的那个句子),采用折半插入策略,每个句子至少被标注三次,最后再使用多数投票原则确定最终的句子难度。然后建立机器学习模型SVM和Logist以tf-idf为基线并加入字、词、句法层面的语言特征对构造的数据集的句子难度进行评估,详细结果可以看文中图片。


  1. 扬州大学研一在读学生,本篇笔记仅以帮助自己更好理解论文,也方便日后复查学习。 ↩︎

相关文章:

【基于众包标注的语文教材句子难易度评估研究 论文精读】

基于众包标注的语文教材句子难易度评估研究 论文精读信息摘 要0 引言1 相关研究2 众包标注方法3 语料库构建3.1 数据收集3.1 基于五点量表的专家标注3.3 基于成对比较的众包标注4 特征及模型4.1 特征抽取4.2 模型与实验设计4.2.1 任务一:单句绝对难度评估4.2.2 任务二:句对相对…...

实例五:MATLAB APP design-APP登录界面的设计

一、APP 界面设计展示 注:在账号和密码提示框输入相应的账号和密码后,点击登录按钮,即可跳转到程序中设计的工作界面。 二、APP设计界面运行结果展示...

作用域和闭包:

1、LHS和RHS查询编译一段代码&#xff0c;需要js引擎和编译器&#xff08;js引擎负责整个程序运行时所需的各种资源的调度&#xff0c;编译器只是js引擎的一部分&#xff0c;负责将JavaScript源码编译成机器能识别的机器指令&#xff0c;然后交给引擎运行&#xff09;编译的过程…...

Vue常见面试题?

1、说说你对SPA单页面的理解&#xff0c;它的优缺点是什么&#xff1f; SPA(single-page application)仅在Web页面初始化时加载相应的HTML、JavaScript和CSS。一旦页面加载完成&#xff0c;SPA不会因为用户的操作而进行页面的重新加载或跳转&#xff1b;取而代之的是利用路由机…...

前端借助Canvas实现压缩图片两种方法

一、具体代码 1、利用canvas压缩图片方法一 // 第一种压缩图片方法&#xff08;图片base64,图片类型,压缩比例,回调函数&#xff09;// 图片类型是指 image/png、image/jpeg、image/webp(仅Chrome支持)// 该方法对以上三种图片类型都适用 压缩结果的图片base64与原类型相同// …...

2023年美赛C题Wordle预测问题二建模及Python代码详细讲解

更新时间&#xff1a;2023-2-19 相关链接 &#xff08;1&#xff09;2023年美赛C题Wordle预测问题一建模及Python代码详细讲解 &#xff08;2&#xff09;2023年美赛C题Wordle预测问题二建模及Python代码详细讲解 &#xff08;3&#xff09;2023年美赛C题Wordle预测问题三、四…...

【算法】双指针

作者&#xff1a;指针不指南吗 专栏&#xff1a;算法篇 &#x1f43e;或许会很慢&#xff0c;但是不可以停下来&#x1f43e; 文章目录1.双指针分类2.双指针思想3.双指针应用1.双指针分类 常见问题分类 (1) 对于一个序列&#xff0c;用两个指针维护一段区间, 比如快速排序。 …...

Flutter-Widget-学习笔记

Widget 是整个视图描述的基础。 参考&#xff1a;https://docs.flutter.dev/resources/architectural-overview Widget 到底是什么呢&#xff1f; Widget 是 Flutter 功能的抽象描述&#xff0c;是视图的配置信息&#xff0c;同样也是数据的映射&#xff0c;是 Flutter 开发框…...

easyExcel 写复杂表头

写模板 模板图片&#xff1a; 实体类&#xff08;这里没有用Data 是因为Lombok和easyExcal的版本冲突&#xff0c;在导入读取的时候获取不到值&#xff09; package cn.iocoder.yudao.module.project.controller.admin.goods.vo;import com.alibaba.excel.annotation.ExcelI…...

关于线程池的执行流程和拒绝策略

使用线程池的好处为&#xff1a; 降低资源消耗&#xff1a;减少线程的创建和销毁带来的性能开销。 提高响应速度&#xff1a;当任务来时可以直接使用&#xff0c;不用等待线程创建 可管理性&#xff1a; 进行统一的分配&#xff0c;监控&#xff0c;避免大量的线程间因互相抢…...

【李忍考研传】二、约定

因为收学生证用了好些时间&#xff0c;李忍把学生证都交给班长后&#xff0c;就赶忙跑去食堂。远远地&#xff0c;他就看到那个瘦小的身影立在食堂正门前&#xff0c;那是他们约定每天午餐集合的地方。 “你咋这么慢啊……” “害&#xff01;帮班长收东西耽误了点时间&#…...

2023-2-19 刷题情况

修改两个元素的最小分数 题目描述 给你一个下标从 0 开始的整数数组 nums 。 nums 的 最小 得分是满足 0 < i < j < nums.length 的 |nums[i] - nums[j]| 的最小值。nums的 最大 得分是满足 0 < i < j < nums.length 的 |nums[i] - nums[j]| 的最大值。nu…...

LeetCode笔记:Weekly Contest 333

LeetCode笔记&#xff1a;Weekly Contest 333 1. 题目一 1. 解题思路2. 代码实现 2. 题目二 1. 解题思路2. 代码实现 3. 题目三 1. 解题思路2. 代码实现 4. 题目四 比赛链接&#xff1a;https://leetcode.com/contest/weekly-contest-333 1. 题目一 给出题目一的试题链接如下…...

元数据管理 1

1、关于元数据管理原则说法正确的是 (知识点: 三月份模拟题)A.确保员工了解如何访问和使用元数据。B.制定、实施和审核元数据标准&#xff0c;以简化元数据的集成和使用。C.创建反馈机制&#xff0c;以便数据使用者可以将错误或过时的元数据反馈给元数据管理团队。D.以上都对正…...

统计二进制中比特1的个数

快速统计比特1的数量int CountBitOnes(int32_t n) {int result 0;for(;n;result) {n & n-1;}return result; }原理很简单&#xff0c;n-1会将n中最靠近结尾的1减一&#xff0c;这样n&n-1&#xff0c;n中最靠近结尾的1就变成了0&#xff1b;假设n 0b xxxxxxxx100n - 1…...

第三方实现跑马灯和手写实现跑马灯

目录第三方实现跑马灯手写实现跑马灯手写实现跑马灯【整体代码】自己细心研究一下上述代码第三方实现跑马灯 https://vue3-marquee.vercel.app/guide.html#changes-from-v2https://evodiaaut.github.io/vue-marquee-text-component/ 手写实现跑马灯 CSS部分 <style>.m…...

React Native Cannot run program “node“问题

概述 前几天mac重装系统了&#xff0c;用Android studio重新构建React native项目时&#xff0c;报Cannot run program "node"错误。 电脑系统为macOS 12.6.3 (Monterey)&#xff0c;M1 Pro芯片。设备信息如下图所示&#xff1a; 完整错误信息如下图所示&#xff…...

python基于vue微信小程序 房屋租赁出租系统

目录 1 绪论 1 1.1课题背景 1 1.2课题研究现状 1 1.3初步设计方法与实施方案 2 1.4本文研究内容 2 2 系统开发环境 4 2.1 2.2MyEclipse环境配置 4 2.3 B/S结构简介 4 2.4MySQL数据库 5 2. 3 系统分析 6 3.1系统可行性分析 6 3.1.1经济可行性 6 3.1.2技术可行性 6 3.1.3运行可行…...

ThreadPoolExecutor管理异步线程笔记

为什么使用线程池&#xff1f; 线程的创建和销毁都需要不小的系统开销&#xff0c;不加以控制管理容易发生OOM错误。避免线程并发抢占系统资源导致系统阻塞。具备一定的线程管理能力&#xff08;数量、存活时间&#xff0c;任务管理&#xff09; new ThreadPoolExecutor(int …...

MotoSimEG-VRC教程:动态输送带创建以及示教编程与仿真运行

目录 任务描述 简易输送带外部设备创建 输送带模型添加与配置 工件安装到输送带 输送带输送工件程序编写与仿真运行 任务描述 在MotoSimEG-VRC中创建1条输送带&#xff0c;并且能够实现将工件从输送带起始点位置处输送到结束点位置处。 简易输送带外部设备创建 在MotoS…...

PyTorch 并行训练 DistributedDataParallel完整代码示例

使用大型数据集训练大型深度神经网络 (DNN) 的问题是深度学习领域的主要挑战。 随着 DNN 和数据集规模的增加&#xff0c;训练这些模型的计算和内存需求也会增加。 这使得在计算资源有限的单台机器上训练这些模型变得困难甚至不可能。 使用大型数据集训练大型 DNN 的一些主要挑…...

Golang实现ttl机制保存内存数据

ttl(time-to-live) 数据存活时间&#xff0c;我们这里指数据在内存中保存一段时间&#xff0c;超过期限则不能被读取到&#xff0c;与Redis的ttl机制类似。本文仅实现ttl部分&#xff0c;不考虑序列化和反序列化。 获取当前时间 涉及时间计算&#xff0c;这里首先介绍如何获取…...

js中数字运算结果与预期不一致的问题和解决方案

本文主要是和大家聊聊关于js中经常出现数字运算结果与预期结果不一致的问题&#xff0c;与及解决该问题的的方案。 一、问题现象 如&#xff1a;0.1 0.2的预期结果是0.3&#xff0c;但是在js中得到的计算结果却是0.30000000000000004&#xff0c;如下图所示 如&#xff1a;0…...

C++ Primer Plus 学习笔记(一)——基本类型

字节与字符 计算机内存的基本单位是位&#xff08;bit&#xff09;&#xff0c;字节&#xff08;byte&#xff09;通常指的是8位的内存单元&#xff0c;从这个意义上来说&#xff0c;字节指的就是描述计算机内存量的度量单位。 C对字节的定义则有些不同&#xff0c;C字节由至…...

ChatGpt与Google 谁能给出最好的回答

ChatGPT由于其先进的会话和技术功能而越来越受欢迎。你可以问聊天机器人任何你想问的问题&#xff0c;它会在几秒钟内输出答案。虽然它不是一个搜索引擎&#xff0c;你应该使用ChatGPT作为你的信息来源而不是谷歌&#xff0c;百度吗? 我们来根据国外的一场测试来看一下 ChatG…...

【Redis】一、CentOS64 安装 Redis

1.下载redis https://download.redis.io/releases/2.将 redis 安装包拷贝到 /opt/ 目录 最好自己创建一个文件夹 3.解压 tar -zvxf redis-6.2.1.tar.gz4. 安装gcc yum install gcc5. 进入目录 cd /opt/redis/redis-6.2.1/6. 编译 make7.执行 make install 进行安装 8. …...

Redis底层原理(持久化+分布式锁)

Redis底层原理 持久化 Redis虽然是个内存数据库&#xff0c;但是Redis支持RDB和AOF &#xff08;Redis Database Backup file&#xff08;Redis数据备份文件&#xff09;&#xff0c;也被叫做Redis数据快照。简单来说就是把内存中的所有数据都记录到磁盘中 &#xff1b;Appen…...

Spring Cloud Nacos实战(八) - Nacos集群配置

Nacos集群配置 更改Nacos启动命令配置原理 我们现在知道&#xff0c;想要启动Naocs只需要启动startup.sh命令即可&#xff0c;但是如果启动3个Nacos那&#xff1f;所以如果我们需要启动多个Nacos&#xff0c;其实Nacos本身默认启动就是集群模式。 注意点&#xff1a;如果是l…...

什么是低代码-甲骨文对低代码的定义

什么是低代码平台&#xff1f;低代码阶段使用简化的界面&#xff0c;允许开发人员构建应用程序和软件 既用户友好又响应迅速。而不是编写几行复杂的代码和语言结构&#xff0c; 您可以快速轻松地利用低代码来构建具有用户界面的整体应用程序&#xff0c; 组合和信息。低代码可以…...

shell编程之循环语句

typora-copy-images-to: pictures typora-root-url: …\pictures 文章目录typora-copy-images-to: pictures typora-root-url: ..\..\pictures一、for循环语句1. for循环语法结构㈠ 列表循环㈡ 不带列表循环㈢ 类C风格的for循环2. 应用案例㈠ 脚本计算1-100奇数和① 思路② 落地…...