当前位置: 首页 > news >正文

NLP论文阅读记录 - 以大语言模型为参考学习总结

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.相关工作
    • 2.1文本生成模型的训练方法
    • 2.2 基于LLM的自动评估
    • 2.3 LLM 蒸馏和基于 LLM 的数据增强
  • 三.本文方法
    • 3.1 Summarize as Large Language Models
      • 3.1.1 前提
      • 3.1.2 大型语言模型作为参考
        • 具有准参考摘要的 MLE
      • 3.1.3 从基于法学硕士的评估中学习
        • 对比学习
        • 用于总结质量评估的 GPTcore
        • 用于摘要质量评估的 GPTRank
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.5.1 通过 GPTcore 学习
      • 4.5.2 使用 GPTRank 学习
      • 4.5.3 比较研究
      • 4.5.4 人类评估和荟萃分析
        • 4.5.4.1 人类评估集合
        • 4.5.4.2 结果分析
        • 4.5.4.3 基于法学硕士的评估的荟萃分析
  • 五 总结
    • 局限


前言

在这里插入图片描述

On Learning to Summarize with Large Language Models as References(2305)

code
paper


0、论文摘要

最近的研究发现,与常用摘要数据集中的原始参考摘要相比,大型语言模型 (LLM) 生成的摘要更受人类注释者的青睐。
因此,我们研究了一种新的文本摘要模型学习设置,将法学硕士视为这些数据集的参考或黄金标准预言机。
为了检查与这种新的学习环境相一致的标准实践,我们研究了两种基于 LLM 的模型训练摘要质量评估方法,并采用对比学习训练方法来利用 LLM 引导的学习信号。
我们在 CNN/DailyMail 和 XSum 数据集上的实验表明,在基于 LLM 的评估下,较小的摘要模型可以实现与 LLM 类似的性能。
然而,我们发现,尽管我们提出的训练方法带来了有希望的改进,但较小的模型在人类评估下仍无法达到 LLM 级别的性能。
与此同时,我们对这种新的学习环境进行了荟萃分析,揭示了人类评估与基于法学硕士的评估之间的差异,强调了我们研究的这种以法学硕士为参考设置的好处和风险。

一、Introduction

1.1目标问题

最近的研究(Liu 等人,2023b;Zhang 等人,2023)发现大型语言模型(LLM),如 GPT-3.5(Ouyang 等人,2022),可以生成人类注释者更喜欢的摘要在无参考的人类评估环境中与广泛使用的数据集(例如 CNN/DailyMail(Nallapati 等人,2016)和 XSum(Narayan 等人,2018))的参考摘要进行比较。现有参考摘要的质量问题有效地限制了在其上训练的摘要模型的性能上限,这可能会导致监督摘要模型与法学硕士之间的性能差距,正如相关工作所观察到的那样(Goyal 等人,2022 年;Liang 等人)等人,2022;Liu 等人,2023b;Zhang 等人,2023)。

1.2相关的尝试

1.3本文贡献

因此,我们研究了文本摘要模型的新学习设置,其中法学硕士被认为是摘要任务的参考或黄金标准预言机。这种 LLMa 参考设置通常在模型训练和评估方面对文本生成模型的学习设置引入了有趣的变化,因此我们研究了与这种转变相一致的标准实践(§2)。
具体来说,传统的摘要模型学习设置通常围绕单个参考摘要进行——在训练中,标准训练算法最大似然估计(MLE)要求模型预测参考摘要标记;在评估中,像ROUGE(Lin,2004)这样的自动评估指标通过将系统输出与参考摘要进行比较来估计系统输出的质量。相比之下,法学硕士提供了所有可能的候选摘要的目标概率分布或质量测量。因此,法学硕士可以为任意候选人分配质量分数,这使得超越 MLE 的训练技术成为可能,例如对比学习(Liu 等人,2022b)和强化学习(Paulus 等人,2018;Stiennon 等人,2020;Pang) He, 2021),并为模型评估提供了评估模型输出质量的预言机。
适应这种变化,我们研究了两种使用LLM进行摘要质量评估的方法:
(1)GPTScore(Fu et al., 2023),它将候选摘要的LLM预测概率作为其质量得分;
(2) GPTRank,我们提出的一种新方法,要求法学硕士提供不同摘要的质量排名,受到最近基于法学硕士评估的工作 (Liu et al., 2023a) 的启发。
通过这两种评估方法,我们采用对比学习方法进行模型训练,以有效利用LLM提供的监督信号。使用所提出的方法,我们是能够训练较小的摘要模型,例如 BART(Lewis 等人,2020),以匹配基于 LLM 的评估下的 LLM 表现(§3)。
研究了新的法学硕士作为参考设置后,我们对该设置本身进行了荟萃分析(§4)。具体来说,我们使用人群和专家注释器对法学硕士和法学硕士引导的较小模型进行人工评估,并使用评估结果来评估基于法学硕士的评估方法的可靠性。我们的分析揭示了法学硕士参考设置的好处和风险。
一方面,较小的模型确实可以受益于LLM的指导和对比学习方法。
另一方面,基于 LLM 的评估无法与人类评估保持一致,因为人类评估仍然更喜欢 LLM 而不是较小的模型,而它们在基于 LLM 的评估下实现了相似的性能。

总之,我们的贡献如下:

(1) 我们凭经验证明,当使用更好的参考资料 (LLM) 和学习方法(对比学习)以较小的预算进行训练时,BART 等较小模型的性能可以得到改善。1
(2) 我们的荟萃分析强调了 LLM 的局限性基于的培训和评估方法。它表明较小的摘要模型尚无法与法学硕士在人类评估下的表现相匹配,这需要进一步检查和改进这种新的学习环境。2

二.相关工作

2.1文本生成模型的训练方法

文本生成模型的标准 MLE 训练有两个主要局限性:
(1)训练目标(即交叉熵损失)与评估标准(例如 ROUGE)之间存在差异;
(2)教师强制(Williams and Zipser,1989)训练方式与评估过程中自回归生成行为之间的差异,称为暴露偏差(Bengio et al.,2015;Ranzato et al.,2016)。因此,人们提出了超越 MLE 的训练方法来解决这两个限制。其中一系列方法是基于强化学习(RL)的,可以优化文本面向特定奖励函数的生成模型 (Ranzato et al., 2016; Bahdanau et al., 2016; Li et al., 2016; Paulus et al., 2018; Li et al., 2019; Stiennon et al., 2020;庞和何,2021)。除了强化学习之外,还开发了基于监督学习的训练方法,例如最小风险训练(Shen et al., 2016; Wieting et al., 2019),针对具有各种奖励信号的序列级优化(Wiseman 和 Rush) ,2016 年;Edunov 等人,2018 年)。最近,还采用了对比学习(Hadsell et al., 2006),它通过要求模型区分正(好)和负(坏)例子来增强模型能力(Yang et al., 2019;Pan et al., 2019) .,2021;Cao 和 Wang,2021;Liu 和 Liu,2021;Sun 和 Li,2021;Liu 等人,2022b;Zhao 等人,2022;Zhang 等人,2022b)。
沿着这条道路的最新工作探索了使用对比学习来使法学硕士与人类反馈保持一致(Yuan 等人,2023;Zhao 等人,2023),作为基于人类反馈的强化学习的替代方案(Stiennon 等人,2020;Zhao 等人,2023)。欧阳等人,2022)。

2.2 基于LLM的自动评估

最近的工作探索了使用法学硕士进行自动 NLP 评估。 GPTScore(Fu et al., 2023)利用 LLM 预测的文本序列概率作为质量得分。另一方面,一系列工作(Chiang 和 yi Lee,2023;Gao 等,2023;Chen 等,2023;Wang 等,2023;Luo 等,2023)。例如,G-Eval (Liu et al., 2023a) 提出了使用 LLM 执行文本完成任务的评估方法,例如预测李克特量表评估或成对比较的答案。值得注意的是,其中一些研究(Fu et al., 2023;Liu et al., 2023a;Gao et al., 2023;Chen et al., 2023;Wang et al., 2023)都评估了基于LLM的评估方法在摘要人类评估基准 SummEval (Fabbri et al., 2021) 上进行研究,发现基于 LLM 的评估比以前的方法如 ROUGE 或 BERTScore (Zhang* et al., 2020) 与人类判断具有更高的相关性。除了摘要评估之外,基于 LLM 的评估也已用于文本分类任务(Gilardi 等人,2023)和 RL 代理的奖励设计(Kwon 等人,2023)。

2.3 LLM 蒸馏和基于 LLM 的数据增强

为了提高较小的 NLP 模型的性能,相关工作提出了提取 LLM 并使用 LLM 进行数据增强的方法(Wang et al., 2021;Ding et al., 2022;Kang et al., 2023)。具体来说,工作线(Shrid-哈尔等人,2022;李等人,2022; Hsieh 等人,2023)使用法学硕士生成最终答案和任务相关描述,以训练推理任务的较小模型。至于与文本摘要相关的工作,Wang 等人。 (2021) 介绍了使用 GPT-3(Brown 等人,2020)生成参考摘要,而 Gekhman 等人。 (2023) 提出使用 LLM 来注释摘要事实一致性 (Maynez et al., 2020),用于训练较小的事实一致性评估模型。

三.本文方法

3.1 Summarize as Large Language Models

3.1.1 前提

神经抽象摘要模型 g 旨在生成总结源文档 D 信息的文本序列 S:S ← g(D)。当 g 是自回归生成模型时,它将给定源文档 D 的候选摘要 S 的概率分解为
在这里插入图片描述
其中 si 是 S 中的第 i 个标记,S0 是特殊的序列开始 (BOS) 标记,S<i 是 S 在 Si 之前的前缀字符串,lS 是 S 的长度(不带 BOS 标记),并且pg 是由汇总模型 g 参数化的概率分布。

g 的标准训练算法是带有单个参考(黄金标准)摘要 S* 的最大似然估计 (MLE)。与等式。 1、本例的 MLE 优化相当于最小化以下交叉熵损失:
在这里插入图片描述
其中 θ 是 g 的可学习参数。

3.1.2 大型语言模型作为参考

类似于等式。 1、自回归LLM h定义了文本摘要的目标分布:
在这里插入图片描述
这与单个参考摘要定义的点质量分布不同。因此,交叉熵损失变为
在这里插入图片描述
其中 S 是可能输出的集合(候选摘要)。 Kim 和 Rush (2016) 将这种设置称为序列级知识蒸馏。在实践中,计算方程。 4 是棘手的,因为 S 是无限的。因此,我们研究了三种类型的方法来近似方程的优化过程。 4.

具有准参考摘要的 MLE

我们的基线方法将 LLM h 的贪婪解码结果视为准参考摘要,并使用 MLE 优化摘要模型 g。具体来说,损失函数变为
在这里插入图片描述
其中 ˆ S 是 h 的贪心解码结果:

在这里插入图片描述
其中 s 表示词汇表中的标记。

3.1.3 从基于法学硕士的评估中学习

除了准参考摘要之外,参考法学硕士可以为模型训练提供更丰富的监督信号,因为它们可以用来评估任何候选摘要的质量。
因此,我们采用对比学习方法 BRIO (Liu et al., 2022b),它可以利用 LLM 指导进行模型训练,并探索两种基于 LLM 的评估方法,即最近推出的 GPTScore (Fu et al., 2023) ,还有一个我们稍后会介绍的新方法,GPTRank。

对比学习

我们采用对比损失(Liu et al., 2022b)来更好地利用LLM监督信号,它设定了以下目标:给定两个候选摘要S1、S2,如果S1从基于LLM的评估方法中获得更高的质量分数,概括模型 g 还应该为 S1 分配更高的概率(方程 1)。更详细地说,该损失是用一组候选摘要 Sc 定义的,该集合按 LLM 分配的质量分数排序,并且摘要模型 g 的任务是为更好的候选者分配至少两倍的概率:
在这里插入图片描述

对应于以下保证金损失:

在这里插入图片描述
在实践中,我们观察到方程中对数概率的大小。 8 高度依赖于候选人摘要的长度。因此,我们对等式进行修改。 8 基于长度归一化对数概率 ̄ pg :
在这里插入图片描述
和等式。 8 改为
在这里插入图片描述
其中 λ 是近似平均摘要长度的缩放因子。继刘等人之后。 (2022b),我们将交叉熵损失(等式 5)与对比损失结合起来作为多任务损失:
在这里插入图片描述
其中 α 是对比损失的权重。

用于总结质量评估的 GPTcore

对比学习目标(方程 10)需要从参考法学硕士中获取真实的候选人总结质量分数。因此,我们首先采用GPTScore(Fu et al., 2023)进行总结质量评估。具体来说,GPTScore 将参考 LLM h 预测的候选摘要的长度归一化条件对数概率解释为其质量分数,即
在这里插入图片描述
因此,方程中使用的候选摘要集合 Sc。 10 基于(归一化)目标分布(方程 3)进行排序,使得对于任何 Si,Sj ∈ Sc,i < j, ̄ ph(Si|D) > ̄ ph(Sj|D)。我们在图 1 中提供了 GPTScore 的说明。
在这里插入图片描述

用于摘要质量评估的 GPTRank

最近的工作,例如 G-Eval (Liu et al., 2023a),没有利用 LLM 的预测概率,而是将自动评估制定为 LLM 的文本完成或填充任务。例如,给定源文章和摘要,可以要求法学硕士提供摘要的数字质量分数。然而,正如刘等人。 (2023a) 发现 LLM 预测分数不够多样化且候选人摘要不同可能会获得相同的分数,我们向法学硕士提出排名任务。
所提出的评估方法 GPTRank 要求法学硕士为同一来源文章的不同候选摘要列表提供排名。此外,由于最近的工作(Liu et al., 2022a, 2023a)发现语言生成模型可以受益于评估任务的自我解释阶段,因此我们提示法学硕士在提供实际排名之前首先生成解释。然后将该排名用于对比训练(等式 10)。我们在图 2 中提供了使用 GPTRank 的示例。
在这里插入图片描述

四 实验效果

我们以多个法学硕士作为较小模型的参考进行实验,并比较不同训练方法的性能。

4.1数据集

我们在 CNN/DailyMail (CNNDM) 数据集上进行实验。使用原始验证集进行模型训练和评估,并使用100个测试示例进行基于LLM的评估。法学硕士被提示生成三句话摘要,以近似原始摘要风格,并使用 0 采样温度来近似贪婪解码过程(等式 6)3。

4.2 对比模型

4.3实施细节

模型训练从在原始 CNNDM 数据集上微调的 BART4 检查点开始。我们选择BART是因为它使用广泛且规模相对较小。
微调过程包括三个步骤:
(1) 热启动。我们使用 ChatGPT5 生成 10K 个用于微调的摘要和 1K 个用于验证的摘要,并通过 MLE 训练对原始 BART 检查点进行微调(等式 5)。
(2) MLE 培训。使用步骤 (1) 中的微调检查点,我们继续对不同 LLM 生成的准参考摘要进行 MLE 训练来微调模型。
(3)对比训练。从步骤 (2) 继续,我们使用多任务、对比学习目标不断微调模型(等式 11)。方程式的候选摘要。 10 个是从步骤(2)中训练的检查点生成的,并且不同的光束搜索(Vijayakumar 等人,2018)用于为每个数据点生成 8 个候选点。6
我们注意到,为了更公平的比较,在以下部分中,我们比较步骤(2)和步骤(3)中检查点的性能)在预算方面使用相似数量的数据进行训练。
关于检查点选择,对于 MLE 训练,我们使用验证集上的交叉熵损失作为标准,而对于对比训练,我们使用对比损失(等式 10)。
自动评估
对于基于参考的评估,我们报告系统输出与参考 LLM 生成的(准)参考摘要之间的 ROUGE-1/2 F1 分数。
对于无参考评估,我们使用 GPTScore(Fu 等人,2023)或 GPTRank(图 2)。特别是,对于 GPTScore,我们报告了对数概率的非标准化和标准化总和。

4.4评估指标

4.5 实验结果

4.5.1 通过 GPTcore 学习

我们首先使用 GPTScore 来研究学习。
我们选择的参考 LLM 是 OpenAI 的 text-davinci-003 (GPT3D3),因为它的 API 提供了对预测对数概率的访问。
使用 GPT3D3,可以生成大约 2K 个摘要用于 MLE 训练,并生成 200 个数据点用于对比学习。
在这里插入图片描述

我们在表中报告了测试集上的模型性能。 1. 比较以下模型的性能:
(1) GPT3D3,
(2) 在原始 CNNDM 数据集上微调的 BART 检查点,
(3) GPT3D2(OpenAI 的text-davinci-002),
(4) 7B Alpaca 检查点,7
(5) ChatGPT。
我们得出以下观察结果:
(1)与原始 BART 检查点相比,根据 GPTScore 或 ROUGE 衡量,对 LLM 的准参考摘要进行 MLE 训练可以有效提高模型性能。它表明,使用更好的参考摘要进行训练可以缩小较小的摘要模型和法学硕士之间的性能差距。
(2)对比学习得到的模型(BRIO.GPT3D3)可以比通过MLE训练微调的模型(BART.GPT3D3)获得明显更好的GPTScore,证明了对比学习对于近似参考LLM目标分布的有效性。
(3) BRIO.GPT3D3 已经可以达到与参考 LLM (GPT3D3) 本身类似的 GPTScore,同时仅通过对比学习对 100 个示例进行训练,这显示了进一步缩小性能差距的有希望的路径。

4.5.2 使用 GPTRank 学习

我们现在使用 GPTRank 进行模型训练和评估的实验。我们选择的参考 LLM 是 ChatGPT 8 和 GPT4 (OpenAI, 2023),因为它们在摘要评估方面表现出了最先进的性能 (Liu et al., 2023a)。9
对于对比学习,使用 500 或 1000 个数据点模型训练ChatGPT和GPT4分别作为参考LLM,并使用100个数据点进行验证。
为了进行更准确的评估,我们选择ChatGPT作为基线模型,并使用LLM在不同系统和ChatGPT之间进行配对比较。此外,我们允许法学硕士预测两个摘要之间的平局。10以 ChatGPT 作为参考 LLM 的结果如表 2 所示。
在这里插入图片描述

结果与我们在第 3.2 节中观察到的结果类似:
(1)使用更好的参考进行训练有助于提高摘要模型的性能。
(2) 对比学习比标准 MLE 训练更有效,因为用对比学习训练的模型 (BRIO.ChatGPT) 可以优于其对应模型 (BART.ChatGPT)。
(3)在ChatGPT本身的评估下,BRIO.ChatGPT在与基线模型ChatGPT的比较中赢得了一半以上,这表明对比学习可以针对特定的评估指标(即GPTRank)有效地优化摘要模型。
除了使用ChatGPT作为参考LLM之外,我们还使用GPT4作为GPTRank的骨干模型进行实验。我们在选项卡中报告结果。 3,并注意以下几点:
(1)使用不同的LLM时,GPTRank的评估结果不同。例如,虽然 BRIO.ChatGPT 在 Tab 中的 ChatGPT 评估下优于 ChatGPT。 2、GPTRank与GPT4仍然更喜欢ChatGPT。
(2)使用对比学习和GPT4作为参考LLM训练的模型检查点(BRIO.GPT4)在GPT4的评估下能够优于ChatGPT,这也表明BRIO.GPT4可以优于BRIO.ChatGPT。它显示了选择用于对比训练的适当评估方法的重要性。
(3) BRIO.ChatGPT 的性能优于 BART.GPT4,尽管 BRIO.ChatGPT 是使用据称较弱的参考 LLM 进行训练的,这表明了对比学习的优势以及使用更好的训练方法的重要性。

4.5.3 比较研究

我们研究了我们的训练方法在主干模型和数据格式的选择方面的泛化能力。
FLAN-T5 实验
我们重复第 3.3 节中的实验,但使用 30 亿个 FLANT5(Chung 等人,2022)模型11 作为骨干模型。
在这里插入图片描述

结果在选项卡中。
图 4 表明,对于模型性能而言,训练算法可能比模型大小更重要,因为 BRIO.GPT4 的性能优于 T5.GPT4。
通过对比学习训练的 FLAN-T5 检查点 T5BRIO.GPT4 取得了很强的性能。然而,我们注意到它的摘要比其他系统的摘要要长得多,这使得结果更难以解释,因为最近的工作发现人类和基于法学硕士的摘要评估中的摘要评级和长度之间存在很强的相关性。(Liu 等人,2023b; Rajani 等人,2023)。进一步的讨论在附录 A.4 中。
在这里插入图片描述

XSum 实验我们现在在另一个常用数据集 XSum(Narayan et al., 2018)上进行实验。我们遵循原始的 XSum 数据格式,让模型生成一句话摘要。实验设置与§3.1 和§3.3 中的类似,更多细节参见附录A.5。结果如表所示。
图 5 显示了类似的趋势,即使用更好的参考进行训练有助于提高模型性能。
我们注意到,对比学习的增益在 XSum 上是微不足道的(BART.GPT4 与 BRIO.GPT4),这可能是因为与 CNNDM 相比,BART.GPT4 和 ChatGPT 之间的性能差距较小,这限制了改进空间。

4.5.4 人类评估和荟萃分析

在第 3 节中,我们已经证明,在基于 LLM 的评估下,通过对比学习训练的较小摘要模型可以实现与 LLM 相当甚至更好的性能。然而,法学硕士和人工评估之间的一致性仍然需要检查。因此,我们首先对第 3 节中的模型性能进行人类评估,然后对 LLM 与人类的一致性进行荟萃分析。

4.5.4.1 人类评估集合

评估设计为了实现更直接、更稳健的比较并降低任务难度,我们将人类评估制定为两个不同系统之间的成对比较任务。
摘要对在三个方面进行比较:(1)显着性,(2)连贯性,以及(3)总体偏好/质量,其中注释者需要选择哪个摘要更好(允许并列)。详细的方面定义见附录 B.1。人群注释集合 我们使用 Amazon Mechanical Turk12 (MTurk) 进行人群注释集合。每个数据示例都由三名注释者进行注释,他们为一项任务提供两分钟的时间并获得相应的补偿。参与的众批标注者需要通过相关资质测试,并具有评估摘要质量的经验。我们为 100 个测试示例的集合选择了三个系统对,其中 ChatGPT 是基线 LLM,并将第 3.3 节中的三个 BART 检查点与 ChatGPT 进行比较:BART、BART.GPT4 和 BRIO.GPT4。为了检查注释者间的一致性,我们按照 Goyal 等人的方法计算了 Krippendorff 的 alpha (Krippendorff, 2011) 和 MASI 距离 (Passonneau, 2006)。 (2022)。我们发现平均一致性为 0.064,接近 Goyal 等人报告的一致性 (0.05)。 (2022)类似的评估设置。
专家评
审众批注释的低一致性引起了人们对注释质量的担忧性。相关工作(Goyal et al., 2022;Zhang et al., 2023)也观察到了类似的现象,并认为一致性低可能是由于人类评估固有的主观性和不同系统的性能差距较小造成的。然而,较低的一致性使得验证注释质量变得非常困难。13因此,三位共同作者14进行了仔细的专家评估,以更好地理解这一现象并提供更可信的评估结果。
我们选择了 50 个测试示例,对三个人群评估的系统组以及 BART.GPT4 和 BRIO.GPT4 之间的附加组进行配对比较。经过仔细注释后,我们发现专家注释者的平均一致性为0.044,这再次证实了相关工作中关于摘要评估固有主观性的假设(Goyal et al., 2022;Zhang et al., 2023) 。此外,专家们在 58% 的情况下达成一致,与最近工作中的一致水平 (65%) 类似 (Rafailov et al., 2023)。我们在附录 B.2 中提供了进一步的分析,其中显示了两种主要情况:(1)注释者一致赞成 LLM 摘要的情况; (2) LLM 和较小的 LM 都具有良好性能的情况,导致注释者偏好不同。虽然通过更受限制的评估协议可能会取得更高的一致性,但我们认为这种更高的一致性可能是“人为的”,并且无法反映人类偏好的多样化分布。

4.5.4.2 结果分析

人群注释和专家评估结果见表 1。 6 和选项卡。分别为 7 个。
我们注意到:
(1)以LLM为参考训练的模型(BART.GPT4和BRIO.GPT4)可以大幅优于在原始CNNDM数据集上训练的BART检查点,显示了以更好的参考进行训练的重要性。
(2)在专家评估的直接比较中,BRIO.GPT4在三个方面都优于BART.GPT4,这证明了LLM反馈的对比学习的有效性。
(3) 尽管 BART.GPT4 和 BRIO.GPT4 受到基于 ChatGPT(表 2)或 GPT4 的评估方法的青睐,但在人类评估下它们都无法超越 ChatGPT
(表 3)。这一结果凸显了人类评估与基于法学硕士的评估之间的差异,我们将在下一节中进一步研究这一差异。

4.5.4.3 基于法学硕士的评估的荟萃分析

我们使用专家评估结果来评估基于LLM的评估以及人群注释的性能,通过计算它们与专家评估的多数票的一致性。除了 GPTScore 和 GPTRank 之外,我们还比较了 G-Eval 的性能(Liu et al., 2023a)。用于 GPTRank 和 G-Eval 的提示是特定于方面的。更多详细信息参见附录 B.3。这些协议在表中报告。如图8所示,呈现出以下趋势:
(1)基于LLM的评估方法性能各异,GPT4优于ChatGPT。
(2)GPT4Rank已经可以超越个体众包工作者的表现,而众包工作者的多数投票仍然达到最高的一致性。


五 总结

在这项工作中,我们研究了一种新的文本摘要模型学习设置,其中法学硕士被设置为参考。在这种情况下,我们利用基于LLM的评估方法通过对比学习来指导模型训练,并凭经验证明我们方法的效率和有效性。此外,我们对基于法学硕士的评估的可靠性进行了人类评估和荟萃分析,揭示了其作为更好的培训参考的好处以及在与人类评估保持一致方面的局限性。我们相信我们的研究结果揭示了将法学硕士可靠地应用于较小的、特定于任务的 NLP 模型的整个开发循环(即训练-验证-评估)的方向。

局限

我们报告的基于 LLM 的评估结果来自 OpenAI 的 API,可能会发生变化。因此,我们的实验的可重复性是有限的。
为了缓解这个问题,我们将发布训练数据、模型输出以及法学硕士和人工评估结果,以方便未来的工作。
我们进行的基于法学硕士的评估和人工评估都可能是资源密集型的,需要大量的时间和预算。
因此,我们在选择评估样本量时,力求在评估结果的可靠性与时间和预算的约束之间找到平衡。更大规模的评估可能会产生更可靠的结果,我们将其留给未来在这个方向上更专注的工作。
我们选择不将汇总事实一致性作为人类评估和基于法学硕士评估的荟萃分析中的个人质量方面。
相关工作(Tang et al., 2022;Zhang et al., 2023)发现CNNDM数据集上的事实错误率较低,尤其是LLM摘要。在我们的专家评估过程中,作者也没有发现事实一致性方面存在重大缺陷。因此,需要更大的样本量来评估事实一致性,以了解错误模式,这超出了本工作的范围。然而,我们认为这样的评估对于更好地理解法学硕士和法学硕士指导模型的总结质量非常重要,我们希望这项工作的成果(例如系统输出)可以成为未来这方面工作的有用资源。话题。

相关文章:

NLP论文阅读记录 - 以大语言模型为参考学习总结

文章目录 前言0、论文摘要一、Introduction1.1目标问题1.2相关的尝试1.3本文贡献 二.相关工作2.1文本生成模型的训练方法2.2 基于LLM的自动评估2.3 LLM 蒸馏和基于 LLM 的数据增强 三.本文方法3.1 Summarize as Large Language Models3.1.1 前提3.1.2 大型语言模型作为参考具有…...

前端---资源路径

当我们使用img标签显示图片的时候&#xff0c;需要指定图片的资源路径&#xff0c;比如: <img src"images/logo.png">这里的src属性就是设置图片的资源路径的&#xff0c;资源路径可以分为相对路径和绝对路径。 1. 相对路径 从当前操作 html 的文档所在目录算…...

【2024考研】心情记录

今天是12.26日。距离24考研已经过去了2天&#xff0c;自认为缓过来了&#xff0c;故写下这篇文章。 25日早上简单过了一下答案&#xff0c;但实在是记不住答案了&#xff0c;不知道是我的脑子抵触还是怎的&#xff0c;像一块灰色的布遮住了我的记忆&#xff0c;羞于打开&#x…...

MySQL数据库日志管理和数据的备份及恢复

目录 MySQL日志管理 数据库备份的重要性 数据库备份的分类 从物理与逻辑的角度 从数据库的备份策略角度 常见的备份方法 物理冷备 专用备份工具mysqldump或mysqlhotcopy 启用二进制日志进行增量备份 第三方工具备份 MySQL完全备份与恢复 MySQL完全备份 物理冷备份与…...

node-schedule nodejs定时提醒(并判断段是否是工作日)

概述 工作中有个需求&#xff1a;在特定的时间发送一些消息&#xff0c;也就是说比如在每天的7点发送消息&#xff1a;该起床了。一开始我想用定时器每分钟每分钟的去查当前时间&#xff0c;但好像有点蠢&#xff0c;然后我找到了这个包 使用方法 安装 npm install node-sc…...

LeetCode 75| 前缀和

目录 1732 找到最高海拔 724 找到数组的中心下标 1732 找到最高海拔 class Solution { public:int largestAltitude(vector<int>& gain) {int res 0;int sum 0;for(int num : gain){sum num;res max(res,sum);}return res;} }; 时间复杂度O(n) 空间复杂度O(…...

智能,轻量,高效的爬虫工具 (爬虫宝第一代), HSpider

场景 之前玩爬虫宝一时爽&#xff0c;但是我很快发现了一个致命的问题。就是chat3.5 有时候误判&#xff0c;Claude2 是遇到大一点的html就无法解析&#xff0c;chat4 Api没有申请下来&#xff0c;chat3.5 误判这个可以纠正&#xff0c;但是每次爬取花费的钱都是2刀以上&#…...

IDEA Maven Helper插件 解决jar冲突

Jar包冲突报错 程序抛出java.lang.ClassNotFoundException异常&#xff1b; 程序抛出java.lang.NoSuchMethodError异常&#xff1b; 程序抛出java.lang.NoClassDefFoundError异常&#xff1b; 程序抛出java.lang.LinkageError异常等&#xff1b;Maven Jar包管理机制 在Maven项…...

装饰 Web3 项目的用户交互界面(Web3项目二实战之四)

用户交互界面是Web3项目必不可少的,毕竟,Web3项目最终是面向用户的,所以,Web3项目总得需要一个优美的UI界面,已达到用户在视觉上精彩盛宴。 诚然,一个Web3项目若到了用户交互界面,大体上,这个Web3项目也将告一段落了。 没错,Web3第二个项目,也将终结于本篇,顺势拉开…...

【数据库系统概论】第3章-关系数据库标准语言SQL(3)

文章目录 3.5 数据更新3.5.1 插入数据3.5.2 修改数据3.5.3 删除数据 3.6 空值的处理3.7 视图3.7.1 建立视图3.7.2 查询视图3.7.3 更新视图3.7.4 视图的作用 3.5 数据更新 3.5.1 插入数据 注意&#xff1a;插入数据时要满足表或者列的约束条件&#xff0c;否则插入失败&#x…...

理解io/nio/netty

一、io io即input/output&#xff0c;输入和输出 1.1 分类 输入流、输出流&#xff08;按数据流向&#xff09; 字节流&#xff08;InputStream/OutputStream&#xff08;细分File/Buffered&#xff09;&#xff09;、字符流(Reader/Writer&#xff08;细分File/Buffered/pu…...

旅游品牌网站搭建的作用是什么

我国旅游业规模非常高&#xff0c;各地大小旅游景区也是非常多&#xff0c;尤其节假日更是可以达到峰值&#xff0c;无论周边游还是外地游对所要去的景区&#xff0c;消费者总是需要来回了解很多&#xff0c;浏览器查或旅行社咨询等。 对旅游企业而言&#xff0c;传统线下方式…...

Linux操作系统——进程(五)环境变量

环境变量 有了我们前面的命令行参数的理解基础呢&#xff0c;我们下面进入环境变量这一个部分的内容的学习。 一般在我们安装一些开发工具尤其是有解释器的开发工具的时候&#xff0c;我们呢一般都要配置环境变量&#xff0c;可能都不太清楚自己为什么要配置环境变量&#xf…...

西门子博途怎么使用PID_Compact做pid调试

到目前为止&#xff0c;我已经在S7-1200中创建了一个可运行的PLC程序&#xff0c;并在Basic Panel中创建了一个HMI项目来操纵和操作该程序。 引文&#xff1a;博途工控人平时在哪里技术交流博途工控人社群 现在&#xff0c;我们该如何深入的让程序开始逐渐智能化呢&#xff0c…...

结构型模式 | 适配器模式

一、适配器模式 1、原理 适配器模式&#xff08;Adapter&#xff09;&#xff0c;将一个类的接口转换成客户希望的另外一个接口&#xff0c;使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。适配器模式主要分为三类&#xff1a;类适配器模式、对象适配器模式、接口…...

基于Python的车牌识别系统实现

本文将以基于Python的车牌识别系统实现为方向&#xff0c;介绍车牌识别技术的基本原理、常用算法和方法&#xff0c;并详细讲解如何利用Python语言实现一个完整的车牌识别系统。 精彩专栏持续更新推荐订阅&#xff0c;收藏关注不迷路 微信小程序实战开发专栏 目录 引言车牌识别…...

时间序列预测模型介绍及使用经验总结

1. 时序预测背景 时序数据&#xff0c;就是序列随时间变化的数据。时间序列分析&#xff0c;一般有时域和频域两种分析方法。时序预测的本质是在时域和频域层面探索时间序列变化的内在规律。 下图描述的是时域&#xff08;temporal domain&#xff09;&#xff0c;横坐标是时…...

Docker知识总结

文章目录 Docker1 Docker简介1.1 什么是虚拟化1.2 什么是Docker1.3 容器与虚拟机比较1.4 Docker 组件1.4.1 Docker服务器与客户端1.4.2 Docker镜像与容器1.4.3 Registry&#xff08;注册中心&#xff09; 2 Docker安装与启动2.1 安装Docker2.2 设置ustc的镜像2.3 Docker的启动与…...

算法训练营Day25

#Java #回溯 开源学习资料 Feeling and experiences&#xff1a; 复原IP地址&#xff1a;力扣题目链接 有效 IP 地址 正好由四个整数&#xff08;每个整数位于 0 到 255 之间组成&#xff0c;且不能含有前导 0&#xff09;&#xff0c;整数之间用 . 分隔。 例如&#xff1…...

docker笔记2-docker 容器

docker 容器的运行 docker run 镜像名&#xff1a;版本标签&#xff1a; 创建 启动容器 docker run 镜像名 &#xff0c;如果镜像不存在&#xff0c;则会在线下载镜像。 注意事项&#xff1a; 容器内的进程必须处于前台运行状态&#xff0c;不能后台&#xff08;守护进程运行…...

redis 从0到1完整学习 (七):ZipList 数据结构

文章目录 1. 引言2. redis 源码下载3. zipList 数据结构3.1 整体3.2 entry 数据结构分析3.3 连锁更新 4. 参考 1. 引言 前情提要&#xff1a; 《redis 从0到1完整学习 &#xff08;一&#xff09;&#xff1a;安装&初识 redis》 《redis 从0到1完整学习 &#xff08;二&am…...

2015年第四届数学建模国际赛小美赛C题科学能解决恐怖主义吗解题全过程文档及程序

2015年第四届数学建模国际赛小美赛 C题 科学能解决恐怖主义吗 原题再现&#xff1a; 为什么人们转向恐怖主义&#xff0c;特别是自杀性恐怖主义&#xff1f;主要原因是什么&#xff1f;这通常是大问题和小问题的结合&#xff0c;或者是一些人所说的“推拉”因素。更大的问题包…...

基于Java开发的微信约拍小程序

一、系统架构 前端&#xff1a;vue | element-ui 后端&#xff1a;springboot | mybatis 环境&#xff1a;jdk8 | mysql8 | maven | mysql 二、代码及数据库 三、功能说明 01. 首页 02. 授权登录 03. 我的 04. 我的-编辑个人资料 05. 我的-我的联系方式 06. …...

蓝桥杯的学习规划

c语言基础&#xff1a; Python语言基础 学习路径&#xff1a;画框的要着重学习...

EMC噪声的本质

01 频谱的含义 频谱是将电磁波分解为正弦波分量&#xff0c;并按波长顺序排列的波谱&#xff0c;就是将具有复杂组成的东西分解&#xff08;频谱分析仪&#xff09;为单纯成分&#xff0c;并把这些成分按其特征量的大小依序排列&#xff08;部分不计&#xff09;&#xff0c;…...

Redis遇到过的问题 (Could not get a resource from the pool )

生产上通过scan命令&#xff0c;查询一个大key耗时40s后&#xff0c;报 Could not get a resource from the pool&#xff0c;初步报错是连接池的连接数不够&#xff0c;从网上搜了一些解决方案。 排查过程&#xff1a; 一、首先需要先尝试连接redis&#xff0c;如果连接不上那…...

Spring Boot 3.2 新特性之 HTTP Interface

SpringBoot 3.2引入了新的 HTTP interface 用于http接口调用&#xff0c;采用了类似 openfeign 的风格。 具体的代码参照 示例项目 https://github.com/qihaiyan/springcamp/tree/master/spring-http-interface 一、概述 HTTP Interface 是一个类似于 openfeign 的同步接口调…...

Flask+Mysql项目docker-compose部署(Pythondocker-compose详细步骤)

一、前言 环境&#xff1a; Linux、docker、docker-compose、python(Flask)、Mysql 简介&#xff1a; 简单使用Flask框架写的查询Mysql数据接口&#xff0c;使用docker部署&#xff0c;shell脚本启动 优势&#xff1a; 采用docker方式部署更加便于维护&#xff0c;更加简单快…...

DDOS攻击简介——什么是DDOS

DDoS是什么? DDoS是分布式拒绝服务攻击(Distributed denial of service attack)的简称。 分布式拒绝服务器攻击(以下均称作DDoS)是一种可以使很多计算机(或服务器)在同一时间遭受攻击&#xff0c;使被攻击的目标无法正常使用的一种网络攻击方式。DDoS攻击在互联网上已经出现过…...

龙蜥开源操作系统能解决CentOS 停服造成的空缺吗?

龙蜥开源操作系统能解决CentOS 停服造成的空缺吗&#xff1f; 本文图片来源于龙蜥&#xff0c;仅做介绍时引用用途&#xff0c;版权归属龙蜥和相关设计人员。 一、《国产服务器操作系统发展报告&#xff08;2023&#xff09;》称操作系统已步入 2.0 时代&#xff0c;服务器操作…...

『Linux升级路』基础开发工具——gdb篇

&#x1f525;博客主页&#xff1a;小王又困了 &#x1f4da;系列专栏&#xff1a;Linux &#x1f31f;人之为学&#xff0c;不日近则日退 ❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ 目录 一、背景知识介绍 二、gdb指令介绍 一、背景知识介绍 在软件开发中&#xff0c…...

边缘计算云边端全览—边缘计算系统设计与实践【文末送书-10】

文章目录 一.边缘计算1.1边缘计算的典型应用 二.边缘计算 VS 云计算三.边缘计算系统设计与实践【文末送书-10】3.1 粉丝福利&#xff1a;文末推荐与福利免费包邮送书&#xff01; 一.边缘计算 边缘计算是指在靠近物或数据源头的一侧&#xff0c;采用网络、计算、存储、应用核心…...

使用PE信息查看工具和Dependency Walker工具排查因为库版本不对导致程序启动报错的问题

目录 1、问题说明 2、问题分析思路 3、问题分析过程 3.1、使用Dependency Walker打开软件主程序&#xff0c;查看库与库的依赖关系&#xff0c;找出出问题的库 3.2、使用PE工具查看dll库的时间戳 3.3、解决办法 4、最后 VC常用功能开发汇总&#xff08;专栏文章列表&…...

Servlet技术之Cookie对象与HttpSession对象

系列文章目录 提示&#xff1a;这里可以添加系列文章的所有文章的目录&#xff0c;目录需要自己手动添加 Servlet技术之Cookie对象与HttpSession对象 提示&#xff1a;写完文章后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 系列文章目录前…...

winlogbeat收集Windows事件日志传给ELK

服务器部署winlogbeat后&#xff0c;修改winlogbeat.yml: ###################### Winlogbeat Configuration Example ######################### This file is an example configuration file highlighting only the most common # options. The winlogbeat.reference.yml fi…...

Gin框架之使用 go-ini 加载.ini 配置文件

首先,联想一个问题,我们在部署服务时,通常为了方便,对于需要迭代更新的代码进行修改,但是比对shell,可以搞一个变量将需要修改的,以及修改起来变动处多的,写在变量内,到时候如果需要变更,可以直接变更变量即可; 那么,golang有没有什么方式可以将需要变的东西保存起…...

SpringMVC:整合 SSM 上篇

文章目录 SpringMVC - 03整合 SSM 上篇一、准备工作二、MyBatis 层1. dao 层2. service 层 三、Spring 层四、SpringMVC 层五、执行六、说明 SpringMVC - 03 整合 SSM 上篇 用到的环境&#xff1a; IDEA 2019&#xff08;JDK 1.8&#xff09;MySQL 8.0.31Tomcat 8.5.85Maven…...

BFS解决多源最短路相关leetcode算法题

文章目录 1.01矩阵2.飞地的数量3.地图中的最高点4.地图分析 1.01矩阵 01矩阵 class Solution {int dx[4] {0,0,1,-1};int dy[4] {1,-1,0,0}; public:vector<vector<int>> updateMatrix(vector<vector<int>>& mat) {//正难则反&#xff0c;找0…...

ARM GIC(四) gicv3架构基础

GICv3架构是GICv2架构的升级版&#xff0c;增加了很多东西。变化在于以下&#xff1a; 使用属性层次&#xff08;affinity hierarchies&#xff09;&#xff0c;来对core进行标识&#xff0c;使gic支持更多的core 将cpu interface独立出来&#xff0c;用户可以将其设计在core…...

Kafka日志

位置 server.properties配置文件中通过log.dir指定日志存储目录 log.dir/{topic}-{partition} 核心文件 .log 存储消息的日志文件&#xff0c;固定大小为1G&#xff0c;写满后会新增一个文件&#xff0c;文件名表示当前日志文件记录的第一条消息的偏移量。 .index 以偏移…...

gitattributes配置文件的作用

0 Preface/Foreword 0.1 基本概念 Git版本管控工具功能强大&#xff0c;在使用过程中&#xff0c;在多人合作的项目开发过程中&#xff0c;经常会遇到提交代码时出现的warning提醒&#xff0c;尤其是换行符。 Linux/Unix/Mac OS操作系统的换行符使用LF符号&#xff08;\n&am…...

【华为鸿蒙系统学习】- 如何利用鸿蒙系统进行App项目开发|自学篇

&#x1f308;个人主页: Aileen_0v0 &#x1f525;热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 &#x1f4ab;个人格言:"没有罗马,那就自己创造罗马~" 目录 创建鸿蒙第一个App项目 项目创建 工程目录区 预览区 运行Hello World 基本工程目录 ws:工程…...

基于SpringBoot的足球社区管理系统

文章目录 项目介绍主要功能截图:部分代码展示设计总结项目获取方式🍅 作者主页:超级无敌暴龙战士塔塔开 🍅 简介:Java领域优质创作者🏆、 简历模板、学习资料、面试题库【关注我,都给你】 🍅文末获取源码联系🍅 项目介绍 基于SpringBoot的足球社区管理系统,java…...

ubuntu22.04上安装charles-proxy

在 Ubuntu 22.04 上安装 .tar.gz 格式的 Charles Proxy (charles-proxy-4.6.5_amd64.tar.gz) 需要解压缩文件并运行其中的安装脚本或可执行文件。以下是具体步骤&#xff1a; 1. 下载文件 假设你已经从 Charles Proxy 官网下载了 charles-proxy-4.6.5_amd64.tar.gz 文件。 2…...

(2021|CVPR,XMC-GAN,对比学习,注意力自调制)用于文本到图像生成的跨模态对比学习

Cross-Modal Contrastive Learning for Text-to-Image Generation 公众&#xff1a;EDPJ&#xff08;添加 VX&#xff1a;CV_EDPJ 或直接进 Q 交流群&#xff1a;922230617 获取资料&#xff09; 目录 0. 摘要 1. 简介 2. 相关工作 3. 基础 4. 方法 4.1 用于文本到图像…...

【Linux基本命令】

文章目录 一. Linux基本命令第三回二. 结束语 一. Linux基本命令第三回 cal指令&#xff0c;命令格式&#xff1a;cal 【参数】【月份】【年份】 功能&#xff0c;用于查看日历等时间信息&#xff0c;如只有一个参数&#xff0c;则表示年份&#xff0c;有两个参数则表示月份和…...

Wi-Fi、蓝牙、ZigBee等多类型无线连接方式的安全物联网网关设计

随着物联网和云计算技术的飞速发展.物联网终端的数量越来越多&#xff0c;终端的连接方式也更趋多样化&#xff0c;比如 Wi-Fi蓝牙和 ZigBee 等。现有的物联网网关大多仅支持一种或者几种终端的接人方式。无法满足终端异构性的需求。同时&#xff0c;现有的物联网网关与终端设备…...

华清远见嵌入式学习——ARM——作业4

作业要求&#xff1a; 代码运行效果图&#xff1a; 代码&#xff1a; do_irq.c: #include "key_it.h" extern void printf(const char *fmt, ...); unsigned int i 0;//延时函数 void delay(int ms) {int i,j;for(i0;i<ms;i){for(j0;j<2000;j);} }void do_i…...

25. K 个一组翻转链表

题解参考&#xff1a;https://leetcode.cn/problems/reverse-nodes-in-k-group/solutions/10416/tu-jie-kge-yi-zu-fan-zhuan-lian-biao-by-user7208t/ 设置dummy虚拟头节点&#xff0c;pre为待翻转部分的前驱&#xff08;用于连接&#xff09;&#xff0c;end为待翻转部分中的…...

jQuery的事件-动画-AJAX和插件

一、jQuery事件处理 1.认识事件&#xff08;Event&#xff09; Web页面经常需要和用户之间进行交互&#xff0c;而交互的过程中我们可能想要捕捉这个交互的过程&#xff1a; 比如用户点击了某个按钮、用户在输入框里面输入了某个文本、用户鼠标经过了某个位置&#xff1b;浏…...