当前位置: 首页 > news >正文

KOLA: CAREFULLY BENCHMARKING WORLD KNOWLEDGE OF LARGE LANGUAGE MODELS

文章目录

    • 题目
    • 摘要
    • 简介
    • KOLA 基准
    • 实验评估
    • 结论和未来工作
    • 道德声明

题目

KOLA:仔细对大型语言模型的世界知识进行基准测试

在这里插入图片描述

论文地址:https://arxiv.org/abs/2306.09296
项目地址:https://github.com/ranahaani/GNews

摘要

    大型语言模型 (LLM) 的卓越性能要求评估方法不断改进。我们认为,细致周到的设计并非仅仅探索 LLM 能力的广度,对于全面、公正和适用的评估也至关重要。鉴于世界知识对 LLM 的重要性,我们构建了以知识为导向的 LLM 评估基准 (KoLA),其中我们精心设计了三个关键因素:(1)对于能力建模,我们模仿人类认知,形成与知识相关的能力的四级分类法,涵盖 19 项任务。(2)对于数据,为确保公平比较,我们同时使用维基百科(LLM 普遍预训练的语料库)和不断收集的新兴语料库,旨在评估处理看不见的数据和不断发展的知识的能力。(3)对于评估标准,我们采用对比系统,包括总体标准分数,以便在任务和模型之间更好地进行数值比较,以及独特的自我对比指标,用于自动评估知识创造能力。我们评估了 28 个开源和商业 LLM,得到了一些有趣的发现。KoLA 数据集将每三个月更新一次,为开发 LLM 和知识系统提供及时的参考。

简介

    GPT-4等大型语言模型 (LLM) 最近取得了显著突破,引起了广泛的震惊。考虑到 LLM 所展现出的广泛而深刻的自然语言理解和生成能力,传统的基准侧重于相对狭窄和肤浅的能力,对于测试它们不再那么有用。有必要构建更好的基准,以有效地比较 LLM 并提供有价值的诊断结果。为此,提出了各种基准,重点是扩大评估范围以涵盖更广泛的能力 或更具挑战性的任务。除了扩大评估范围以探索 LLM 能力的广度之外,我们认为精心的设计也是必要的,以建立有助于深入洞察、对不同 LLM 保持公正、并对有兴趣选择和提升 LLM 的受众具有高度适用性的评估。设计基准需要仔细考虑三个关键因素:

  1. 能力建模。基准不仅应定义所需能力的范围,还应模拟所评估能力之间的内在联系,从而为如何获得和提高这些能力提供诊断性洞察。
  2. 数据。鉴于 LLM 的训练数据范围极其广泛,其中可能包括某些任务的注释数据,并且通常未公开,因此确保确保训练数据的差异不影响评估的公平性是至关重要且具有挑战性的。
  3. 评估标准。为了获得高适用性,评估指标应该使受众能够轻松理解并获得有用的观察结果。此外,在评估像生成任务这样具有较大搜索空间的任务时,存在许多众所周知的问题。相关能力的评估仍然严重依赖于人工评估,这既耗时又不易重现。

在这里插入图片描述

    在本文中,我们提出了一个面向知识的 LLM 评估基准(KoLA),旨在通过考虑上述三个因素进行细致的设计来仔细基准化 LLM 的世界知识:对于能力建模,我们评估 LLM 的世界知识并设计一个四级认知能力分类法。我们选择世界知识作为评估范围的原因是:

  1. 世界知识被广泛认为在LLM的出色表现中发挥着根本性作用,而对知识的更深层次掌握使LLM能够更好地帮助人类;
  2. 最近的研究表明,理解和生成结构化世界知识对LLM来说仍然具有挑战性。

    与以前的工作不同,以前的工作侧重于通过涵盖各种任务和学科知识来扩大评估广度以测试LLM的知识边界,我们更注重评估的“深度”,即对知识相关能力之间的内在联系进行建模并确保可靠的评估结果。受学习理论中人类认知过程的启发,如布鲁姆分类法,我们将评估的能力分为四个层次:知识记忆、知识理解、知识应用和知识创造。这种分类法有助于提供更具体、更有帮助的评估结果,详细说明被评估模型可能在哪些知识方面存在不足。它还有助于初步探索LLM和人类学习机制的异同。

    为了配合我们后面介绍的数据设计考虑,我们选择了19个任务,主要关注关于实体、概念和事件的世界知识。对于数据,我们获取已知的和不断发展的数据源。一些研究采用未发表或机器不可读的数据来降低测试数据被LLM学习的可能性。然而,考虑到LLM之间的激烈竞争,这些数据在不久的将来也可能被LLM训练。我们认为理想的方法是对新出现的数据进行评估并保持不断发展的基准,就像包括时间敏感的不断发展的数据的尝试一样。在 KoLA,我们每三个月举办一个新的比赛赛季。每个赛季,我们都会抓取并注释 500 篇最近发表的文章作为不断发展的数据。不断发展的数据源使我们能够

  1. 更公平地评估模型,即使某些模型可以快速更新其知识,从而展示其能力,以及
  2. 更好地跟踪模型开发。除了不断发展的数据外,我们还考虑 LLM 的已知数据,即所有模型都已学习的数据源。对已知数据的评估使我们能够 (i) 通过比较它们从相同训练数据中获得的不同知识来公平地比较 LLM 的学习效率,以及
  3. 通过比较 LLM 在已知数据和不断发展的数据上的表现来评估泛化能力。我们选择维基百科作为我们的已知数据源,因为它很常用。考虑到维基百科的局限性以及我们对不断发展的数据的注释能力,我们无法覆盖非常广泛的任务。

    对于评估标准,我们设计了一个对比评估系统,包括一个总体标准分数系统和一个自我对比知识创造指标。传统的基准测试分别报告不同任务的绝对指标。不同任务之间的分数不可比性使得观众难以直观地比较不同能力之间的熟练程度。此外,不同指标的敏感度各不相同,这可能会导致经验不足的观众误解数字差异所代表的能力差异。在 KoLA 主排行榜中,我们报告了不同任务的标准分数,这些分数由与其他评估的 LLM 相比的相对水平决定。这使得 KoLA 适用于更广泛的受众。有经验的观众仍然可以参考绝对指标(如果需要)。此外,评估知识创造尤其具有挑战性,因为它涉及区分正确创建的知识和知识幻觉。我们设计了一个自我对比指标来评估知识幻觉,通过对比在相同开端的情况下自由创建的 LLM 完成和基于知识的完成。该指标消除了写作风格的影响,重点关注生成的补全是否与实际呈现的知识一致。

    在 KoLA 的前两季中,我们评估了 28 个广泛使用的 LLM,包括 8 个 API 访问商业 LLM,例如 GPT-4和 Cohere-command,以及 20 个开源 LLM,包括 GLM-130B、LLaMa等。从实验结果中,我们得到了一些有趣的观察结果,例如较大的基础模型往往会记忆更多的知识,对齐释放了较大模型在高级能力方面的潜力,但可能会损害记忆,开源模型与商业模型相比表现出整体劣势。我们欢迎更多 LLM 参与 KoLA 评估,并鼓励为新一季的 KoLA 做出贡献。数据、排行榜、参与信息和支持工具在被接受后将公开。我们希望 KoLA 可以作为一种诊断工具,促进知识型 LLM 的发展,并帮助从业者选择 LLM。

KOLA 基准

    能力建模 在人工智能 (AI) 的背景下,知识一直被用来表示包含事实、事件和技能的信息 ,作为人工智能智能水平的指标。因此,提出了各种知识密集型任务来检查语言模型的知识相关能力。最近,LLM 的令人印象深刻的表现鼓励开发更全面的基准和广泛的人类受试者测试。认知能力分类法。面对如此庞大的评估数据集,我们主张考虑能力的分层和联系,而不是离散地组织它们或直接基于学科。几十年来,认知科学家也一直坚持这种观点,并产生了一系列认知学习理论。考虑到围绕高阶思维的持续争论,我们简化并选择了布鲁姆分类法中四个被广泛接受的过程来组织 KoLA 基准中的任务。

  1. 知识记忆(KM)旨在衡量模型忠实回忆已知事实的能力,例如先前的知识探测任务。
  2. 知识理解(KU)侧重于评估模型理解文本中底层知识的能力,例如传统的信息提取任务。
  3. 知识应用(KA)反映了代理运用知识完成推理和解决问题的能力。因此,该级别通过各种知识推理任务进行评估。
  4. 知识创造(KC)表示在已知事实的情况下创造新颖且合理知识的能力。这是通过知识的连贯性和正确性来评估的模型生成内容的评估。值得注意的是,评估不仅仅是评估生成质量(流畅度等)。

    数据源和选定任务 已知和不断发展的数据:评估 LLM 的一个共同关注点是训练数据的变化带来的公平性问题和潜在的测试数据泄露风险。为了最大限度地减少这些偏差,我们建议设计以下独特的数据源:

  • 已知数据源。Wikipedia2 是一个公认的高质量语料库,包含超过 660 万篇英文文章,自 BERT 以来已被许多预训练模型用于预训练,并被广泛纳入开放的预训练语料库。因此,我们认为假设每个 LLM 都在维基百科上进行过训练是合理的,并将其作为我们的已知数据源。考虑到许多 LLM 表示他们只能根据“2021 年之前的内容”提供答案,我们选择了 Wikidata 的一个高质量子集 Wikidata5M作为基础,它允许链接到 2019 年版的 Wikipedia 转储,从而能够选择或重建下游任务的数据集。
  • 不断发展的数据源。考虑到模型训练所需的时间,新出现的数据不太可能被 LLM 及时训练。因此,我们设计了一种不断发展的评估机制,该机制不断检索最近 90 天左右发布的网络内容作为数据源并在其上构建新的数据集。这种方法可以确保公平评估 LLM 在看不见的内容上的表现,以及它们是否“秘密地”涉及外部搜索等知识更新模块。每次更新(我们称之为 KoLA 的一季)都需要抓取至少 500 篇文章来支持构建测试集。对于本文报道的第一季,我们采用了两种数据:事实新闻 4 和虚构小说 5 。我们打算再坚持 4 季(约 1 年),以及时整合即将到来的顶级 LLM。我们期待持续发布的报告能够为相关研究人员提供进一步的支持。

    基于这两个数据源,我们最终在 KoLA 中筛选并构建了 19 个任务,如表 1 所示。为确保每个季节的注释质量和效率,我们在每个级别随机选择一个任务来注释新的进化评估数据集。对于现有的数据集,我们尝试确保大多数测试集不公开,这种严格的设置确保了高度的公平性。数据收集和任务构建细节见附录 C。下面我们简单介绍一下四个级别的任务。值得注意的是,由于数据分布和收集过程的限制,模型在进化数据上的绝对数值不一定注定低于已知数据上的绝对数值。

    知识记忆任务:我们遵循 LAMA通过探究 LLM 中的事实来评估知识记忆,但在我们的数据源上重新构建数据集。给定 Wikidata5M中的三元组,我们将其转换为具有关系特定模板的句子,并让 LLM 完成其尾部实体。此外,我们想探索 LLM 的知识记忆是否与训练频率相关。我们根据 Wikidata5M 中的实体在维基百科中出现的频率对其进行排序,从而创建了两个测试集:

  1. 高频知识。从出现频率最高的前 2,000 个实体中随机选择 100 个实体,并用它们的三元组构建数据;
  2. 低频知识。同样,我们从频率最低的实体中随机选择 100 个实体,并构建一个更具挑战性的评估集;
  3. 记忆测试(ETM)。

    从不断发展的数据源中的文章中,我们对其中显示的知识三元组进行注释,仅保留 100 个无法从以前可用的语料库中推断出来的三元组。知识理解任务:知识理解是通过 LLM 能否理解文本中各种类型的知识来评估的,包括概念、实体、实体关系、事件和事件关系。(2-1/2-2/2-3)概念探测采用 COPEN的三个探测任务(CSJ、CPJ、CiC)来评估模型对概念知识的理解。(2-4)命名实体识别利用 FewNERD 数据集,我们从中在我们的评估中随机选择 300 个示例。(2-5)关系提取从具有挑战性的文档级关系提取数据集 DocRED 中选择未公开的测试集。(2-6)事件检测采用精细注释的 MAVEN数据集的未公开测试集。(2-7)事件关系提取涉及来自 MAVEN-ERE的未公开测试集,该集包含 113k 个事件之间的共指、时间、因果和子事件关系的示例。(2-8)不断发展的理解测试 (ETU)。对于不断发展的数据中的文章,我们进行实体识别,并遵循与 DocRED 相同的关系模式来注释一个全新的测试集,该测试集包含来自 50 篇文章的 100 个关系实例。值得注意的是,除了进化测试外,其他数据集均基于维基百科文本。

    知识应用任务:知识应用能力通过 LLM 的多跳推理能力进行评估,特别是对世界知识的推理能力。这与最近的几项研究不同,这些研究涵盖了更一般的推理,例如数学推理。因此,KoLA 中包含以下基于维基百科的渐进式数据集:(3-1)HotpotQA是一个问答数据集,涉及大量由母语人士编写的自然语言问题,比较检查机器的能力、多跳推理等。然而,HotpotQA 的一个限制是有些问题可以通过捷径来回答。为了解决这个问题,(3-2) 2WikiMultihopQA确保问题不能通过手动设计的模板的捷径来解决,但它们的问题在语言上缺乏自然性。此外,(3-3) MuSiQue数据集同时解决了捷径和自然性的挑战。它的问题由现有数据集中的简单问题组成,最多有四跳的复杂推理。 (3-4) KQA Pro是一个大规模数据集,其问题相对复杂,允许对 LLM 的多跳推理进行更细粒度的评估,包括逻辑运算和修饰符。 (3-5) KoRC 是一个需要文本和知识库联合推理的数据集。 它与上述四个数据集不同,因为它需要隐式而不是显式推理。 (3-6) 应用能力演进测试 (ETA) 采用与 KoRC 相同的构建方法,在演进数据中的 350 个带注释知识三元组和 40 篇文章上生成 49 个问题。

    知识创造任务:作为布鲁姆认知分类法的最高级别,如何评估知识创造是一个长期存在的开放且具有挑战性的问题。知识创造能力在开放式生成任务中显而易见。传统的文本生成评估指标基于模型生成内容与人工编写参考文献之间的文本相似性,这不仅关注知识创造能力,还涵盖其他技能,例如文本风格和流畅性。理想情况下,应该聘请人类评估者来唯一评估模型生成的内容是否包含新颖且合理的知识。然而,手动评估各种开放领域知识是劳动密集型的、昂贵的,并且缺乏可扩展性。受基于知识的文本生成任务的启发,KoLA 提出了一种可行的自动评估协议,该协议专门将模型生成的知识与人类参考中的知识进行对比。

在这里插入图片描述
表 1:KoLA 中的任务(第 1 季和第 2 季)。粗体指标用于计算标准化分数。独家任务意味着他们的测试集是新开发的或由原作者赞助的,未公开披露。测试集和池对应于每个季节使用的测试实例和总体可用实例。

    首先,我们将生成范围限制为叙事文本,例如历史、新闻和小说。这是因为在生成叙事文本中创建的知识明确侧重于设想合理的后续事件并以合理的方式表达它们。如图 2 所示,然后我们对参考文本进行人工注释,以获得参考细粒度事件知识。注释的事件启用了专用的自对比指标(如下所述),该指标强调了生成内容中事件知识的质量。与包含许多其他因素的传统文本生成指标相比,这种方法可以有效地评估知识创造能力。我们对维基百科文本和不断发展的文章进行了注释,构建了两个评估数据集:(4-1)百科知识创造,基于 MAVEN 选择的叙述性维基百科文章和(4-2)开放知识创造,基于未见过的新闻和小说,作为创造的不断发展的测试(ETC)。表 1 列出了每个选定任务的特征和统计数据。有关注释过程和任务演示的更多详细信息分别在附录 D 中介绍。

    对比评估系统我们的对比评估系统包括基于相对模型比较的标准化总分和独特的自我对比指标,可以自动评估知识幻觉并增强生成评估。标准化总体评分。由于不同 KoLA 任务的指标无法比较且敏感度不同,经验较少的受众无法轻松地比较和解释结果,这在最近的 LLM 基准测试中也很普遍,例如 Big-Bench-Hard和 MMLU。因此,我们建议引入标准化分数以增强 KoLA 结果的适用性。具体而言,给定任务集 D = {di} |D| i=1 和评估模型集 M = {mj} |M| j=1,我们首先为每个任务选择最具代表性的指标,从而让我们计算模型 mj 在任务 di 上的性能得分 xij。然后可以计算标准化分数 z 为:zij = xij − µ  xi1, ..., xi|M|  σ  xi1, ..., xi|M| 
其中µ(·)和σ(·)表示平均值和标准差。随后,我们应用Min-Max缩放将所有结果调整到[0,100]的范围,进一步增强了跨任务分数的相关性和可读性。最终得分表示为:sij = 100 zij − min(z)max(z)− min(z),(2)
其中函数max(z)和min(z)对应于所有zij分数的最大值和最小值。

    自我对比指标。评估知识创造不仅要评估生成质量,更要评估生成的知识是否真实合理,即避免知识幻觉。我们为此开发了一个独特的自我对比指标,该指标通过对比由同一模型生成的两个完成来定义。 如图2所示,C表示给定的先前上下文,R表示人类书写的后续补全,K表示R中标注的事件知识。每个模型需要生成两个补全:(a)仅给定上下文C,生成一个补全T,这需要模型自由想象可能发生的事件,并且可能产生知识幻觉,如图2中的谈判事件;(b)给定上下文C和预知K,生成另一个补全Tk,这只需要模型合理地组合给定的事件。如果T和Tk表现出很强的相似性,则意味着该模型可以创建高度合理的事件,这些事件与人类提供的参考一致,并且知识幻觉较少。这种自我对比方法的显著优势在于,由于两个补全都是由同一个模型生成的,因此写作风格等知识创造之外的因素很可能保持一致,从而将其对评估的影响降至最低。此外,为了更全面地涵盖知识创造能力,防止模型忽略知识创造能力而导致评估崩溃过程(b)提示中的知识K,整体知识创造分数定义为多个对比的混合:在这里插入图片描述

    其中 avg (·) 表示平均值。函数 ∂ (·) 用来计算两个文本的相似度,在本文中我们采用了广泛使用的 Rouge-L (F1)。∂ (T, R) 是传统的文本生成指标。虽然它涵盖了广泛的知识创造能力(涵盖事件之外的多种知识类型),但它也包括与知识创造无关的不良因素,例如写作风格和文本流畅性。因此,我们添加了 ∂ (T, Tk) 和 ∂ (Tk, R) 来强调创造与事件相关的知识的能力,这对于生成叙述文本非常重要。∂ (T, Tk) 是新提出的自对比指标,关注生成的事件知识是否合理。 ∂ (Tk, R) 的灵感来自基于知识的生成任务。它反映了创造有关事件之间关系的知识的能力,这是将给定事件合理地组合成故事所必需的。例如,图 2 中的 Tk 意味着西蒙·德·蒙福特的死亡导致叛军在战斗中失败,而这是一种与 R 中的叙述不一致的幻觉因果关系。

在这里插入图片描述

实验评估

    在 KoLA 的前两季中,我们评估了两类 LLM:(1)开源模型,包括 GPT-J (6B) 、GPT-JT (6B) 、GPT-NeoX (20B)、BLOOM (7B) 、T0++ (11B)、LLaMa (65B) 、GLM (130B)、UL2 (20B) 、FLAN-T5 (11B) 、FLAN-UL2 (20B) 、Alpaca (7B)、ChatGLM (6B)、Dolly-v2 (12B)、RedPajamaInstruct (7B)、Tulu (7B)、Vicuna (13B)、 a2-chat (7B)、ChatGLM2-32k (6B)、Internlm-chat-8k (7B); (2)API 服务:GPT-3 curie v1 (6.7B)6 和 davinci v1 (175B)、InstructGPT curie v1 (6.7B*)6 和 davinci v2 (175B*)、ChatGLM (130B)、Cohere-command (52.4B)7 、J2-Jumbo-Instruct (178B*) 、GPT3.5-turbo6 和 GPT-4 。(*)表示大小尚未确认。整体表现。我们在表 2 和表 3 中报告了所有模型的标准化分数,其中“—”表示由于输入长于模型上下文长度而导致结果不可用。所有结果均来自第二季(2023 年 9 月),与第一季(2023 年 6 月,附录 F)排名的比较显示在“排名”栏中。尽管不同层级的排名总体一致,但我们仍然可以从结果中得到一些有趣的发现:

  1. 对于没有对齐或指令调优的模型(例如 GPT-J 和 BLOOM),知识记忆(KM)的排名与模型大小之间存在很强的相关性(Spearman 系数为 0.79)。这表明模型大小对记忆见过的知识有明显的正向影响,这证实了先前研究中的一些观点。
  2. 经过指令调优后的模型,高级能力与模型大小的相关性显著提升(以 KA 为例,其 Spearman 系数从 0.02 变为 0.53)。这表明对齐释放了 LLM 在高级能力方面的更大潜力。然而,大小与低级 KM 性能之间的相关性呈现下降趋势(0.34),这可能证明了广泛讨论的“对齐税”。
  3. 与 GPT4 和 GPT-3.5-turbo 等商业闭源模型相比,开源模型的性能仍然存在明显差距。开源模型的平均 z 分数为 -0.29,低于整体平均水平。将第二季的结果与第一季的结果进行比较,大多数开源模型的排名都有所下降。这表明从长远来看,静态开源模型难以与可能持续更新的商业模型保持相当的水平。开源社区应倡导更强有力的合作,以支持对未来研究目的至关重要的更大、最新的模型。

设计分析。我们进一步讨论了 KoLA 设计因素带来的几个新观察结果。
在这里插入图片描述在这里插入图片描述
    首先,各个层级内的任务之间具有较高的相关性,表明LLM的能力确实具有某种内在的层级结构。知识记忆(KM)层级与其他层级表现出显著的相关性,尤其是与理解层级中的概念任务(2-1、2-2、2-3)以及应用层级中的推理任务(3-1至3-5),这表明这些高级任务严重依赖于知识记忆。此外,为了对LLM在高阶认知任务中的能力进行更分离的评估,仍然建议设计与预训练语料库表现出较大差异的任务,以减轻来自数据的潜在偏差。

    其次,模型在演化和非演化任务上的结果显示出明显的线性相关性,表明我们构建的演化数据集的可靠性。已知数据和演化数据之间的性能差距在较浅的层次(KM、KU)中更为明显,而在较高级任务(KA、KC)中则不那么明显。独立同分布和分布外演化设置之间的性能收敛表明模型的泛化能力可能得到增强,可能支持关于模型获得了超越简单数据拟合的发散和推理能力的观点。第三,我们对知识创建任务中的结果进行手动注释(附录 F.1 了解有关注释设置和结果的更多详细信息),其中每个注释者都需要阅读上下文 C 和预知 K,然后从两个方面评估模型的输出 T:整体质量和忠实度。评分按 1(最差评分)到 5(最好评分)的等级分配。我们计算了手动注释结果与§2.3中介绍的指标之间的Spearman相关性。我们发现,自我对比指标∂(T,Tk)与创作内容的忠实度之间存在显着的相关性(0.61),而从等式(3)中的整体指标x中删除自我对比指标会导致与人类判断的整体质量的相关性显着下降32%。我们相信这个指标可以为未来对生成能力评估的探索做出贡献。

在这里插入图片描述

结论和未来工作

    本文介绍了KoLA,这是一个精心设计的面向知识的LLM评估基准。我们设计了一个认知能力分类法以获得更有用的诊断结果,采用已知和不断发展的数据源以提高公平性,并采用对比指标以提高适用性。在 KoLA 的第一季中,我们评估了 28 个公开和商业的 LLM,并得到了一些有趣的发现,例如更大的模型往往会记住更多的知识,而对齐可以释放更高级能力的潜力,但可能会损害低级知识的记忆等。在未来,我们将继续举办更多季的 KoLA,以促进知识型 LLM 的发展,帮助选择开发知识相关应用程序的主干,并通过不断发展的评估跟踪 LLM 的发展。KoLA 将始终欢迎开放的参与和贡献。

道德声明

    在本节中,我们讨论了有关数据构建的道德考虑因素,并将更广泛的影响留到附录 A.2。 (1) 数据风险控制。对于收集到的演化数据源,我们过滤掉了不适合向普通观众展示的内容,相关细节在附录C.1中列出。七位作者手动检查了所有新构建的演化测试数据集以及KoLA中包含的所有先前发布的数据集的随机样本。没有发现任何个人身份信息、歧视性内容、露骨、暴力或冒犯性内容。(2)注释者待遇和同意。

    我们聘请众包注释者来注释演化测试数据并进行人工评估以创造知识。详细信息在附录C.2中介绍。我们与所有注释者签订了工作合同,并根据双方商定的工资标准和工作时间提供报酬。所有就业安排均符合当地法规。(3)版权。我们已知的数据来源是维基百科,它在CC BY-SA 3.08下获得许可,允许免费用于研究。对于KoLA中包含的所有先前发布的数据集。我们的演化数据源包含公开新闻和小说。新闻数据来自《卫报》9,我们严格遵守条款和条件10 访问这些数据。小说数据来自同人小说档案网站 Archive of Our Own (AO3)。尽管 AO3 数据已在之前的一些作品中使用,但其版权状态仍存在一些模糊性。我们认为使用 AO3 是恰当的,因为:

  • AO3 对数据抓取持开放态度12。
  • 我们承诺 KoLA 将始终保持非商业和非营利性,并且我们不会重新分发抓取的数据(我们的平台仅提供样本)。

    根据 AO3 的运营商 Organization for Transformative Works 提供的描述13,此类使用在美国版权法的背景下属于合理使用。可重复性声明 为了提高可重复性,我们在附录 C 中提供了有关数据收集的详细信息,在附录 D 中提供了所有使用的任务说明,并在附录 E 中提供了实验细节。所有任务的评估源代码和数据样本都作为补充材料提交。未来几季的结果将在 Github 和我们的平台网站上展示。

相关文章:

KOLA: CAREFULLY BENCHMARKING WORLD KNOWLEDGE OF LARGE LANGUAGE MODELS

文章目录 题目摘要简介KOLA 基准实验评估结论和未来工作道德声明 题目 KOLA:仔细对大型语言模型的世界知识进行基准测试 论文地址:https://arxiv.org/abs/2306.09296 项目地址:https://github.com/ranahaani/GNews 摘要 大型语言模型 (LLM) 的卓越性能要求评估方法…...

Robot Operating System——机器人关节的角度、速度和力矩

大纲 应用场景定义字段解释 案例 sensor_msgs::msg::JointState 是 ROS (Robot Operating System) 中的一个消息类型,用于表示机器人关节的状态信息。它通常用于传输和处理机器人关节的角度、速度和力矩等信息。 应用场景 机器人控制 关节控制:在机器人…...

一分钟掌握java9新特性

try-with-resources语句 /** * 在处理必须关闭的资源时,使用try-with-resources语句替代try-finally语句。 生成的代码更简洁,更清晰,并且生成的异常更有用 * java9 之前写法 */ public static String readFile1(String fileName){ tr…...

89. UE5 RPG 实现伤害 冷却 消耗技能描述

在上一篇文章里,我们能够通过富文本显示多种格式的文字,并显示技能描述。在这一篇文章里,我们继续优化技能描述,将技能说需要显示的内容显示出来。 实现火球术的基础描述 首先,我们现实现火球术的基础描述&#xff0…...

el-tree树状控件,定位到选中的节点的位置

效果图 在el-tree 控件加 :render-content"renderContent" 在掉接口的方法中 实际有用的是setTimeout 方法和this.$refs.xxxxxx.setCheckedKeys([industrycodeList]) if(res.data.swindustrylist.length>0){res.data.swindustrylist.forEach(item > {industry…...

YOLO目标检测的单目(多目标测距),使用相机光学模型,支持目标检测模型训练,可输出目标位置和距离信息并可视化

本项目旨在开发一个基于YOLO的目标检测系统,该系统不仅能检测图像中的多个目标,还能利用单目摄像头的图像估计每个目标与摄像头之间的相对距离。系统的核心组成部分包括目标检测、距离估计、模型训练以及结果可视化。 主要功能 目标检测:使用…...

unity简易lua文件迁移工具

一. 了解商业游戏的Lua热更新开发方式 市面上的3种结合Lua热更新的开发方式 1.纯Lua开发(所有的游戏主要逻辑都用Lua实现) 好处:机动性强;坏处:代码效率略差 2.半C#,半Lua开发(核心逻辑C#开发…...

Elasticsearch中的自动补全功能详解与实践

简介 自动补全是现代搜索引擎中的一项重要功能,它能够根据用户的输入提供实时的建议,提高用户体验。Elasticsearch提供了Completion Suggester查询来实现这一功能。本文将详细介绍Elasticsearch中的自动补全功能,并提供详细的配置和查询示例…...

前端如何使用Nginx代理dist网页,代理websocket,代理后端

本文将指导您如何配置Nginx以代理前后端分离的项目,并特别说明了对WebSocket的代理设置。通过本教程,您将能够实现一次性配置,进而使项目能够在任意局域网服务器上部署,并可通过IP地址或域名访问服务。 笔者建议 先速览本文了解大…...

Cannot connect to the Docker daemon at unix:///var/run/docker.sock. 问题解决

问题描述 原来我的服务器docker服务运行正常,但在某次尝试用时, 根据系统的错误提示执行了snap install docker指令之后, 再执行docker ps命令则提示Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running…...

零基础学习Redis(2) -- Redis安装与配置

Redis官方是并不支持Windows系统的,并且现在绝大部分公司都是使用的Linux,所以我们在Linux上进行安装,这里我使用的是Ubuntu 1. 安装步骤 1. 首先使用工具连接到我们的云服务器,然后输入apt指令搜索redis相关的软件包&#xff1…...

UniApp第一天

一、官网介绍 1.1、 SDK SDK是"Software Development Kit"的缩写,中文意思是“软件开发工具包”。SDK通常是由软件开发者为其他开发者提供的一个软件工具集合,用于帮助开发者快速开发、测试和部署软件应用。SDK通常包含了一系列的开发工具、库…...

TLE4966-3G带方向检测功能的高灵敏度汽车霍尔开关

TLE4966-3G是一款集成电路双霍尔效应传感器,专为使用旋转极轮的高精度应用而设计。通过片上有源补偿电路和斩波器技术实现精确的磁切换点和高温稳定性。 该传感器在Q2提供速度输出,其状态(高或低)与磁场值相对应。对于超过阈值BO…...

Github 2024-08-14 C开源项目日报Top10

根据Github Trendings的统计,今日(2024-08-14统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量C项目10Objective-C项目1PHP项目1Python项目1PHP:流行的Web开发脚本语言 创建周期:4710 天开发语言:C, PHP协议类型:OtherStar数量:37340 …...

飞桨Paddle API index_add 详解

index_add paddle.index_add(x, index, axis, value, nameNone)[源代码] 沿着指定轴 axis 将 index 中指定位置的 x 与 value 相加,并写入到结果 Tensor 中的对应位置。这里 index 是一个 1-D Tensor。除 axis 轴外,返回的 Tensor 其余维度大小和输入 …...

后端代码练习1——加法计算器

1. 需求 输入两个整数&#xff0c;点击 “点击相加” 按钮&#xff0c;显示计算结果。 2.准备工作 创建Spring Boot项目&#xff0c;引入Spring Web依赖&#xff0c;把前端代码放入static目录下。 2.1 前端代码 <!DOCTYPE html> <html lang"en"> <h…...

观察者模式和MQ是什么关系

观察者模式&#xff08;Observer Pattern&#xff09;和MQ&#xff08;Message Queue&#xff0c;消息队列&#xff09;之间的关系主要体现在它们所实现的功能和机制上的相似性&#xff0c;尽管它们在技术实现和应用场景上有所不同。 观察者模式 观察者模式是一种行为型设计模…...

JDK动态代理和CGLIB动态代理案例分析

JDK动态代理和CGLIB动态代理案例分析 JDK动态代理和CGLIB动态代理的实现原理如下&#xff1a; JDK动态代理的实现原理&#xff1a; JDK动态代理是基于Java的反射机制实现的实现一个继承InvocationHandler接口的对象&#xff0c;重写invoke方法&#xff0c;invoke方法中可以在目…...

【数据结构-前缀哈希】力扣1124. 表现良好的最长时间段

给你一份工作时间表 hours&#xff0c;上面记录着某一位员工每天的工作小时数。 我们认为当员工一天中的工作小时数大于 8 小时的时候&#xff0c;那么这一天就是「劳累的一天」。 所谓「表现良好的时间段」&#xff0c;意味在这段时间内&#xff0c;「劳累的天数」是严格 大…...

电商平台产品ID|CDN与预渲染|前端边缘计算

技术实现 都是通过ID拿到属性&#xff0c;进行预渲染html&#xff0c;通过 oss 分发出去 详情页这种基本都是通过 ssr 渲染出来&#xff0c;然后上缓存 CDN 分发到边缘节点来处理&#xff0c;具体逻辑可以参考 淘宝——EdgeRoutine边缘计算&#xff08;CDNServerless 边缘计算…...

LATTICE进阶篇DDR2--(4)DDR2 IP核总结

一、IP核的时钟框架 1片DDR2的接口是16位&#xff0c;且DDR2是双边沿读取的&#xff0c; 故当DDR2芯片的时钟为200M时&#xff0c;右侧DDR2芯片上的数据吞吐率为200M*2*16b&#xff0c;左侧数据吞吐率为200M*32b&#xff0c;左右两侧数据吞吐量相等。 根据上规律可知&#xf…...

windows下php安装kafka

下载zookeeper Kafka 依赖 Zookeeper 进行分布式协调&#xff0c;所以需要下载Zookeeper &#xff0c;当然你也可以使用kafka包里自带的一个默认配置的 Zookeeper。这里我们单独下载一个 访问Zookeeper官方下载页面在页面中找到最新的稳定版本&#xff0c;点击相应的下载链接…...

【wiki知识库】09.欢迎页面展示(浏览量统计)SpringBoot部分

&#x1f34a; 编程有易不绕弯&#xff0c;成长之路不孤单&#xff01; 大家好&#xff0c;我是熊哈哈&#xff0c;这个项目从我接手到现在有了两个多月的时间了吧&#xff0c;其实本来我在七月初就做完的吧&#xff0c;但是六月份的时候生病了&#xff0c;在家里休息了一个月的…...

数据分析与应用:微信-情人节红包流向探索分析

目录 0 需求描述 1 红包发送方用户的基本信息缺失率有多高?(即有多少红包发送方用户无法在用户基本信息表中匹配? 2 哪一组红包金额的拒收率最高? 3、最受二线城市欢迎的红包金额为?(即发出次数最多) 4 北上广深 4 大城市中,哪座城市的男性用户发出的 520 红包比例…...

SQL,获取 ID 的历史状态

sas系统的表tb存储病人的医疗历史记录&#xff0c;当Visit_codeSurgery时表示手术&#xff0c;Visit_codeOffice表示咨询&#xff0c;每个病人有多条Visit_code&#xff0c;有时只有Surgery或只有Office&#xff1a;IdVisit_DateVisit_codeA305/15/2004SurgeryA302/5/2005Offic…...

阅文集团:摇不动的IP摇钱树

把IP当成摇钱树&#xff0c;要做“东方迪士尼” 今天我们聊——阅文集团 《热辣滚烫》《庆余年2》《与凤行》和《玫瑰的故事》很熟悉吧&#xff1f;影视“四连爆”&#xff0c; 阅文集团交出一份亮眼半年报&#xff0c;时隔两年&#xff0c;重启增长。 跟IP相关业务对收入贡献…...

ETL数据集成丨将SQL Server数据同步至Oracle的具体实现

一、背景 在构建企业级数据架构时&#xff0c;将SQL Server数据库的数据同步至数仓数据库&#xff08;如Oracle&#xff09;是一项至关重要的任务。这一过程不仅促进了跨系统数据的一致性与可用性&#xff0c;还为数据分析、商业智能以及决策支持系统提供了坚实的数据基础。 …...

20240814软考架构-------软考51-55答案解析

每日打卡题51-55答案 51、【2017年真题】 难度&#xff1a;一般 系统移植也是系统构建的一种实现方法&#xff0c;在移植工作中&#xff0c; 需要最终确定移植方法。 A.计划阶段 B.准备阶段 C.转换阶段 D.验证阶段 答案&#xff1a;A 解析&#xff1a; 移植工作大体上分为计划…...

JavaEE 的入门

1. 学习JavaEE Java EE(Java Platform Enterprise Edition), Java 平台企业版. 是JavaSE的扩展, ⽤于解决企业级的开 发需求, 所以也可以称之为是⼀组⽤于企业开发的Java技术标准. 所以, 学习JavaEE主要是学习Java在 企业中如何应⽤. 前⾯学习的是Java基础, JavaEE 主要学习Jav…...

vue3+ts 前端word文档下载文件时不预览直接下载方法(支持 doc / excel / ppt / pdf 等)

前端word文档下载文件时不预览直接下载方法支持 doc / excel / ppt / pdf 等 根据需要&#xff0c;要实现一个下载文档的需要 最简单的方法就是使用a标签 如果是相同域可以直接下载&#xff0c;但如果是不同域的&#xff0c;就会先打开一个预览页&#xff0c;在预览页再点下载…...

排名优化软件/seo sem

前言 利用Python实现抖音字符视频。废话不多说。 让我们愉快地开始吧~ 开发工具 Python版本&#xff1a;3.6.4 相关模块&#xff1a; cv2模块&#xff1b; PIL模块&#xff1b; numpy模块&#xff1b; 以及一些Python自带的模块。 环境搭建 安装Python并添加到环境变…...

b站推广软件/如何免费自己创建网站

内存泄露的定义根据百度百科的定义&#xff1a;内存泄漏也称作“存储渗漏”&#xff0c;用动态存储分配函数动态开辟的空间&#xff0c;在使用完毕后未释放&#xff0c;结果导致一直占据该内存单元。直到程序结束。(其实说白了就是该内存空间使用完毕之后未回收)即所谓内存泄露…...

东莞保安公司在哪里/嘉峪关seo

本文将介绍如何分组数据&#xff0c;以便能汇总表内容的子集&#xff0c;这涉及两个新SELECT语句子句&#xff0c;分别是 GROUP BY 子句和HAVING子句。 1.1 创建分组 分组是在SELECT语句的GROUP BY子句中建立的。 输入&#xff1a; SELECT vend_id,COUNT(*) AS num_prods FROM …...

docker安装wordpress/杭州谷歌seo公司

进一步探讨类的特征&#xff0c;重点是类设计技术&#xff0c;而不是通用原理。一些特性很容易&#xff0c;一些特性很微妙。 运算符重载 目的是使C操作更美观&#xff0c;更接近于内置类型的操作。 隐藏了内部的实现机理&#xff0c;并强调了实质。 格式&#xff1a;operator …...

书店商城网站建设方案/百度怎么提交收录

假设consul软件安装在电脑ComputerA上&#xff0c;那么需要注册的服务ServiceA1也需要安装在电脑ComputerA上&#xff0c; 一个服务就是一个提供了ipport&#xff08;或者域名&#xff09;的应用程序。 服务&#xff1a; 服务&#xff1a; 1、服务名称&#xff1a;XXX。则生成的…...

网站建设有哪些常用行为/网页制作培训教程

问题出现原因 出现install-snap change in progress问题是因为snap在上一次安装软件的时候没有安装完 问题解决办法 打开终端 Ctrl Alt t 输入命令 snap changes 获取到当前snap记录&#xff0c;我们会发现在ID为25的是之前安装没有完成的接下来输入命令&#xff0c;然后…...