当前位置：首页 > news >正文

[大语言模型-论文精读] ACL2024-长尾知识在检索增强型大型语言模型中的作用

news 2026/2/8 0:46:45

ACL2024-长尾知识在检索增强型大型语言模型中的作用

在这里插入图片描述
On the Role of Long-tail Knowledge in Retrieval Augmented Large Language Models
Authors: Dongyang Li, Junbing Yan, Taolin Zhang, Chengyu Wang, Xiaofeng He, Longtao Huang, Hui Xue, Jun Huang

1.概览

在这里插入图片描述

问题解决：
这篇论文研究了在大型语言模型（LLMs）中，如何通过检索增强生成（RAG）技术来提升模型对长尾知识（long-tail knowledge）的处理能力。长尾知识指的是那些在大规模预训练中不常见，但在实际应用中又非常重要的知识。论文指出，尽管RAG技术能够通过检索相关文档来增强LLMs的回答质量，但它通常不加区分地增强所有查询，而忽略了LLMs真正需要的长尾知识。

研究成果：
研究者提出了一种基于生成预期校准误差（Generative Expected Calibration Error, GECE）的方法来检测长尾知识，并只在查询涉及长尾知识时才进行文档检索和知识融合。实验结果表明，与现有的RAG流程相比，该方法在平均推理时间上实现了超过4倍的加速，并且在下游任务中性能得到了一致性提升。

2. 研究背景

技术背景：
大型语言模型（LLMs）在自然语言处理（NLP）领域取得了显著的成就，但它们在处理长尾知识时仍然存在挑战。RAG技术通过检索补充知识并将其注入模型来增强LLMs的生成能力，但这种方法往往忽略了对长尾知识的特别关注。

发展历史：
RAG技术的发展可以追溯到早期的检索-生成模型，随着深度学习技术的进步，尤其是Transformer架构的出现，RAG技术得到了快速发展。近年来，研究者们开始关注如何更有效地利用RAG技术来提升LLMs在特定任务上的表现。

3. 技术挑战

困难：

知识冗余： 在预训练阶段，LLMs已经学习了大量的通用知识，RAG技术在处理常见知识时可能会导致计算资源的浪费。
长尾知识检测： 如何有效地检测和区分LLMs在处理查询时是否需要长尾知识是一个挑战。
效率与性能的平衡： 在提升模型性能的同时，如何保持或提升推理效率是一个关键问题。

4. 破局方法

解决方法：

GECE指标： 论文提出了一种新的指标GECE，结合了统计学和语义学的方法来衡量知识的“长尾性”, 通过METEOR分数和LLMs生成文本的平均token概率来计算。
长尾知识检测： 使用GECE值来检测输入查询是否涉及长尾知识。
选择性增强： 改进的RAG流程, 只有当查询涉及长尾知识时，才进行文档检索和知识融合，从而提高了推理效率。

ECE:
$\text{ECE} = \sum_{i=1}^{B}\frac{n_{b_i}}{N}|acc(b_i) - conf(b_i)|$

GECE:
$\text{GECE} = \frac{|M(pred, ref) - \frac{1}{n}\sum_{i=1}^{n}p(t_i)|}{\alpha \cdot [E({\bigtriangledown_{ins}) \cdot {\bigtriangledown}_{ins}}]}$
这里 ${\bigtriangledown_{ins}}$ 是当前实例的梯度， $E({\bigtriangledown_{ins}})$ 是整个数据集的平均梯度。

5. 技术应用

实验设置：

使用了NQ、TriviaQA和MMLU等数据集进行实验。
与多个基线模型进行了比较，如Llama2-7B、IRCoT、SKR等。
实验中考虑了不同数量的增强文档（10、15、20篇）对性能的影响。

**实验效果: **

NQ数据集：使用GECE后，Rouge-1和Bleu-4指标分别达到了42.9和43.7，平均推理速度提升了2.1倍。
TriviaQA数据集：使用GECE后，Rouge-1和Bleu-4指标分别达到了24.8和24.0，平均推理速度提升了2.2倍。
MMLU数据集：使用GECE后，准确率提升到了85.9%，推理速度提升了2.4倍。

结论：
通过GECE过滤数据后，所有基线模型的处理速度都有所提升，特别是迭代方法（如ITER-RETGEN和IRCoT）显著加速。此外，通过引入较少的普通实例噪声，还提升了任务性能。

潜在应用：

问答系统： 提升问答系统在处理长尾问题时的准确性和效率。
知识检索： 在需要精确知识检索的场景下，如法律、医疗等领域，提高检索的准确性。
教育辅助： 在教育领域，帮助学生快速准确地获取稀有或专业性知识。

6. 主要参考工作

ECE相关研究： 如Aimar等人在2023年的工作，提供了校准误差的新视角。
RAG技术： 如Borgeaud等人在2022年的研究，探讨了通过检索增强预训练语言模型的方法。
长尾知识处理： 如Kandpal等人在2023年的研究，讨论了LLMs在长尾知识学习上的挑战。
METEOR评估： Banerjee和Lavie在2005年提出的评估机器翻译质量的方法，被用于GECE指标中。

如果您对我的博客内容感兴趣，欢迎三连击(点赞，关注和评论)，我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型，深度学习，计算机视觉相关方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更及时地了解前沿技术的发展现状。

[大语言模型-论文精读] ACL2024-长尾知识在检索增强型大型语言模型中的作用

ACL2024-长尾知识在检索增强型大型语言模型中的作用

1.概览

2. 研究背景

3. 技术挑战

4. 破局方法

5. 技术应用

6. 主要参考工作

相关文章：

[大语言模型-论文精读] ACL2024-长尾知识在检索增强型大型语言模型中的作用

“迷茫野路子到AI大模型高手：一张图解产品经理晋升之路和能力构建“

可看见车辆行人的高清实时视频第2辑

基于饥饿游戏搜索优化随机森林的数据回归预测 MATLAB 程序 HGS-RF

一天面了8个Java后端，他们竟然还在背5年前的八股文！

python功能测试

【秋招笔试】09.25华子秋招(已改编)-三语言题解

【中级通信工程师】终端与业务(四)：通信产品

数据科学 - 字符文本处理

python之装饰器、迭代器、生成器

Go语言实现后台管理系统如何根据角色来动态显示栏目

【深度学习】【TensorRT】【C++】模型转化、环境搭建以及模型部署的详细教程

LeetCode（Python）-贪心算法

【C/C++】【基础数论】33、算数基本定理

聚簇索引与非聚簇索引

“类型名称”在Go语言规范中的演变

c++----继承（初阶）

数据库系列（1）常见的四种非关系型数据库（NoSQL）

大规模预训练语言模型的参数高效微调

一场大模型面试，三个小时，被撞飞了

RestClient

观成科技：隐蔽隧道工具Ligolo-ng加密流量分析

国防科技大学计算机基础课程笔记02信息编码

【JavaEE】-- HTTP

微软PowerBI考试 PL300-选择 Power BI 模型框架【附练习数据】

可靠性+灵活性：电力载波技术在楼宇自控中的核心价值

Leetcode 3577. Count the Number of Computer Unlocking Permutations

第25节 Node.js 断言测试

多模态大语言模型arxiv论文略读（108）

关键领域软件测试的突围之路：如何破解安全与效率的平衡难题