当前位置：首页 > news >正文

RAG 详解

news 2026/2/8 14:58:04

原文：GitHub - Tongji-KGLLM/RAG-Survey

RAG调查
- 什么是RAG？
- RAG的范式
  - 幼稚的 RAG
  - 高级 RAG
  - 模块化 RAG
- 如何进行增强？
- RAG 还是微调？
- 如何评估 RAG？
- 前景
  - 严峻的挑战
  - 多式联运扩展
  - RAG的生态系统
RAG论文清单
- 增强阶段
  - 预训练
  - 微调
  - 推理
- 增强源
  - 非结构化数据
  - 结构化数据
  - LLM 生成的内容
- 增强过程
  - 一次检索
  - 迭代检索
  - 递归检索
  - 自适应检索
- 杂项
  - 可视化
- 确认

什么是RAG？

大型语言模型（LLM）已成为我们生活和工作不可或缺的一部分，通过其惊人的多功能性和智能性改变了我们与信息交互的方式。

尽管它们的能力令人印象深刻，但它们并非没有缺陷。这些模型会产生误导性的“幻觉”，依赖可能过时的信息，在处理特定知识时效率低下，在专业领域缺乏深度，并且在推理能力方面不足。

在实际应用中，数据需要不断更新以反映最新发展，并且生成的内容必须透明且可追溯，以管理成本并保护数据隐私。因此，仅仅依靠这些“黑匣子”模型是不够的;我们需要更精细的解决方案来满足这些复杂的需求。

在这种背景下，检索增强生成（RAG）作为人工智能时代的开创性趋势而声名鹊起。

RAG在问答中的典型应用。（例如，向 chatGPT 询问 OpenAI 首席执行官 SAM Altman 😆 被解雇和重新聘用一事）

RAG 在生成语言模型的答案之前，首先从外部文档数据库中检索相关信息，从而显著提高了内容的精确度和相关性。

RAG的范式

Lewis 于 2020 年推出的 RAG 概念发展迅速，标志着其研究之旅的不同阶段。最初，该研究旨在通过在预训练阶段为语言模型注入额外的知识来支持语言模型。ChatGPT 的推出引发了人们对利用大型模型进行深入上下文理解的浓厚兴趣，加速了 RAG 在推理阶段的发展。随着研究人员对大型语言模型（LLM）功能的深入研究，重点转向增强其可控性和推理能力，以跟上不断增长的需求。GPT-4 的出现标志着一个重要的里程碑，它以一种新颖的方法彻底改变了 RAG，该方法将其与微调技术相结合，同时继续完善预训练策略。

RAG研究的时间线树

在RAG的技术发展中，我们从技术范式的角度将其演进归纳为以下几个阶段：

幼稚的 RAG

经典的 RAG 过程（也称为 Naive RAG）在前面的示例中进行了演示。它主要包括三个基本步骤：

索引 - 将文档语料库拆分为较短的块，并通过编码器构建矢量索引。
检索 - 根据问题和块之间的相似性检索相关文档片段。
生成 - 根据检索到的上下文生成问题的答案。

高级 RAG

朴素RAG在检索、生成和增强方面面临多重挑战。随后提出了高级 RAG 范式，并涉及检索前和检索后的额外处理。在检索之前，可以使用查询重写、路由和扩展等方法来对齐问题和文档块之间的语义差异。检索后，对检索到的文档语料进行重新排序可以避免“中途丢失”现象，也可以对上下文进行过滤和压缩，以缩短窗口长度。

模块化 RAG

随着RAG技术的进一步发展和演进，突破了传统的朴素RAG检索生成框架，产生了模块化RAG的概念。在结构上，它更加自由和灵活，引入了更具体的功能模块，如查询搜索引擎和多个答案的融合。在技术上，它将检索与微调、强化学习和其他技术集成在一起。在流程方面，RAG 模块经过设计和编排，产生了各种 RAG 模式。

然而，模块化RAG并不是突然出现的。这三种范式之间存在着继承与发展的关系。Advanced RAG 是 Modular RAG 的特例，而 Naive RAG 是 Advanced RAG 的特例。

三种 RAG 范式之间的比较。

如何进行增强？

为了构建一个好的RAG系统，其中增强部分是关键，需要考虑三个关键问题：

检索什么？
何时取回？
如何使用检索到的内容？

从以上三个问题出发，我们组织增强如下：

增强阶段。检索增强可以在预训练、微调和推理阶段进行，这决定了外部知识的参数化程度，并对应所需的不同计算资源。
增强源。增强可以利用各种形式的数据，包括非结构化数据，例如文本段落、短语或单个单词。也可以使用结构数据，例如索引文档、三元组数据或子图。另一种方法是不依赖外部信息源，而是充分利用LLM的内在功能，从LLM本身生成的内容中检索。
增强过程。最初的检索是一个一次性的过程，但在RAG的发展中逐渐出现了迭代检索、递归检索和自适应检索方法，其中LLM自行决定检索的时间。
具有不同增强方面的技术树。

RAG核心组件的分类

RAG 还是微调？

除了 RAG，LLM 的主要优化策略还包括 Prompt Engineering 和 Fine-tuning （FT）。每个都有自己独特的功能。根据他们对外部知识的依赖和模型调整的要求，他们每个人都有合适的场景。

RAG就像是给模型一本自定义信息检索的教科书，非常适合特定的查询。另一方面，FT 就像学生随着时间的推移内化知识，更适合模仿特定的结构、风格或格式。FT 可以通过增强基础模型的知识、调整输出和教授复杂的指令来提高模型的性能和效率。但是，它不擅长集成新知识或快速迭代新用例。RAG 和 FT 并不相互排斥;它们是互补的，一起使用可能会产生最佳结果。

RAG 与微调象限图

如何评估 RAG？

RAG的评价方法多种多样，主要包括三种质量评分：语境相关性、答案保真度和答案相关性。此外，评估还涉及四个关键能力：噪声鲁棒性、拒绝能力、信息集成和反事实鲁棒性。这些评估维度将传统的定量指标与RAG特征的专业评估标准相结合，尽管这些标准尚未标准化。

在评估框架方面，有RGB、RECALL等基准测试，也有RAGAS、ARES、TruLens等自动化评估工具，有助于全面衡量RAG模型的性能。

前景

RAG的发展正在蓬勃发展，有几个问题值得进一步研究。我们可以从三个方面来期待这些：

严峻的挑战

旨在进一步解决RAG当前面临的挑战;

上下文长度。当检索到的内容过多且超出窗口限制时该怎么办？如果 LLM 的上下文窗口不再受限，那么应该如何改进 RAG？
稳健性。如何处理检索到的错误内容？如何过滤和验证检索到的内容？如何增强模型的抗中毒和抗噪能力？
与微调的协调。如何同时利用 RAG 和 FT 的效果，它们应该如何协调、组织，无论是串联、交替还是端到端？
标度定律：RAG 模型是否满足标度定律？RAG是否会在什么情况下遇到逆标度定律现象？
LLM的作用。LLM 可用于检索（用 LLM 的生成代替搜索或搜索 LLM 的内存）、生成、评估。如何进一步挖掘LLM在RAG中的潜力？
生产就绪。如何降低超大规模语料库的检索延迟？如何确保检索到的内容不会被 LLM 泄露

多式联运扩展

如何将 RAG 不断发展的技术和概念扩展到其他数据模式，例如图像、音频、视频或代码？一方面，这可以增强单一模态内的任务，另一方面，它可以通过RAG的思想融合多模态。

RAG的生态系统

RAG的应用不再局限于问答系统;它的影响力正在扩展到更多领域。现在，各种任务，如研究系统、信息提取和报告生成，都开始受益于RAG技术的应用。

与此同时，RAG技术栈正在经历蓬勃发展。除了 Langchain 和 LlamaIndex 等知名工具外，市场上还出现了更有针对性的 RAG 工具，例如：针对特定用例定制以满足更集中的场景需求的 RAG 工具;那些简化用于进一步降低进入门槛的措施;以及那些专门从事功能的，逐渐瞄准生产环境。

RAG论文清单

增强阶段

预训练

1.通过从数万亿个令牌中检索来改进语言模型 [论文][代码]

2.基于检索增强语言模型的少样本学习 [论文]

3.Toolformer：语言模型可以自学使用工具[论文]

4.复印就是你所需要的[纸张]

5.基于检索增强编码器-解码器语言模型的上下文学习[论文]

6.我们是否应该用检索来预训练自回归语言模型？[论文]

7.Demonstrate-Search-Predict： Composing retrieval and language models for knowledge-intensive NLP[论文]

微调

1.面向开放领域问答的密集段落检索[论文]

2.UPRISE： Universal Prompt Retrieval for Improving Zero-Shot Evaluation[论文][代码]

3.从读者到检索者进行知识的提炼，用于问答[论文]

4.RA-DIT： Retrieval-Augmented Dual Instruction Tuning[论文]

5.Self-RAG： Learning to Retrieve， Generate， and Critique through Self-Reflection[论文]

6.基于知识的对话生成知识图谱增强语言模型[论文]

7.结构感知语言模型预训练改进结构化数据的密集检索 [论文] [代码]

8.Replug： Retrieval-augmented black-box language models [论文]

9.增强适应的猎犬提高了语言的泛化能力模型作为通用插件 [论文][代码]

推理

1.通过记忆进行泛化：最近邻语言模型[论文]

2.演示-搜索-预测：为知识密集型 NLP 编写检索和语言模型 [论文][代码]

3.关键字增强检索：与语音界面集成的信息检索新框架。[论文]

4.将检索与思维链推理交织在一起，用于知识密集型多步骤问题。[纸张][代码]

5.生成而不是检索：大型语言模型是强大的上下文生成器 [论文] [代码]

6.In-Context Retrieval-Augmented Language Models [论文]

增强源

非结构化数据

1.UPRISE： Universal Prompt Retrieval for Improving Zero-Shot Evaluation[论文][代码]

2.从分类到生成：跨语言检索增强ICL的见解[论文]

3.复印就是你所需要的[纸张]

结构化数据

1.FABULA：使用检索增强叙事结构生成情报报告[论文]

2.基于知识的对话生成知识图谱增强语言模型[论文]

3.KnowledGPT： Enhancing Large Language Models with Retrieval and Storage Access on Knowledge Bases [论文]

4.Graph-ToolFormer：通过ChatGPT的提示增强赋予LLMs图推理能力[论文]

LLM 生成的内容

1.Lift Yourself Up： Retrieval-Augmented Text Generation with Self-Memory [论文]

2.演示-搜索-预测：为知识密集型 NLP 编写检索和语言模型 [论文]

3.背诵增强语言模型[论文]

4.生成而不是检索：大型语言模型是强大的上下文生成器 [论文]

5.大型语言模型的自知引导检索增强 [论文]

增强过程

一次检索

1.知识密集型NLP任务的检索增强生成[论文]

2.UPRISE： Universal Prompt Retrieval for Improving Zero-Shot Evaluation [论文]

3.基于参数化知识指导的增强大型语言模型 [论文]

4.学习检索大型语言模型的上下文示例。[论文]

5.Few-shot Learning with Re-trieval Augmented Language Models [论文] 6.Replug： Retrieval-augmented black-box language models [论文]

7.背诵增强语言模型[论文]

迭代检索

1.演示-搜索-预测：为知识密集型 NLP 编写检索和语言模型 [论文][代码]

2.Retrieve-and-Sample： Document-level Event Argument Extraction via Hybrid Retrieval Augmentation [论文]

3.Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy[论文]

4.检索生成协同增强大型语言模型[论文]

递归检索

1.Interleaving Retrieval with Chain-of-Reasoning for Knowledge-Intensive Multi-Step Questions [论文][代码]

2.Tree of Clarifications： Answering Ambiguous Questions with Retrieval-Augmented Large Language Models [论文]

自适应检索

1.主动检索增强生成[论文][代码]

2.Self-RAG： Learning to Retrieve， Generate， and Critique through Self-Reflection [论文]

3.基于检索增强编码器-解码器语言模型的上下文学习[论文]

RAG 详解

原文：GitHub - Tongji-KGLLM/RAG-Survey 目录 RAG调查什么是RAG？RAG的范式幼稚的 RAG高级 RAG模块化 RAG如何进行增强？RAG 还是微调？如何评估 RAG？前景严峻的挑战多式联运扩展RAG的生态系统RAG论文清单增强阶段 …...

编程日记 2024/1/11 15:13:03

【llm 部署运行videochat--完整教程】

# 申请llama权重 https://ai.meta.com/resources/models-and-libraries/llama-downloads/ -> 勾选三个模型 -> 等待接收右键信息 # 下载llama代码库 git clone https://github.com/facebookresearch/llama.git cd llama bash download.py -> email -> url …...

编程日记 2024/1/11 15:10:01

Talking about likes

Tutorial Hi! Tim here with another 925English lesson! In today’s lesson, we’re learning how to talk about likes and preferences. Why It’s Important: Talking about things we like is common in various situations, from meetings to casual chats over lunch…...

编程日记 2024/1/11 15:09:00

DeepSeek 发布全新开源大模型，数学推理能力超越 LLaMA-2

自从 LLaMA 被提出以来，开源大型语言模型（LLM）的快速发展就引起了广泛研究关注，随后的一些研究就主要集中于训练固定大小和高质量的模型，但这往往忽略了对 LLM 缩放规律的深入探索。开源 LLM 的缩放研究可以促使 LLM…...

编程日记 2024/1/11 15:07:56

代码随想录算法训练营第二十一天| 回溯 216. 组合总和 III 17. 电话号码的字母组合

216. 组合总和 III 可以参考77.组合中关于选取数组的相关操作。递归函数的返回值以及参数：一般为void类型递归函数终止条件：path这个数组的大小如果达到k，说明我们找到了一个子集大小为k的组合了，然后当n为0的时候&#xff0…...

编程日记 2024/1/11 15:06:55

微服务架构最佳实践

我的新书《Android App开发入门与实战》已于2020年8月由人民邮电出版社出版，欢迎购买。点击进入详情构建和管理微服务是一项艰巨的任务。这是因为微服务就像多个并行的整体应用程序，它们都必须处于同步通信和并发运行时间。因此，在设计和构建…...

编程日记 2024/1/11 15:04:53

国内首款支持苹果Find My芯片-伦茨科技ST17H6x

深圳市伦茨科技有限公司（以下简称“伦茨科技”）发布ST17H6x Soc平台。成为继Nordic之后全球第二家取得Apple Find My「查找」认证的芯片厂家，该平台提供可通过Apple Find My认证的Apple查找（Find My）功能集成解决方案。…...

编程日记 2024/1/11 15:03:52

linux 01 centos镜像下载，服务器，vmware模拟服务器

https://www.bilibili.com/video/BV1pz4y1D73n?p3&vd_source4ba64cb9b5f8c56f1545096dfddf8822 01.使用的版本国内主要使用的版本是centos 02.centos镜像下载这里的是centos7 一.阿里云官网地址：https://www.aliyun.com/ 二. -----【文档与社区】 —【…...

编程日记 2024/1/11 15:01:49

Linux安装RabbitMq明白纸（无图）

Linux安装RabbitMq步骤安装环境Erlang和RabbitMQ版本对照安装包下载地址登录Linux服务器创建安装目录将之前下载的两个rpm文件上传到这个目录下，并解压安装Erlang安装完成后，查看Erlang版本安装socat（RabbitMq安装需要这个）解压并…...

编程日记 2024/1/11 14:59:47

Android - CrashHandler 全局异常捕获器

官网介绍如下：Thread.UncaughtExceptionHandler (Java Platform SE 8 ) 用于线程因未捕获异常而突然终止时调用的处理程序接口。当线程由于未捕获异常而即将终止时，Java虚拟机将使用thread . getuncaughtexceptionhandler()查询该线程的UncaughtExceptio…...

编程日记 2024/1/11 14:55:42

商品源数据如何采集，您知道吗？

如今，电子商务已经渗透到了人们生活的方方面面。2020年新冠肺炎突如其来，打乱了人们正常的生产生活秩序，给经济发展带来了极大的影响。抗击疫情过程中，为避免人员接触和聚集，以“无接触配送”为营销卖点的电子商务迅速…...

编程日记 2024/1/11 14:54:40

输入输出流、字符字节流、NIO

1、对输入输出流、字符字节流的学习，以之前做的批量下载功能为例批量下载指的是，将多个文件打包到zip文件中，然后下载该zip文件。 1.1下载网络上的文件代码参考如下： import java.io.*; import java.net.URL; import java.n…...

编程日记 2024/1/11 14:52:36

js中对数字,超大金额(千位符，小数点)格式化处理

前言这个问题的灵感来自线上一个小bug，前两天刚看完同事写的代码，对数字类型处理的很好，之前一直都是用正则和toFixed(2)处理数字相关，后面发现使用numeral.js处理更完美。对于下面这种数据的处理，你能想到几种方法…...

编程日记 2024/1/11 14:49:31

Android 打开热点2.4G系统重启解决

Android 打开热点2.4G系统重启解决文章目录 Android 打开热点2.4G系统重启解决一、前言二、过程分析1、Android 设备开机后第一次打开热点2.4G系统重启2、日志分析3、设备重启原因三、解决方法四、其他1、wifi/有线网代理信息也可能导致系统重启2、Android13 热点默认5G频道…...

编程日记 2024/1/11 14:48:29

全链路压力测试有哪些主要作用

全链路压力测试是在软件开发和维护过程中不可或缺的一环，尤其在复杂系统和高并发场景下显得尤为重要。下面将详细介绍全链路压力测试的主要作用。一、全链路压力测试概述全链路压力测试是指对软件系统的全部组件(包括前端、后端、数据库、网络、中间件等)在高负载…...

编程日记 2024/1/11 14:47:28

【python基础教程】print输出函数和range()函数的正确使用方式

嗨喽，大家好呀~这里是爱看美女的茜茜呐 print()有多个参数，参数个数不固定。有四个关键字参数（sep end file flush），这四个关键字参数都有默认值。 print作用是将objects的内容输出到file中，objects中的…...

编程日记 2024/1/11 14:46:26

LeetCode255.用队列实现栈

题目传送门：Leetcode255.用队列实现栈请你仅使用两个队列实现一个后入先出（LIFO）的栈，并支持普通栈的全部四种操作（push、top、pop 和 empty）。实现 MyStack 类： void push(int x) 将元素 x 压…...

编程日记 2024/1/11 14:44:25

PHPStudy快速搭建网站并结合内网穿透远程访问本地站点

文章目录 [toc]使用工具1. 本地搭建web网站1.1 下载phpstudy后解压并安装1.2 打开默认站点，测试1.3 下载静态演示站点1.4 打开站点根目录1.5 复制演示站点到站网根目录1.6 在浏览器中，查看演示效果。 2. 将本地web网站发布到公网2.1 安装cpolar内网穿透2…...

编程日记 2024/1/11 14:43:24

AI嵌入式K210项目（1）-芯片开发板介绍

系列文章目录在人工智能大潮滚滚而来的时代，作为一个从事嵌入式行业多年的程序猿倍感焦虑，有被替代的焦虑，也有跟不上新技术步伐的无奈，本系列文章将介绍一个从硬件设计到ai训练、最后到模型部署的完整案例；第一阶段…...

编程日记 2024/1/11 14:41:22

Blazor中使用impress.js

impress.js是什么？ 你想在浏览器中做PPT吗？比如在做某些类似于PPT自动翻页，局部放大之类，炫酷无比。在Blazor中，几经尝试，用以下方法可以实现。写文不易，请点赞、收藏、关注，并在转…...

编程日记 2024/1/11 14:39:20

黑马Mybatis

Mybatis 表现层：页面展示业务层：逻辑处理持久层：持久数据化保存在这里插入图片描述 Mybatis快速入门 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/6501c2109c4442118ceb6014725e48e4.png //logback.xml <?xml ver…...

编程新知 2026/1/22 14:22:27

centos 7 部署awstats 网站访问检测

一、基础环境准备（两种安装方式都要做） bash # 安装必要依赖 yum install -y httpd perl mod_perl perl-Time-HiRes perl-DateTime systemctl enable httpd # 设置 Apache 开机自启 systemctl start httpd # 启动 Apache二、安装 AWStats&#xff0…...

编程新知 2026/1/23 8:33:56

线程与协程

1. 线程与协程 1.1. “函数调用级别”的切换、上下文切换 1. 函数调用级别的切换 “函数调用级别的切换”是指：像函数调用/返回一样轻量地完成任务切换。举例说明： 当你在程序中写一个函数调用： funcA() 然后 funcA 执行完后返回&…...

编程新知 2025/10/31 17:25:40

WEB3全栈开发——面试专业技能点P2智能合约开发（Solidity）

一、Solidity合约开发下面是 Solidity 合约开发的概念、代码示例及讲解，适合用作学习或写简历项目背景说明。 🧠 一、概念简介：Solidity 合约开发 Solidity 是一种专门为以太坊（Ethereum）平台编写智能合约的高级编…...

编程新知 2026/1/27 9:33:09

【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分

一、项目背景回顾前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。本弹重点聚焦于服务端的模块划分与架构设计，提升代码结构的可维护性与扩展性。二、服务端模块设计目标高内聚低耦合：各模块职责清晰，便于独立开发…...

编程新知 2025/10/13 4:15:41

关键领域软件测试的突围之路：如何破解安全与效率的平衡难题

在数字化浪潮席卷全球的今天，软件系统已成为国家关键领域的核心战斗力。不同于普通商业软件，这些承载着国家安全使命的软件系统面临着前所未有的质量挑战——如何在确保绝对安全的前提下，实现高效测试与快速迭代？这一命题正考验着…...

编程新知 2026/1/27 13:20:11

佰力博科技与您探讨热释电测量的几种方法

热释电的测量主要涉及热释电系数的测定，这是表征热释电材料性能的重要参数。热释电系数的测量方法主要包括静态法、动态法和积分电荷法。其中，积分电荷法最为常用，其原理是通过测量在电容器上积累的热释电电荷，从而确定热释电系数…...

编程新知 2026/1/23 11:53:19

【C++进阶篇】智能指针

C内存管理终极指南：智能指针从入门到源码剖析一. 智能指针1.1 auto_ptr1.2 unique_ptr1.3 shared_ptr1.4 make_shared 二. 原理三. shared_ptr循环引用问题三. 线程安全问题四. 内存泄漏4.1 什么是内存泄漏4.2 危害4.3 避免内存泄漏五. 最后一. 智能指针智能指…...

编程新知 2026/1/31 8:16:58

【网络安全】开源系统getshell漏洞挖掘

审计过程： 在入口文件admin/index.php中： 用户可以通过m,c,a等参数控制加载的文件和方法，在app/system/entrance.php中存在重点代码： 当M_TYPE system并且M_MODULE include时，会设置常量PATH_OWN_FILE为PATH_APP.M_T…...

编程新知 2026/1/31 2:59:25

（一）单例模式

一、前言单例模式属于六大创建型模式，即在软件设计过程中，主要关注创建对象的结果，并不关心创建对象的过程及细节。创建型设计模式将类对象的实例化过程进行抽象化接口设计，从而隐藏了类对象的实例是如何被创建的，封装了软件系统使用的具体对象类型。六大创建型模式包括…...

编程新知 2026/1/30 6:03:31