当前位置：首页 > news >正文

LLM - 使用 RAG (检索增强生成) 多路召回实现精准知识问答教程

news 2026/2/8 14:24:38

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/142629289

免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。

RAG

RAG (Retrieval-Augmented Generation，检索增强生成) 的多路召回，包括向量召回和本文召回，可用于精准知识问答，减轻大模型的幻觉问题，即：

并行：同时使用文本召回和向量召回，合计获得 TopN 个样本，再使用重排序的方式，获得 TopK 个样本，作为最终的召回文本。
串行：优先使用文本召回，召回 TopN 个样本，再使用向量排序，获得 TopK 个样本，作为最终的召回样本。

启动 Ollama 服务：

# 配置 HOST
export OLLAMA_HOST="0.0.0.0:11434"
# 配置 模型路径
export OLLAMA_MODELS="ollama_models"nohup ollama serve > nohup.ollama.out &

RAG 使用 LangChain 框架，参考：LangChain - Quickstart

LangChain 的相关依赖包，即：

pip install langchain
pip install beautifulsoup4
pip install faiss-cpu
pip install jiebapip install langchain-community
pip install langchain-huggingface
pip install rank_bm25
pip install langchain_openai

准备编码模型 BGE，即：

# https://huggingface.co/BAAI/bge-large-zh-v1.5
modelscope download --model BAAI/bge-large-zh-v1.5 --local_dir BAAI/bge-large-zh-v1.5

导入 LangChain 的相关 Python 包：

from typing import List
import jiebafrom langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import FAISS
from langchain.document_loaders import TextLoader
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.retrievers import BM25Retriever

使用 LangChain 读取外部文档 medical_data.txt，即：

loader = TextLoader('medical_data.txt')
documents = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size = 500,chunk_overlap  = 0,length_function = len,separators=['\n']
)
docs = text_splitter.split_documents(documents)

其中 medical_data.txt (4999 条) 格式如下，已经组织成 question 与 answer 的内容：

# ...
{'question': '曲匹地尔片的用法用量', 'answer': '注意：同种药品可由于不同的包装规格有不同的用法或用量。本文只供参考。如果不确定，请参看药品随带的说明书或向医生询问。口服。一次50～100mg（1-2片），3次/日，或遵医嘱。'}
# ...

Docs 是 list 格式，单项如下：

metadata 信息源
page_content 信息内容

即：

Document(metadata={'source': 'medical_data.txt'}, page_content="{'question': '曲匹地尔片的用法用量', 'answer': '注意：同种药品可由于不同的包装规格有不同的用法或用量。本文只供参考。如果不确定，请参看药品随带的说明书或向医生询问。口服。一次50～100mg（1-2片），3次/日，或遵医嘱。'}")

Query 是文档中已经问题，即：

query = "请问锁骨骨折多久能干活?"

使用 BM25Retriever 构建检索器，选择 TopK=10 个文档，因为是中文，预处理使用 Jieba 分词，即：

def preprocessing_func(text: str) -> List[str]:return list(jieba.cut(text))
retriever = BM25Retriever.from_documents(docs, preprocess_func=preprocessing_func, k=10)
bm25_res = retriever.invoke(query)

BM25 算法的核心，在于利用词频(Term Frequency, TF) 和逆文档频率(Inverse Document Frequency, IDF) 衡量文档与查询之间的相关性，同时引入文档长度信息，来调整相关性的计算。

构建向量 Embeddings 库：

embeddings = HuggingFaceEmbeddings(model_name='llm/BAAI/bge-large-zh-v1.5', model_kwargs = {'device': 'cuda:1'})
db = FAISS.from_documents(docs, embeddings)

其中 5000 条向量，构建 embeddings 需要 1min 15s，CPU 执行。

获取向量召回：

vector_res = db.similarity_search(query, k=10)

使用 RRF 算法，进行多路召回合并，10+10=20 选取最优的 10 个召回，即：

def rrf(vector_results: List[str], text_results: List[str], k: int=10, m: int=60):"""使用 RRF 算法对两组检索结果进行重排序params:vector_results (list): 向量召回的结果列表, 每个元素是专利IDtext_results (list): 文本召回的结果列表, 每个元素是专利IDk(int): 排序后返回前k个m (int): 超参数return:重排序后的结果列表,每个元素是(文档ID, 融合分数)"""doc_scores = {}# 遍历两组结果,计算每个文档的融合分数for rank, doc_id in enumerate(vector_results):doc_scores[doc_id] = doc_scores.get(doc_id, 0) + 1 / (rank+m)for rank, doc_id in enumerate(text_results):doc_scores[doc_id] = doc_scores.get(doc_id, 0) + 1 / (rank+m)# 将结果按融合分数排序sorted_results = [d for d, _ in sorted(doc_scores.items(), key=lambda x: x[1], reverse=True)[:k]]return sorted_resultsvector_results = [i.page_content for i in vector_res]
text_results = [i.page_content for i in bm25_res]
rrf_res = rrf(vector_results, text_results)

RRF (Reciprocal Rank Fusion, 倒数排名融合) 算法将多个检索结果合并一个聚合列表，通过每个列表中每个项目的排名取倒数，即 1 除以排名，将倒数排名在所有列表中相加，得到每个项目的最终得分。

提示词工程：

prompt = '''
任务目标：根据检索出的文档回答用户问题
任务要求：1、不得脱离检索出的文档回答问题2、若检索出的文档不包含用户问题的答案，请回答我不知道用户问题：
{}检索出的文档：
{}
'''

使用 Ollama 服务进行大模型推理，注意需要使用长 Token 模型，即：

from langchain_community.llms import Ollama
model = Ollama(model="qwen-2_5-32b-max-context:latest")
print(f"[Info] rrf_res: {len(rrf_res)}")
full_prompt = prompt.format(query, ''.join(rrf_res))
# print(f"[Info] prompt: {full_prompt}")
res = model.invoke(full_prompt)  # RAG
print(f"[Info] response: {res}")res = model.invoke(query)  # 非 RAG
print(f"[Info] response: {res}")

RAG 的输出，与文档高度一致，即：

锁骨骨折的恢复时间一般在3个月左右。虽然骨折刚刚愈合时可以进行轻微的工作，但若涉及重体力劳动，则通常需要大约半年的时间才能重新开始，最少也需要4-5个月。过早地从事重体力工作有可能导致骨折处再次受伤。因此，在这期间避免过度负重活动是十分重要的，以确保锁骨能完全恢复并维持愈合效果。

非 RAG 的输出：

锁骨骨折的恢复时间取决于骨折的严重程度以及治疗方法。一般来说，轻微到中度的锁骨骨折可能需要大约6-8周的时间来初步愈合，在这段时间内，患者可能会被建议限制肩部和上肢的活动以促进骨折部位的稳定与修复。
但是，能否重新开始工作还依赖于具体工作的性质。如果工作不需要使用受伤的手臂或肩膀进行高强度劳动，则在几周后可能就可以慢慢恢复工作。然而，如果是需要手臂大力操作的工作，则可能需要等待3个月甚至更长时间才能安全地返回工作岗位，并且最好等到医生确认骨折完全愈合为止。
因此，在考虑重返岗位之前，应该咨询主治医师的意见，确保不会对康复过程造成负面影响或导致二次伤害。

参考：https://github.com/wyf3/llm_related

全部源码：

from typing import Listimport jieba
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.llms import Ollama
from langchain_community.retrievers import BM25Retriever
from langchain_community.vectorstores import FAISS
from langchain_huggingface import HuggingFaceEmbeddingsclass RagRetriever(object):"""RAG retriever"""def __init__(self):loader = TextLoader(db_path)documents = loader.load()text_splitter = RecursiveCharacterTextSplitter(chunk_size=500,chunk_overlap=0,length_function=len,separators=['\n'])docs = text_splitter.split_documents(documents)def preprocessing_func(text: str) -> List[str]:return list(jieba.cut(text))self.doc_retriever = BM25Retriever.from_documents(docs, preprocess_func=preprocessing_func, k=10)print("[Info] init doc done!")embeddings = HuggingFaceEmbeddings(model_name=bge_path,model_kwargs={'device': 'cuda:1'})self.db = FAISS.from_documents(docs, embeddings)print("[Info] init db done!")self.prompt = '''任务目标：根据检索出的文档回答用户问题任务要求：1、不得脱离检索出的文档回答问题2、若检索出的文档不包含用户问题的答案，请回答我不知道用户问题：{}检索出的文档：{}'''print("[Info] init all done!")@staticmethoddef rrf(vector_results: List[str], text_results: List[str], k: int = 10, m: int = 60):"""使用 RRF 算法对两组检索结果进行重排序params:vector_results (list): 向量召回的结果列表, 每个元素是专利IDtext_results (list): 文本召回的结果列表, 每个元素是专利IDk(int): 排序后返回前k个m (int): 超参数return:重排序后的结果列表,每个元素是(文档ID, 融合分数)"""doc_scores = {}# 遍历两组结果,计算每个文档的融合分数for rank, doc_id in enumerate(vector_results):doc_scores[doc_id] = doc_scores.get(doc_id, 0) + 1 / (rank + m)for rank, doc_id in enumerate(text_results):doc_scores[doc_id] = doc_scores.get(doc_id, 0) + 1 / (rank + m)# 将结果按融合分数排序sorted_results = [d for d, _ in sorted(doc_scores.items(), key=lambda x: x[1], reverse=True)[:k]]return sorted_resultsdef retrieve(self, query):bm25_res = self.doc_retriever.invoke(query)vector_res = self.db.similarity_search(query, k=10)vector_results = [i.page_content for i in vector_res]text_results = [i.page_content for i in bm25_res]rrf_res = self.rrf(vector_results, text_results)model = Ollama(model="qwen-2_5-32b-max-context:latest")print(f"[Info] rrf_res: {len(rrf_res)}")full_prompt = self.prompt.format(query, ''.join(rrf_res))# print(f"[Info] prompt: {full_prompt}")res1 = model.invoke(full_prompt)print(f"[Info] rag response: {res1}")res2 = model.invoke(query)print(f"[Info] n-rag response: {res2}")return res1, res2def main():query = "请问锁骨骨折多久能干活?"rr = RagRetriever()rr.retrieve(query)if __name__ == '__main__':main()

LLM - 使用 RAG (检索增强生成) 多路召回实现精准知识问答教程

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/142629289 免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。 RAG (R…...

编程日记 2024/9/29 13:57:39

编程语言图书创作要注意的事情有哪些？

编程语言图书的创作是一项复杂且具有挑战性的任务，需要作者深入理解技术、清晰表达，并考虑读者的学习体验。一本优秀的编程书籍不仅能够教授技术知识，更能引导读者逐步深入，激发他们的思考和实际应用能力。以下将详细探讨编程语言…...

编程日记 2024/9/29 13:56:37

主流高级编程语言的推出时间及年份

1.下表一些主流高级编程语言的推出时间及年份： 高级语言推出时间岁数 FORTRAN 1957 67 LISP 1959 65 COBOL 1961 63 BASIC 1964 60 Pascal 1970 54 C 1972 52 MATLAB 1978 46 SQL 1978 46 Objective-C 1983 41 C 1983 41 Perl …...

编程日记 2024/9/29 13:54:35

qt 模仿简易的软狗实现

我们在写软件的时候，希望我们的软件只在固定的机器上运行，其他机器上运行不了，那我们应该如何做呢？ 1 首先我们需要得到运行机器的mac地址，这样可以简易的判断是否是我们授权的机器。那我们首先定义一个授权mac机器…...

编程日记 2024/9/29 13:53:34

荣业食品销售费用每年上亿元：主要产品收入大降，电商占比过低

《港湾商业观察》黄懿今年3月，广东荣业食品有限公司的控股公司Wing Yip Food Holdings Group Limited（下称“荣业食品”）向美国SEC递交了纳斯达克上市申请。据悉，2023年11月，商务部宣布移除了一批共计55家因长期经…...

编程日记 2024/9/29 13:52:33

数据结构：并查集

数据结构：并查集并查集原理实现框架初始化合并查询获取成员路径压缩其它总代码并查集在生活中，经常会出现分组问题。比如一个班级分为多个小组，打篮球分为两方等等。在同一个组中的所有成员，就构成一个集合。对这种一个群体分…...

编程日记 2024/9/29 13:51:32

微信小程序实战教程：轻松实现列表批量选择功能

在许多场景下，用户需要对列表中的多项内容进行操作，如批量删除、批量下载等。为了满足这一需求，我们需要在微信小程序中实现列表批量选择功能。具体要求如下： 用户可以逐个选择列表项，也可通过全选按钮快速选择所有列表…...

编程日记 2024/9/29 13:48:27

企业微信：开启客户联系和配置

前言客户联系是企业微信的一项非常实用且自定义化配置丰富的功能，使企业内的授权员工可以添加外部客户（企业微信联系人和微信联系人）进行工作沟通，并且还可以建立客户群，甚至发表内容到客户朋友圈！ 由于功…...

编程日记 2024/9/29 13:46:25

Python发送邮件教程：如何实现自动化发信？

Python发送邮件有哪些方法？如何利用python发送邮件？ 无论是工作汇报、客户通知还是个人提醒，邮件都能快速传递信息。Python发送邮件的自动化功能就显得尤为重要。AokSend将详细介绍如何使用Python发送邮件，实现自动化发信&#x…...

编程日记 2024/9/29 13:44:23

一周热门｜苏姿丰：芯片行业不能只盯着 GPU；Gartner：GenAI 即将越过期望膨胀期

大模型周报将从【企业动态】【技术前瞻】【政策法规】【专家观点】四部分，带你快速跟进大模型行业热门动态。 01 企业动态 Open AI 计划从非营利组织向营利组织转型日前，路透社报道称，OpenAI 正在制定一项计划，将其核心业务重…...

编程日记 2024/9/29 13:43:22

Failed to load WebView provider: No WebView installed

1、问题使用webview加载网页，在应用运行时，报了如下错误：android.webkit.WebViewFactory$MissingWebViewPackageException: Failed to load WebView provider: No WebView installed2、分析通过查看项目的修改记录，确实安装了We…...

编程日记 2024/9/29 13:35:13

java日志框架之Log4j

文章目录一、Log4j简介二、Log4j组件介绍1、Loggers (日志记录器)2、Appenders（输出控制器）3、Layout（日志格式化器） 三、Log4j快速入门四、Log4j自定义配置文件输出日志1、输出到控制台2、输出到文件3、输出到数据库五、Log4j自…...

编程日记 2024/9/29 13:34:11

C++ bitset（位图）的模拟实现

文章目录一、bitset接口总览二、bitset模拟实现1. 构造函数2. set、reset、flip、test3. size、count4. any、none、all5. 打印函数三、完整代码一、bitset接口总览成员函数功能set设置指定位或所有位为1（即设置为“已设置”状态）reset清空指定位或…...

编程日记 2024/9/29 13:33:10

Llama 3.2：利用开放、可定制的模型实现边缘人工智能和视觉革命

在我们发布 Llama 3.1 模型群后的两个月内，包括 405B - 第一个开放的前沿级人工智能模型在内，它们所产生的影响令我们兴奋不已。虽然这些模型非常强大，但我们也认识到，使用它们进行构建需要大量的计算资源和专业知识。我们也听到…...

编程日记 2024/9/29 13:32:08

解决R语言bug ‘sh‘ is not recognized as an internal or external command

安装源码包‘httr2’ trying URL ‘https://cran.rstudio.com/src/contrib/httr2_1.0.5.tar.gz’ Content type ‘application/x-gzip’ length 230632 bytes (225 KB) downloaded 225 KB installing source package ‘httr2’ … ** package ‘httr2’ successfully unpacked…...

编程日记 2024/9/29 13:31:06

记一次Mac 匪夷所思终端常用网络命令恢复记录

一天莫名奇妙发现ping dig 等基础命令都无法正常使用。还好能浏览器能正常访问，，，， 赶紧拿baidu试试^-^ ; <<>> DiG 9.10.6 <<>> baidu.com ;; global options: cmd ;; connection timed out; no serve…...

编程日记 2024/9/29 13:30:04

2024最新！！Java后端面试题（4）看这一篇就够了！！！！

七、异常 throw 和 throws 的区别？ throw用来显式地抛出一个异常，而throws则用于在方法声明中指明该方法可能抛出的异常。简单来说，throw是抛出异常的实际动作，throws是告知调用者这个方法可能会抛出哪些异常的声明。 final、f…...

编程日记 2024/9/29 13:29:03

springboot整合sentinel和对feign熔断降级

一、准备 docker安装好sentinel-dashboard（sentinel控制台），参考docker安装好各个组件的命令启动sentinel-dashboard，我的虚拟机ip为192.168.200.131，sentinel-dashboard的端口为8858 二、整合sentinel的主要工作在…...

编程日记 2024/9/29 13:25:57

遗传算法与深度学习实战——使用进化策略实现EvoLisa

遗传算法与深度学习实战——使用进化策略实现EvoLisa 0. 前言1. 使用进化策略实现 EvoLisa2. 运行结果相关链接 0. 前言我们已经学习了进化策略 (Evolutionary Strategies, ES) 的基本原理，并且尝试使用 ES 解决了函数逼近问题。函数逼近是一个很好的基准问题&…...

编程日记 2024/9/29 13:23:54

HttpServletRequest简介

HttpServletRequest是什么？ HttpServletRequest是一个接口，其父接口是ServletRequest；HttpServletRequest是Tomcat将请求报文转换封装而来的对象，在Tomcat调用service方法时传入；HttpServletRequest代表客户端发来的请…...

编程日记 2024/9/29 13:21:51

CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型

CVPR 2025 | MIMO：支持视觉指代和像素对齐的医学视觉语言模型论文信息标题：MIMO: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output作者：Yanyuan Chen, Dexuan Xu, Yu Hu…...

编程新知 2025/10/6 14:17:21

Golang 面试经典题：map 的 key 可以是什么类型？哪些不可以？

Golang 面试经典题：map 的 key 可以是什么类型？哪些不可以？ 在 Golang 的面试中，map 类型的使用是一个常见的考点，其中对 key 类型的合法性是一道常被提及的基础却很容易被忽视的问题。本文将带你深入理解 Golang 中…...

编程新知 2025/12/20 7:42:02

DockerHub与私有镜像仓库在容器化中的应用与管理

哈喽，大家好，我是左手python！ Docker Hub的应用与管理 Docker Hub的基本概念与使用方法 Docker Hub是Docker官方提供的一个公共镜像仓库，用户可以在其中找到各种操作系统、软件和应用的镜像。开发者可以通过Docker Hub轻松获取所…...

编程新知 2025/10/8 10:56:25

聊聊 Pulsar：Producer 源码解析

一、前言 Apache Pulsar 是一个企业级的开源分布式消息传递平台，以其高性能、可扩展性和存储计算分离架构在消息队列和流处理领域独树一帜。在 Pulsar 的核心架构中，Producer（生产者） 是连接客户端应用与消息队列的第一步。生产者…...

编程新知 2026/2/5 21:34:41

【决胜公务员考试】求职OMG——见面课测验1

2025最新版！！！6.8截至答题，大家注意呀！ 博主码字不易点个关注吧,祝期末顺利~~ 1.单选题(2分) 下列说法错误的是:（ B ） A.选调生属于公务员系统 B.公务员属于事业编 C.选调生有基层锻炼的要求 D…...

编程新知 2025/11/8 16:25:01

如何理解 IP 数据报中的 TTL？

目录前言理解前言面试灵魂一问：说说对 IP 数据报中 TTL 的理解？我们都知道，IP 数据报由首部和数据两部分组成，首部又分为两部分：固定部分和可变部分，共占 20 字节，而即将讨论的 TTL 就位于首…...

编程新知 2026/2/4 18:09:49

听写流程自动化实践，轻量级教育辅助

随着智能教育工具的发展，越来越多的传统学习方式正在被数字化、自动化所优化。听写作为语文、英语等学科中重要的基础训练形式，也迎来了更高效的解决方案。这是一款轻量但功能强大的听写辅助工具。它是基于本地词库与可选在线语音引擎构建，…...

编程新知 2026/1/30 1:47:17

为什么要创建 Vue 实例

核心原因：Vue 需要一个「控制中心」来驱动整个应用你可以把 Vue 实例想象成你应用的**「大脑」或「引擎」。它负责协调模板、数据、逻辑和行为，将它们变成一个活的、可交互的应用**。没有这个实例，你的代码只是一堆静态的 HTML、JavaScript 变量和函数，无法「活」起来。 …...

编程新知 2026/1/3 7:21:08

Spring AI Chat Memory 实战指南：Local 与 JDBC 存储集成

一个面向 Java 开发者的 Sring-Ai 示例工程项目，该项目是一个 Spring AI 快速入门的样例工程项目，旨在通过一些小的案例展示 Spring AI 框架的核心功能和使用方法。项目采用模块化设计，每个模块都专注于特定的功能领域，便于学习和…...

编程新知 2025/10/16 14:46:22

通过MicroSip配置自己的freeswitch服务器进行调试记录

之前用docker安装的freeswitch的，启动是正常的， 但用下面的Microsip连接不上主要原因有可能一下几个 1、通过下面命令可以看 [rootlocalhost default]# docker exec -it freeswitch fs_cli -x "sofia status profile internal"Name …...

编程新知 2026/2/6 14:23:05

相关文章：