当前位置：首页 > news >正文

LangChain——多向量检索器

news 2026/3/26 12:00:56

每个文档存储多个向量通常是有益的。在许多用例中，这是有益的。 LangChain 有一个基础 MultiVectorRetriever ，这使得查询此类设置变得容易。很多复杂性在于如何为每个文档创建多个向量。本笔记本涵盖了创建这些向量和使用 MultiVectorRetriever 的一些常见方法。
为每个文档创建多个向量的方法包括：

较小的块：将文档分割成较小的块，然后嵌入这些块（这是 ParentDocumentRetriever）。
摘要：为每个文档创建摘要，将其与文档一起嵌入（或代替文档）
假设性问题：创建每个文档都适合回答的假设性问题，将这些问题与文档一起嵌入（或代替文档）。

请注意，这还启用了另一种添加嵌入的方法 - 手动。这很棒，因为您可以显式添加导致文档恢复的问题或查询，从而为您提供更多控制权。

from langchain.retrievers.multi_vector import MultiVectorRetriever
from langchain.storage import InMemoryByteStore
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import Chroma
from langchain_text_splitters import RecursiveCharacterTextSplitter# 导入文件
loaders = [TextLoader("./txt/faq-4359.txt",encoding="utf-8"),TextLoader("./txt/faq-7923.txt",encoding="utf-8"),
]
docs = []
# 将内容合并
for loader in loaders:docs.extend(loader.load())# 连接模型
from langchain_community.embeddings.huggingface import HuggingFaceEmbeddings
embeddings_path = "D:\\ai\\download\\bge-large-zh-v1.5"
embeddings = HuggingFaceEmbeddings(model_name=embeddings_path)# 用于索引子块的向量存储
vectorstore = Chroma(collection_name="full_documents", embedding_function=embeddings
)# 父文档的存储层
store = InMemoryByteStore()
id_key = "doc_id"# 检索器（空启动）
retriever = MultiVectorRetriever(vectorstore=vectorstore,byte_store=store,id_key=id_key,
)import uuid
# 生成唯一编码
doc_ids = [str(uuid.uuid4()) for _ in docs]from langchain_text_splitters import CharacterTextSplitter
# 用于创建较小块的分割器
child_text_splitter = CharacterTextSplitter(separator="\n\n",chunk_size=100,chunk_overlap=10,length_function=len,is_separator_regex=False,
)sub_docs = []
# 循环分割
for i, doc in enumerate(docs):_id = doc_ids[i]_sub_docs = child_text_splitter.split_documents([doc])for _doc in _sub_docs:_doc.metadata[id_key] = _idsub_docs.extend(_sub_docs)#使用一个名为retriever的对象来向一个向量存储（vectorstore）中添加文档，
#并且使用一个文档存储（docstore）来设置文档ID与文档内容之间的映射。
#这两个属性分别用于存储文档的向量化表示和文档的内容。
retriever.vectorstore.add_documents(sub_docs)
retriever.docstore.mset(list(zip(doc_ids, docs)))
# Vectorstore 单独检索小块
retriever.vectorstore.similarity_search("众测商品多久发货呢？")[0]#输出结果：Document(page_content='4、众测商品买下后多久发货？\n\n     您好，请以商品页显示为准。\n\n5、提交活动订单后多久内支付？\n\n     您好，提交订单后最长付款时效为24小时，逾期订单自动取消', metadata={'doc_id': '8f80d02b-6a27-46ae-ad6a-23cc6e1ec5c8', 'source': './txt/faq-7923.txt'})

摘要总结

通常，摘要可能能够更准确地提炼出某个块的内容，从而实现更好的检索。在这里，我们展示如何创建摘要，然后嵌入它们。

import uuidfrom langchain_core.documents import Document
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI, OpenAI
openai_api_key = "EMPTY"
openai_api_base = "http://127.0.0.1:1234/v1"
model = ChatOpenAI(openai_api_key=openai_api_key,openai_api_base=openai_api_base,temperature=0.3,
)
# 创建链
chain = ({"doc": lambda x: x.page_content}| ChatPromptTemplate.from_template("总结下面的文档:\n\n{doc}")| model| StrOutputParser()
)
docs = []
for loader in loaders:docs.extend(loader.load())# max_concurrency最大的并行量    
summaries = chain.batch(docs, {"max_concurrency": 5})# The vectorstore to use to index the child chunks
vectorstore = Chroma(collection_name="summaries", embedding_function=embeddings)
# The storage layer for the parent documents
store = InMemoryByteStore()
id_key = "doc_id"
# The retriever (empty to start)
retriever = MultiVectorRetriever(vectorstore=vectorstore,byte_store=store,id_key=id_key,
)
doc_ids = [str(uuid.uuid4()) for _ in docs]summary_docs = [Document(page_content=s, metadata={id_key: doc_ids[i]})for i, s in enumerate(summaries)
]# 添加文件到检索器
retriever.vectorstore.add_documents(summary_docs)
# id和文档的映射
retriever.docstore.mset(list(zip(doc_ids, docs)))sub_docs = retriever.vectorstore.similarity_search("众测活动是否有参与限制？")

假设性查询

LLM 还可用于生成针对特定文档可能提出的假设问题列表。然后可以嵌入这些问题

from langchain_core.output_parsers import JsonOutputParser
promptStr = '''
···
{doc}
···根据上面的文档，生成3个相关问题和回答。响应以json列表的结构返回。返回的结构参考如下
···
[
{{"question":"问题1","answer":"回答1"}},
{{"question":"问题2","answer":"回答2"}},
{{"question":"问题3","answer":"回答3"}}
]
···
'''prompt = ChatPromptTemplate.from_template(promptStr)
# 生成链
chain = ({"doc": lambda x: x.page_content}| prompt| model| JsonOutputParser()
)
# 用于设置处理批量数据
hypothetical_questions = chain.batch(sub_docs, {"max_concurrency": 5})# 生成对应的文档
ocuments = []
for item in hypothetical_questions:for obj in item:content = "问：{}\n答：{}".format(obj['question'],obj['answer'])documents.append(Document(page_content=content))# The vectorstore to use to index the child chunks
vectorstore = Chroma(collection_name="Question", embedding_function=embeddings,persist_directory="./vector_store")
# The storage layer for the parent documents
store = InMemoryByteStore()
id_key = "doc_id"
# The retriever (empty to start)
retriever = MultiVectorRetriever(vectorstore=vectorstore,byte_store=store,id_key=id_key,
)
doc_ids = [str(uuid.uuid4()) for _ in docs]retriever.vectorstore.add_documents(documents)retriever.vectorstore.similarity_search("众测商品多久发货呢？")[0]# 输出结果
#Document(page_content='问：众测商品买下后多久发货？\n答：您好，请以商品页显示为准。')

LangChain——多向量检索器

每个文档存储多个向量通常是有益的。在许多用例中，这是有益的。 LangChain 有一个基础 MultiVectorRetriever ，这使得查询此类设置变得容易。很多复杂性在于如何为每个文档创建多个向量。本笔记本涵盖了创建这些向量和使用 MultiVectorRetriever 的一些常…...

编程日记 2024/11/27 10:13:15

《岩石学报》

本刊主要报道有关岩石学基础理论的岩石学领域各学科包括岩浆岩石学、变质岩石学、沉积岩石学、岩石大地构造学、岩石同位素年代学和同位素地球化学、岩石成矿学、造岩矿物学等方面的重要基础理论和应用研究成果，同时也刊载综述性文章、问题讨论、学术动态以及书评等…...

编程日记 2024/11/27 10:08:10

数据结构（12）串的存储实现

一、顺序存储结构顺序存储结构是用一组连续的存储单元来存储串中的字符序列。这种存储方式类似于线性表的顺序存储结构，但串的存储对象仅限于字符。顺序存储结构又可以分为定长顺序存储和堆分配存储两种方式。定长顺序存储： 使用静态数组存储&#xff…...

编程日记 2024/11/27 10:05:06

职场发展陷阱

一、只有执行，没有思考二、只有过程，没有结果三、只有重复，没有精进四、不懂向上管理五、定期汇报六、不要憋大招七、多同步信息...

编程日记 2024/11/27 10:03:03

Xcode15（iOS17.4）打包的项目在 iOS12 系统上启动崩溃

0x00 启动崩溃崩溃日志，只有 2 行，看不出啥来。 0x01 默认配置由于我开发时，使用的 Xcode 14.1，打包在另外一台电脑 Xcode 15.3 Xcode 14.1 Build Settings -> Asset Catalog Compliter - Options Xcode 15.3 Build S…...

编程日记 2024/11/27 9:54:54

极狐GitLab 17.6 正式发布几十项与 DevSecOps 相关的功能【二】

GitLab 是一个全球知名的一体化 DevOps 平台，很多人都通过私有化部署 GitLab 来进行源代码托管。极狐GitLab 是 GitLab 在中国的发行版，专门为中国程序员服务。可以一键式部署极狐GitLab。学习极狐GitLab 的相关资料： 极狐GitLab 官网极狐…...

编程日记 2024/11/27 9:53:51

PVE相关名词通俗表述方式———多处细节实验（方便理解）

PVE设置初期，对CIDR、网关、 LinuxBridge、VLAN等很有困惑的朋友一定很需要一篇能够全面通俗易懂的方式去理解PVE 中Linux网桥的工作方式，就像操作一个英雄，多个技能，还是需要一点点去学习理解的，如果你上来就对着别人…...

编程日记 2024/11/27 9:50:47

Ansible--自动化运维工具

Ansible自动化运维工具介绍 1.Ansible介绍 Ansible是一款自动化运维工具，基于Python开发，集合了众多运维工具（puppet、cfengine、chef、func、fabric）的优点，实现了批量系统配置、批量程序部署、批量运行命令等功能。…...

编程日记 2024/11/27 9:48:42

微信小程序学习指南从入门到精通

🗽微信小程序学习指南从入门到精通🗽 🔝微信小程序学习指南从入门到精通🔝✍前言✍💻微信小程序学习指南前言💻一、🚀文章列表🚀二、🔯教程文章的好处🔯1. ✅…...

编程日记 2024/11/27 9:46:40

微服务篇-深入了解使用 RestTemplate 远程调用、Nacos 注册中心基本原理与使用、OpenFeign 的基本使用

🔥博客主页： 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 认识微服务 1.1 单体架构 1.2 微服务 1.3 SpringCloud 框架 2.0 服务调用 2.1 RestTemplate 远程调用 3.0 服务注册和发现 3.1 注册中心原理 3.2 Nacos 注册中心 …...

编程日记 2024/11/27 9:45:39

使用 Django 构建支持 Kubernetes API 测试连接的 POST 接口

文章目录使用 Django 构建支持 Kubernetes API 测试连接的 POST 接口功能需求使用 kubectl 获取 Token命令解析输出示例完整代码实现Kubernetes API 客户端类功能说明 Django 接口视图关键点解析路由配置接口测试请求示例响应结果成功错误优化建议1. 安全性2. 错误处理3. …...

编程日记 2024/11/27 9:44:38

十二、正则表达式、元字符、替换修饰符、手势和对话框插件

1. 正则表达式 1.1 基本使用 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title&g…...

编程日记 2024/11/27 9:42:36

计算机毕业设计Python+大模型美食推荐系统美食可视化美食数据分析大屏美食爬虫美团爬虫机器学习大数据毕业设计 Django Vue.js

温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 作者简介：Java领…...

编程日记 2024/11/27 9:41:34

【后端面试总结】MySQL索引

数据库索引不只一种实现方法，但是其中最具代表性，也是我们面试中遇到最多的无疑是B树。索引为什么选择B树数据量很大的查找，是不能直接放入内存的，而是需要什么数据就通过磁盘IO去获得。红黑树，AVL树等二叉查找树…...

编程日记 2024/11/27 9:39:33

[蓝桥杯 2021 省 AB2] 小平方

题目描述小蓝发现，对于一个正整数 nn 和一个小于 nn 的正整数 vv，将 vv 平方后对 nn 取余可能小于 nn 的一半，也可能大于等于 nn 的一半。请问，在 11 到 n−1n−1 中, 有多少个数平方后除以 nn 的余数小于 nn 的一半。例如&…...

编程日记 2024/11/27 9:38:31

Jmeter测试工具的安装和使用，mac版本，jmeter版本5.2.1

Jmeter测试工具的安装和使用JSON格式请求一、安装1、安装jdk包和设置java环境2、去官网下载Jmeter3、解压后，打开mac终端，进入apache-jmeter的bin文件开启jmeter 二、使用jmeter1、添加线程2、添加HTTP请求3、配置请求的协议、IP地址、端口号、请求方法…...

编程日记 2024/11/27 9:37:29

kmeans 最佳聚类个数 | 轮廓系数（越大越好）

轮廓系数越大，表示簇内实例之间紧凑，簇间距离大，这正是聚类的标准概念。簇内的样本应该尽可能相似。不同簇之间应该尽可能不相似。目的：鸢尾花数据进行kmeans聚类，最佳聚类个数是多少？ plot(iris[,1:4…...

编程日记 2024/11/27 9:36:28

【纪念365天】我的创作纪念日

过去的一年没有注意加入csdn已经有一年了。这几天翻看小猴儿的通知才发现时间来到了一年的纪念日。稍稍思索想要将这一段时间的学习到的知识以及偶然遇到的机遇做一下总结。上一次写纪念日是来到csdn128天的时候， 200天前我的学习状态是非常疯狂的。只记得我当时…...

编程日记 2024/11/27 9:32:22

Opencv+ROS实现颜色识别应用

目录一、工具二、原理概念本质三、实践添加发布话题主要代码四、成果五、总结一、工具 opencvros ubuntu18.04 摄像头二、原理概念彩色图像：RGB（红，绿，蓝） HSV图像：H&#xff0…...

编程日记 2024/11/27 9:31:21

蓝桥杯c++算法秒杀【6】之动态规划【下】（数字三角形、砝码称重(背包问题)、括号序列、异或三角：：：非常典型的必刷例题！！！）

别忘了请点个赞收藏关注支持一下博主喵！！！! ! ! ! ！ 关注博主，更多蓝桥杯nice题目静待更新:) 动态规划三、括号序列【问题描述】给定一个括号序列，要求尽可能少地添加若干括号使得括号序列变得合…...

编程日记 2024/11/27 9:30:20

NanoPC-T6开发板实战：手把手教你为RK3588编译并烧录Recovery镜像

NanoPC-T6开发板实战：从零构建RK3588 Recovery镜像的完整指南当你的NanoPC-T6开发板因系统崩溃变成"砖头"时，一个可靠的Recovery镜像就是救命稻草。本文将带你深入Rockchip RK3588平台的恢复系统构建全流程，从工具链准备到最终烧录…...

编程新知 2026/3/26 11:39:57

告别格式地狱：Paperxie 如何用智能排版让本科毕业论文一键通关

paperxie-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/AIPPThttps://www.paperxie.cn/format/typesettinghttps://www.paperxie.cn/format/typesetting 当毕业论文写到最后，你是否也陷入过这样的困境：明明内容已经打磨完成，却…...

编程新知 2026/3/26 11:15:46

Qwen3-0.6B-FP8企业级部署教程：基于Dify打造AI应用平台

Qwen3-0.6B-FP8企业级部署教程：基于Dify打造AI应用平台想快速搭建一个属于自己或团队的AI应用，但又觉得从零开发太复杂？今天，我们就来聊聊如何用Qwen3-0.6B-FP8这个轻量高效的模型，结合Dify这个强大的AI应用开发平台…...

编程新知 2026/3/26 11:07:38

Ansys SCDM高效建模技巧：从基础到进阶

1. 初识Ansys SCDM：工程师的3D建模利器第一次打开Ansys SpaceClaim Direct Modeler（简称SCDM）时，你可能会有种相见恨晚的感觉。这个被工程师们称为"几何手术刀"的软件，用起来比传统CAD软件顺手得多。我当年…...

编程新知 2026/3/26 10:07:12

【LeArm】从零玩转机械臂（一）：开箱、配网与基础控制实战

1. LeArm机械臂开箱初体验第一次拿到LeArm机械臂的包装箱时，明显能感受到厂家在包装上的用心。打开外层纸箱后，内部还有一层泡沫保护层，所有部件都被固定在定制泡沫槽位里，这种包装方式让我想起了高端电子产品的开箱体验。取出所…...

编程新知 2026/3/26 9:55:06

Java开发者晋升指南：集成Phi-3-vision构建AI面试题库与评估系统

Java开发者晋升指南：集成Phi-3-vision构建AI面试题库与评估系统 1. 技术招聘的痛点与AI解决方案技术面试官每天面临重复性劳动：根据JD设计题目、评估代码、写反馈。传统方式存在三大痛点： 题库更新慢：技术栈迭代快&#xff0c…...

编程新知 2026/3/26 9:30:53

STM32WU55蓝牙开发避坑指南：从官方例程到8通道肌电信号传输实战

STM32WU55蓝牙开发避坑指南：从官方例程到8通道肌电信号传输实战当肌电信号采集遇上低功耗蓝牙，工程师们往往面临一个尴尬的平衡：既要满足医疗级数据精度，又要兼顾穿戴设备的续航需求。STM32WU55系列以其双核架构和集成射频模块&a…...

编程新知 2026/3/26 9:12:46

内容解锁工具：突破付费墙限制的开源解决方案

内容解锁工具：突破付费墙限制的开源解决方案【免费下载链接】bypass-paywalls-chrome-clean 项目地址: https://gitcode.com/GitHub_Trending/by/bypass-paywalls-chrome-clean 在信息爆炸的数字时代，优质内容常被付费墙阻隔，形成信…...

编程新知 2026/3/26 7:22:20

高效判断点在多边形内的算法：Winding Number与Crossing Number的对比与实践

1. 为什么需要判断点在多边形内？ 判断一个点是否位于多边形内部是计算几何中的经典问题，这个看似简单的需求在实际开发中随处可见。比如地图应用中判断用户位置是否在某个行政区域内，游戏开发中检测子弹是否击中目标，CAD软件中确定…...

编程新知 2026/3/26 7:04:04

RAG不香了，ASMR把记忆准确率干到了99%

在AI领域，长期记忆一直是关键挑战。传统方法依赖向量数据库和嵌入技术，但在处理复杂、时序性的对话历史时往往力不从心。本文介绍的论文提出了一种名为ASMR（Agentic Search and Memory Retrieval）的新技术，在LongMemEv…...

编程新知 2026/3/26 6:21:35

摘要总结

假设性查询

相关文章：