当前位置：首页 > news >正文

llm学习-3（向量数据库的使用）

news 2026/2/8 12:34:28

1：数据读取和加载

接着上面的常规操作

加载环境变量---》获取所有路径---》加载文档---》切分文档

代码如下：

import os
from dotenv import load_dotenv, find_dotenvload_dotenv(find_dotenv()) # 获取folder_path下所有文件路径，储存在file_paths里
file_paths = []
folder_path = './llm-universe/data_base/knowledge_db'
for root, dirs, files in os.walk(folder_path):# print('*'*50)# print('root:', root)# print('dirs:', dirs)# print('files:', files)# print('*'*50)for file in files:file_path = os.path.join(root, file)file_paths.append(file_path)
print('*'*50)
print('file_paths：', file_paths)from langchain.document_loaders.pdf import PyMuPDFLoader
from langchain.document_loaders.markdown import UnstructuredMarkdownLoader# 遍历文件路径并把实例化的loader存放在loaders里
loaders = []for file_path in file_paths:# 按照后缀对文件进行读取file_type = file_path.split('.')[-1]if file_type == 'pdf':loaders.append(PyMuPDFLoader(file_path))elif file_type == 'md':loaders.append(UnstructuredMarkdownLoader(file_path))# 加载文件并存储到text
texts = []
for loader in loaders: texts.extend(loader.load())
'''
载入后的变量类型为langchain_core.documents.base.Document, 文档变量类型同样包含两个属性
page_content 包含该文档的内容。
meta_data 为文档相关的描述性数据。
'''
text = texts[1]
# print(f"每一个元素的类型：{type(text)}.", 
#     f"该文档的描述性数据：{text.metadata}", 
#     f"查看该文档的内容:\n{text.page_content[0:]}", 
#     sep="\n------\n")from langchain.text_splitter import RecursiveCharacterTextSplitter# 切分文档
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
print('text_splitter_type:',  type(text_splitter))
split_docs = text_splitter.split_documents(texts)
print('split_docs_type:', type(split_docs))
print('split_docs长度：', len(split_docs))
print('split_docs[0]:', split_docs[0])

2：加载词向量模型和向量数据库

# 定义持久化路径
persist_directory = './vector_db_test/'# 删除旧的数据库文件（如果文件夹中有文件的话），windows电脑请手动删除  !rm -rf '../../data_base/vector_db/chroma'#加载chroma
from langchain.vectorstores.chroma import Chromavectordb = Chroma.from_documents(documents=split_docs[:5], # 为了速度，只选择前 20 个切分的 doc 进行生成；使用千帆时因QPS限制，建议选择前 5 个docembedding=embedding,persist_directory=persist_directory  # 允许我们将persist_directory目录保存到磁盘上
)#存储向量数据库
vectordb.persist()
print(f"向量库中存储的数量：{vectordb._collection.count()}")

在加载chroma的时候如果本身有向量数据库可能会产生错误：

Traceback (most recent call last):File "/workspaces/test_codespace/createVectordb.py", line 94, in <module>vectordb = Chroma.from_documents(File "/opt/conda/envs/zyx_llm/lib/python3.10/site-packages/langchain_community/vectorstores/chroma.py", line 778, in from_documentsreturn cls.from_texts(File "/opt/conda/envs/zyx_llm/lib/python3.10/site-packages/langchain_community/vectorstores/chroma.py", line 736, in from_textschroma_collection.add_texts(File "/opt/conda/envs/zyx_llm/lib/python3.10/site-packages/langchain_community/vectorstores/chroma.py", line 297, in add_textsself._collection.upsert(File "/opt/conda/envs/zyx_llm/lib/python3.10/site-packages/chromadb/api/models/Collection.py", line 299, in upsertself._client._upsert(File "/opt/conda/envs/zyx_llm/lib/python3.10/site-packages/chromadb/api/segment.py", line 352, in _upsertself._validate_embedding_record(coll, r)File "/opt/conda/envs/zyx_llm/lib/python3.10/site-packages/chromadb/api/segment.py", line 633, in _validate_embedding_recordself._validate_dimension(collection, len(record["embedding"]), update=True)File "/opt/conda/envs/zyx_llm/lib/python3.10/site-packages/chromadb/api/segment.py", line 648, in _validate_dimensionraise InvalidDimensionException(
chromadb.errors.InvalidDimensionException: Embedding dimension 384 does not match collection dimensionality 1024

这个就是因为你没有把之前的删除干净，解决方法就是要么删除原来的，要么重新开一个路径

3：向量检索

（1）：相似度检索

Chroma的相似度搜索使用的是余弦距离，即：下面博客里面有相似度计算的向量数据库相关知识（搬运学习，建议还是看原文，这个只是我自己的学习记录）-CSDN博客

当你需要数据库返回严谨的按余弦相似度排序的结果时可以使用similarity_search函数。

（2）：最大边际相关性 (`MMR, Maximum marginal relevance`) 检索

如果只考虑检索出内容的相关性会导致内容过于单一，可能丢失重要信息。

最大边际相关性 (MMR, Maximum marginal relevance) 可以帮助我们在保持相关性的同时，增加内容的丰富度。

核心思想是在已经选择了一个相关性高的文档之后，再选择一个与已选文档相关性较低但是信息丰富的文档。这样可以在保持相关性的同时，增加内容的多样性，避免过于单一的结果。

参考：最大边界相关算法MMR(Maximal Marginal Relevance) 实践-CSDN博客

两个检索的代码：

#向量检索
######相似度检索
question="什么是大语言模型"
# 按余弦相似度排序的结果
sim_docs = vectordb.similarity_search(question,k=3)
print(f"检索到的内容数：{len(sim_docs)}")
for i, sim_doc in enumerate(sim_docs):print(f"检索到的第{i}个内容: \n{sim_doc.page_content[:200]}", end="\n--------------\n")#######MMR检索
mmr_docs = vectordb.max_marginal_relevance_search(question,k=3)
for i, sim_doc in enumerate(mmr_docs):print(f"MMR 检索到的第{i}个内容: \n{sim_doc.page_content[:200]}", end="\n--------------\n")

llm学习-3（向量数据库的使用）

1：数据读取和加载接着上面的常规操作加载环境变量---》获取所有路径---》加载文档---》切分文档代码如下： import os from dotenv import load_dotenv, find_dotenvload_dotenv(find_dotenv()) # 获取folder_path下所有文件路径，储存在…...

编程日记 2024/7/3 20:43:40

【01-02】Mybatis的配置文件与基于XML的使用

1、引入日志在这里我们引入SLF4J的日志门面，使用logback的具体日志实现；引入相关依赖： <dependency><groupId>org.slf4j</groupId><artifactId>slf4j-api</artifactId><version&g…...

编程日记 2024/7/3 20:41:38

Linux-进程间通信（IPC）

进程间通信（IPC）介绍进程间通信（IPC，InterProcess Communication）是指在不同的进程之间传播或交换信息。IPC 的方式包括管道（无名管道和命名管道）、消息队列、信号量、共享内存、Socket、Stre…...

编程日记 2024/7/3 20:39:37

C++ STL: std::vector与std::array的深入对比

什么是 std::vector 和 std::array 首先，让我们简要介绍一下这两种容器： • std::vector：一个动态数组，可以根据需要动态调整其大小。 • std::array：一个固定大小的数组，其大小在编译时确定。虽然…...

编程日记 2024/7/3 20:37:35

哈哈看到这条消息感觉就像是打开了窗户

在这个信息爆炸的时代，每一条动态可能成为我们情绪的小小触发器。今天，当我无意间滑过那条由杜海涛亲自发布的“自曝式”消息时，不禁心头一颤——如果这是我的另一半，哎呀，那画面，简直比烧烤摊还要“热辣”…...

编程日记 2024/7/3 20:36:34

10、matlab中字符、数字、矩阵、字符串和元胞合并为字符串并将字符串以不同格式写入读出excel

1、前言在 MATLAB 中，可以使用不同的数据类型（字符、数字、矩阵、字符串和元胞）合并为字符串，然后将字符串以不同格式写入 Excel 文件。以下是一个示例代码，展示如何将不同数据类型合并为字符串，并以不…...

编程日记 2024/7/3 20:33:31

如何正确面对GPT-5技术突破

随着人工智能技术的快速发展，预训练语言模型在自然语言处理领域取得了显著的成果。其中，GPT系列模型作为代表之一，受到了广泛关注。2023年，GPT-5模型的发布引起了业界的热烈讨论。本文将从以下几个方面分析GPT-5的发布及其对人工智…...

编程日记 2024/7/3 20:32:30

HarmonyOS ArkUi 官网踩坑：单独隐藏导航条无效

环境： 手机：Mate 60 Next版本： NEXT.0.0.26 导航条介绍导航条官网设计指南 setSpecificSystemBarEnabled 设置实际效果： navigationIndicator：隐藏导航条无效status：会把导航条和状态栏都隐藏官方…...

编程日记 2024/7/3 20:31:29

两种方法选其一即可一、后端koa设置中间件 app.use(async (ctx, next)> {ctx.set(Access-Control-Allow-Origin, *);ctx.set(Access-Control-Allow-Headers, Content-Type, Content-Length, Authorization, Accept, X-Requested-With , yourHeaderFeild);ctx.set(Access-C…...

编程日记 2024/7/3 20:30:28

echarts实现3D柱状图(视觉层面)

一、第一种效果效果图使用步骤完整实例，copy就可直接使用 <template><div :class"className" :style"{height:height,width:width}" /> </template><script>import echarts from echartsrequire(echarts/theme/…...

编程日记 2024/7/3 20:29:27

K8S集群进行分布式负载测试

使用K8S集群执行分布式负载测试本教程介绍如何使用Kubernetes部署分布式负载测试框架，该框架使用分布式部署的locust 产生压测流量，对一个部署到 K8S集群的 Web 应用执行负载测试，该 Web 应用公开了 REST 格式的端点，以响应传入…...

编程日记 2024/7/3 20:28:26

20.《C语言》——【移位操作符】

🌹开场语亲爱的读者，大家好！我是一名正在学习编程的高校生。在这个博客里，我将和大家一起探讨编程技巧、分享实用工具，并交流学习心得。希望通过我的博客，你能学到有用的知识，提高自己的技能&a…...

编程日记 2024/7/3 20:25:23

你想活出怎样的人生？

hi~好久不见，距离上次发文隔了有段时间了，这段时间，我是裸辞去感受了一下前端市场的水深火热，那么这次咱们不聊技术，就说一说最近这段时间的经历和一些感触吧。先说一下自己的个人情况，目前做前端四年&am…...

编程日记 2024/7/3 20:23:21

py黑帽子学习笔记_burp

配置burp kali虚机默认装好了社区版burp和java，其他os需要手动装 burp是用java，还得下载一个jython包，供burp用配apt国内源，然后apt install jython --download-only，会只下载包而不安装，下载的目录搜一…...

编程日记 2024/7/3 20:22:20

selenium，在元素块下查找条件元素

def get_norms_ele_text(self):elementsself.get_norms_elements()locBy.CSS_SELECTOR,"div.sku-select-row-label"by loc[0] # 获取By类型，例如By.CSS_SELECTORvalue loc[1] # 获取具体的CSS选择器字符串，例如"div.sku-select-row-l…...

编程日记 2024/7/3 20:21:19

认识String类

文章目录 String类字符串的遍历字符串的比较字符串的替换字符串的转换字符串的切割字符串的切片字符串的查找总结 String类在C语言中已经涉及到字符串了，但是在C语言中要表示字符串只能使用字符数组或者字符指针，可以使用标准库提供的字符串系列函数完…...

编程日记 2024/7/3 20:20:18

计算机图形学入门23：蒙特卡洛路径追踪

1.前言前面几篇文章介绍了Whitted-style光线追踪，还介绍了基于物理渲染的基础知识，包括辐射度量学、BRDF以及渲染方程，但并没有给出解渲染方程的方法，或者说如何通过该渲染方程计算出屏幕上每一个坐标的像素值。 Whitted-style光…...

编程日记 2024/7/3 20:19:17

探索 TensorFlow 模型的秘密：TensorBoard 详解与实战

简介 TensorBoard 是 TensorFlow 提供的可视化工具，帮助开发者监控和调试机器学习模型。它提供了多种功能，包括查看损失和精度曲线、可视化计算图、检查数据分布等。下面将介绍如何使用 TensorBoard。 1. 安装 TensorBoard 如果尚未安装 TensorBoard&…...

编程日记 2024/7/3 20:17:13

yolov8obb角度预测原理解析

预测头 ultralytics/nn/modules/head.py class OBB(Detect):"""YOLOv8 OBB detection head for detection with rotation models."""def __init__(self, nc80, ne1, ch()):"""Initialize OBB with number of classes nc and la…...

编程日记 2024/7/3 20:16:12

CICD之Git版本管理及基本应用

CICD:持续集成,持续交付--让对应的资料,对应的项目流程更加规范--提高效率 CICD 有很多的工具 GIT就是其中之一 1.版本控制概念与环境搭建 GIT的概念: Git是一款分布式源代码管理工具(版本控制工具) ,一个协同的工具。 Git得其数据更像是一系列微型文件系统的快照。使用Git&am…...

编程日记 2024/7/3 20:12:08

wordpress后台更新后前端没变化的解决方法

使用siteground主机的wordpress网站，会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后，网站没有变化的情况。不熟悉siteground主机的新手，遇到这个问题，就很抓狂，明明是哪都没操作错误&#x…...

编程新知 2026/2/7 23:18:37

CMake基础：构建流程详解

目录 1.CMake构建过程的基本流程 2.CMake构建的具体步骤 2.1.创建构建目录 2.2.使用 CMake 生成构建文件 2.3.编译和构建 2.4.清理构建文件 2.5.重新配置和构建 3.跨平台构建示例 4.工具链与交叉编译 5.CMake构建后的项目结构解析 5.1.CMake构建后的目录结构 5.2.构…...

编程新知 2026/2/2 7:39:34

【解密LSTM、GRU如何解决传统RNN梯度消失问题】

解密LSTM与GRU：如何让RNN变得更聪明？ 在深度学习的世界里，循环神经网络（RNN）以其卓越的序列数据处理能力广泛应用于自然语言处理、时间序列预测等领域。然而，传统RNN存在的一个严重问题——梯度消失&#…...

编程新知 2025/12/24 1:45:14

Nuxt.js 中的路由配置详解

Nuxt.js 通过其内置的路由系统简化了应用的路由配置，使得开发者可以轻松地管理页面导航和 URL 结构。路由配置主要涉及页面组件的组织、动态路由的设置以及路由元信息的配置。自动路由生成 Nuxt.js 会根据 pages 目录下的文件结构自动生成路由配置。每个文件都会对…...

编程新知 2026/2/6 16:52:42

什么是EULA和DPA

文章目录 EULA（End User License Agreement）DPA（Data Protection Agreement）一、定义与背景二、核心内容三、法律效力与责任四、实际应用与意义 EULA（End User License Agreement） 定义： EULA即…...

编程新知 2025/10/18 7:13:10

【RockeMQ】第2节｜RocketMQ快速实战以及核⼼概念详解（二）

升级Dledger高可用集群一、主从架构的不足与Dledger的定位主从架构缺陷数据备份依赖Slave节点，但无自动故障转移能力，Master宕机后需人工切换，期间消息可能无法读取。Slave仅存储数据，无法主动升级为Master响应请求&#xff…...

编程新知 2025/9/2 3:37:40

JVM暂停（Stop-The-World，STW）的原因分类及对应排查方案

JVM暂停（Stop-The-World，STW）的完整原因分类及对应排查方案，结合JVM运行机制和常见故障场景整理而成：一、GC相关暂停 1. 安全点（Safepoint）阻塞现象：JVM暂停但无GC日志，日志显示No GCs detected。原因：JVM等待所有线程进入安全点（如…...

编程新知 2026/2/7 11:25:15

pikachu靶场通关笔记22-1 SQL注入05-1-insert注入(报错法)

目录一、SQL注入二、insert注入三、报错型注入四、updatexml函数五、源码审计六、insert渗透实战 1、渗透准备 2、获取数据库名database 3、获取表名table 4、获取列名column 5、获取字段本系列为通过《pikachu靶场通关笔记》的SQL注入关卡(共10关&#xff0…...

编程新知 2026/2/5 2:28:27

DeepSeek 技术赋能无人农场协同作业：用 AI 重构农田管理 “神经网”

目录一、引言二、DeepSeek 技术大揭秘2.1 核心架构解析2.2 关键技术剖析三、智能农业无人农场协同作业现状3.1 发展现状概述3.2 协同作业模式介绍四、DeepSeek 的 “农场奇妙游”4.1 数据处理与分析4.2 作物生长监测与预测4.3 病虫害防治4.4 农机协同作业调度五、实际案例大…...

编程新知 2025/9/24 13:35:36

SAP学习笔记 - 开发26 - 前端Fiori开发 OData V2 和 V4 的差异 (Deepseek整理）

上一章用到了V2 的概念，其实 Fiori当中还有 V4，咱们这一章来总结一下 V2 和 V4。 SAP学习笔记 - 开发25 - 前端Fiori开发 Remote OData Service(使用远端Odata服务)，代理中间件（ui5-middleware-simpleproxy）-CSDN博客…...

编程新知 2026/2/3 8:20:06

llm学习-3（向量数据库的使用）

1：数据读取和加载

2：加载词向量模型和向量数据库

3：向量检索

（1）：相似度检索

（2）：最大边际相关性 (`MMR, Maximum marginal relevance`) 检索

相关文章：

llm学习-3（向量数据库的使用）

【01-02】Mybatis的配置文件与基于XML的使用

Linux-进程间通信（IPC）

C++ STL: std::vector与std::array的深入对比

哈哈看到这条消息感觉就像是打开了窗户

10、matlab中字符、数字、矩阵、字符串和元胞合并为字符串并将字符串以不同格式写入读出excel

如何正确面对GPT-5技术突破

HarmonyOS ArkUi 官网踩坑：单独隐藏导航条无效

解决跨域问题（vite、axios/koa）

echarts实现3D柱状图(视觉层面)

K8S集群进行分布式负载测试

20.《C语言》——【移位操作符】

你想活出怎样的人生？

py黑帽子学习笔记_burp

selenium，在元素块下查找条件元素

认识String类

计算机图形学入门23：蒙特卡洛路径追踪

探索 TensorFlow 模型的秘密：TensorBoard 详解与实战

yolov8obb角度预测原理解析

CICD之Git版本管理及基本应用

wordpress后台更新后前端没变化的解决方法

CMake基础：构建流程详解

【解密LSTM、GRU如何解决传统RNN梯度消失问题】

Nuxt.js 中的路由配置详解

什么是EULA和DPA

【RockeMQ】第2节｜RocketMQ快速实战以及核⼼概念详解（二）

JVM暂停（Stop-The-World，STW）的原因分类及对应排查方案

pikachu靶场通关笔记22-1 SQL注入05-1-insert注入(报错法)

DeepSeek 技术赋能无人农场协同作业：用 AI 重构农田管理 “神经网”

SAP学习笔记 - 开发26 - 前端Fiori开发 OData V2 和 V4 的差异 (Deepseek整理）

1：数据读取和加载

2：加载词向量模型和向量数据库

3：向量检索

（1）：相似度检索

（2）：最大边际相关性 (MMR, Maximum marginal relevance) 检索

相关文章：

（2）：最大边际相关性 (`MMR, Maximum marginal relevance`) 检索