当前位置：首页 > news >正文

基于Langchain的txt文本向量库搭建与检索

news 2025/10/19 17:50:33

这里的源码主要来自于Langchain-ChatGLM中的向量库部分，做了一些代码上的修改和封装，以适用于基于问题和包含数据库表描述的txt文件（文件名为库表名，文件内容为库表中的字段及描述）对数据库表进行快速检索。

中文分词类

splitter.py

from langchain.text_splitter import CharacterTextSplitter
import re
from typing import Listclass ChineseTextSplitter(CharacterTextSplitter):def __init__(self, pdf: bool = False, sentence_size: int = 100, **kwargs):super().__init__(**kwargs)self.pdf = pdfself.sentence_size = sentence_sizedef split_text1(self, text: str) -> List[str]:if self.pdf:text = re.sub(r"\n{3,}", "\n", text)text = re.sub('\s', ' ', text)text = text.replace("\n\n", "")sent_sep_pattern = re.compile('([﹒﹔﹖﹗。！？]["’”」』]{0,2}|(?=["‘“「『]{1,2}|$))')  # del ：；sent_list = []for ele in sent_sep_pattern.split(text):if sent_sep_pattern.match(ele) and sent_list:sent_list[-1] += eleelif ele:sent_list.append(ele)return sent_listdef split_text(self, text: str) -> List[str]:   ##此处需要进一步优化逻辑if self.pdf:text = re.sub(r"\n{3,}", r"\n", text)text = re.sub('\s', " ", text)text = re.sub("\n\n", "", text)text = re.sub(r'([;；!?。！？\?])([^”’])', r"\1\n\2", text)  # 单字符断句符text = re.sub(r'(\.{6})([^"’”」』])', r"\1\n\2", text)  # 英文省略号text = re.sub(r'(\…{2})([^"’”」』])', r"\1\n\2", text)  # 中文省略号text = re.sub(r'([;；!?。！？\?]["’”」』]{0,2})([^;；!?，。！？\?])', r'\1\n\2', text)# 如果双引号前有终止符，那么双引号才是句子的终点，把分句符\n放到双引号后，注意前面的几句都小心保留了双引号text = text.rstrip()  # 段尾如果有多余的\n就去掉它# 很多规则中会考虑分号;，但是这里我把它忽略不计，破折号、英文双引号等同样忽略，需要的再做些简单调整即可。ls = [i for i in text.split("\n") if i]for ele in ls:if len(ele) > self.sentence_size:ele1 = re.sub(r'([,，]["’”」』]{0,2})([^,，])', r'\1\n\2', ele)ele1_ls = ele1.split("\n")for ele_ele1 in ele1_ls:if len(ele_ele1) > self.sentence_size:ele_ele2 = re.sub(r'([\n]{1,}| {2,}["’”」』]{0,2})([^\s])', r'\1\n\2', ele_ele1)ele2_ls = ele_ele2.split("\n")for ele_ele2 in ele2_ls:if len(ele_ele2) > self.sentence_size:ele_ele3 = re.sub('( ["’”」』]{0,2})([^ ])', r'\1\n\2', ele_ele2)ele2_id = ele2_ls.index(ele_ele2)ele2_ls = ele2_ls[:ele2_id] + [i for i in ele_ele3.split("\n") if i] + ele2_ls[ele2_id + 1:]ele_id = ele1_ls.index(ele_ele1)ele1_ls = ele1_ls[:ele_id] + [i for i in ele2_ls if i] + ele1_ls[ele_id + 1:]id = ls.index(ele)ls = ls[:id] + [i for i in ele1_ls if i] + ls[id + 1:]return ls

faiss向量库类

myfaiss.py

from langchain.vectorstores import FAISS
from langchain.vectorstores.base import VectorStore
from langchain.vectorstores.faiss import dependable_faiss_import
from typing import Any, Callable, List, Dict
from langchain.docstore.base import Docstore
from langchain.docstore.document import Document
import numpy as np
import copy
import osclass MyFAISS(FAISS, VectorStore):def __init__(self,embedding_function: Callable,index: Any,docstore: Docstore,index_to_docstore_id: Dict[int, str],normalize_L2: bool = False,):super().__init__(embedding_function=embedding_function,index=index,docstore=docstore,index_to_docstore_id=index_to_docstore_id,normalize_L2=normalize_L2)def seperate_list(self, ls: List[int]) -> List[List[int]]:lists = []ls1 = [ls[0]]source1 = self.index_to_docstore_source(ls[0])for i in range(1, len(ls)):if ls[i - 1] + 1 == ls[i] and self.index_to_docstore_source(ls[i]) == source1:ls1.append(ls[i])else:lists.append(ls1)ls1 = [ls[i]]source1 = self.index_to_docstore_source(ls[i])lists.append(ls1)return listsdef similarity_search_with_score_by_vector(self, embedding: List[float], k: int = 4) -> List[Document]:faiss = dependable_faiss_import()# (1,1024)vector = np.array([embedding], dtype=np.float32)# 默认FALSEif self._normalize_L2:faiss.normalize_L2(vector)# shape均为(1, k)scores, indices = self.index.search(vector, k)docs = []id_set = set()# 存储关键句keysentences = []# 遍历找到的k个最近相关文档的索引# top-k是第一次的筛选条件，score是第二次的筛选条件for j, i in enumerate(indices[0]):if i in self.index_to_docstore_id:_id = self.index_to_docstore_id[i]# 执行接下来的操作else:continue# index→id→contentdoc = self.docstore.search(_id)doc.metadata["score"] = int(scores[0][j])docs.append(doc)# 其实存的都是indexid_set.add(i)docs.sort(key=lambda doc: doc.metadata['score'])return docs

嵌入检索类

embedder.py

from langchain.embeddings.huggingface import HuggingFaceEmbeddings
from langchain.document_loaders import TextLoader
from embeddings.splitter import ChineseTextSplitter
from embeddings.myfaiss import MyFAISS
import os
import torch
from config import *def torch_gc():if torch.cuda.is_available():# with torch.cuda.device(DEVICE):torch.cuda.empty_cache()torch.cuda.ipc_collect()elif torch.backends.mps.is_available():try:from torch.mps import empty_cacheempty_cache()except Exception as e:print(e)print("如果您使用的是 macOS 建议将 pytorch 版本升级至 2.0.0 或更高版本，以支持及时清理 torch 产生的内存占用。")class Embedder:def __init__(self, config):self.model = HuggingFaceEmbeddings(model_name="/home/df1500/NLP/LLM/pretrained_model/WordEmbeddings/"+config.emb_model,model_kwargs={'device': 'cuda'})self.config = configself.create_vector_score()self.vector_store = MyFAISS.load_local(self.config.db_vs_path, self.model)def load_file(self, filepath):# 对文件分词if filepath.lower().endswith(".txt"):loader = TextLoader(filepath, autodetect_encoding=True)textsplitter = ChineseTextSplitter(pdf=False, sentence_size=self.config.sentence_size)docs = loader.load_and_split(textsplitter)else:raise Exception("{}文件不是txt格式".format(filepath))return docsdef txt2vector_store(self, filepaths):# 批量建立知识库docs = []for filepath in filepaths:try:docs += self.load_file(filepath)except Exception as e:raise Exception("{}文件加载失败".format(filepath))print("文件加载完毕，正在生成向量库")vector_store = MyFAISS.from_documents(docs, self.model)torch_gc()vector_store.save_local(self.config.db_vs_path)def create_vector_score(self):if "index.faiss" not in os.listdir(self.config.db_vs_path):filepaths = os.listdir(self.config.db_doc_path)filepaths = [os.path.join(self.config.db_doc_path, filepath) for filepath in filepaths]self.txt2vector_store(filepaths)print("向量库已建立成功")def get_topk_db(self, query):related_dbs_with_score = self.vector_store.similarity_search_with_score(query, k=self.config.sim_k)topk_db = [{'匹配句': db_data.page_content, '数据库': os.path.basename(db_data.metadata['source'])[:-4], '得分': db_data.metadata['score']} for db_data in related_dbs_with_score]return topk_db

测试代码

Config是用来传参的类，这里略去定义

if __name__ == '__main__':Conf = Config()configs = Conf.get_config()embedder = Embedder(configs)query = "公司哪个月的出勤率是最高的？"topk_db = embedder.get_topk_db(query)print(topk_db)

基于Langchain的txt文本向量库搭建与检索

这里的源码主要来自于Langchain-ChatGLM中的向量库部分，做了一些代码上的修改和封装，以适用于基于问题和包含数据库表描述的txt文件（文件名为库表名，文件内容为库表中的字段及描述）对数据库表进行快速检索。中文分词…...

编程日记 2023/12/5 3:35:46

1.基础 1.1.安装 npm install vue-router3.6.5 1.2.引入 import VueRouter from "vue-router" 1.3.注册 Vue.use(VueRouter) 1.4.创建 const router new VueRouter({routes: [{path:/page1, page1},{path:/page2, page2}]} ) 1.5.引用 new Vue({render: h >…...

编程日记 2023/12/5 3:34:46

css新闻链接案例

利用html和css构建出新闻链接案例，使用渐变色做出背景色变化 background: linear-gradient(to bottom, rgb(137, 210, 251), rgb(238, 248, 254), white); 利用背景图片，调整位置完成 dd { height: 28px; line-height: 28px; background-image: url(./图…...

编程日记 2023/12/5 3:33:44

Android wifi连接和获取IP分析

wifi 连接&获取IP 流程图代码流程分析一、关联阶段 1. WifiSettings.submit – > WifiManager WifiSettings 干的事情比较简单，当在dialog完成ssid 以及密码填充后，直接call WifiManager save 即可WifiManager 收到Save 之后，就开…...

编程日记 2023/12/5 3:32:42

MLIR笔记（5）

4.3.4. 图区域在MLIR中，区域里类似图的语义由RegionKind::Graph来表示。对没有控制流的并发语义，以及通用有向图数据结构的建模，图区域是合适的。图区域适用于表示耦合值之间的循环关系，这些关系没有基本的序。例如，…...

编程日记 2023/12/5 3:31:42

abapgit 安装及使用

abapgit 需求 SA[ BASIS 版本 702 及以上版本查看路径如下： 安装步骤如下： 1. 下载abapgit 独立版本程序链接如下：raw.githubusercontent.com/abapGit/build/main/zabapgit_standalone.prog.abap 2.安装开发版本 2.1 在线安装前置条…...

编程日记 2023/12/5 3:29:40

园区无线覆盖方案（智慧园区综合解决方案）

李经理正苦恼头疼的工业园区数字化改造项目。近年企业快速增长,园区内Argent工业设备激增,IT部门应接不暇。为确保生产系统稳定运行,IT管理团队经过反复摸索,决定进行全面的数字化升级。然而改造之艰巨远超想象——混杂的接入环境、复杂的专线部署、长达数月的建设周期,种种…...

编程日记 2023/12/5 3:28:40

配置中心--Spring Cloud Config

目录概述环境说明步骤创建远端git仓库准备配置文件配置中心--服务端配置中心--客户端配置中心的高可用配置中心--服务端配置中心--客户端消息总线刷新配置配置中心--服务端配置中心--客户端概述因为微服务架构有很多个服务，手动一个一…...

编程日记 2023/12/5 3:27:38

笔记-模拟角频率和数字角频率的关系理解

先建议阅读前人此文（点击这里），有助于理解。模拟频率：f 模拟角频率：Ω 数字角频率：ω 其中：在模拟信号中Ω 2πf 正弦波表示：sin(2πft) sin(Ωt) 数字信号就是离散的&#xff…...

编程日记 2023/12/5 3:24:36

Zookeeper+Kafka集群

注：本章使用的Kafka为2.7.0版本 Zookeeper概述 1.Zookeeper定义 Zookeeper是一个开源的分布式的，为分布式框架提供协调服务的Apache项目。 2.Zookeeper工作机制 Zookeeper从设计模式角度来理解：是一个基于观察者模式设计的分布式服务管理…...

编程日记 2023/12/5 3:22:34

Sunshine+Moonlight+Android手机串流配置（局域网、无手柄）

目录前言Sunshine（服务端）ApplicationConfigurationGeneralAdvance Moonlight（客户端）配对打开虚拟手柄串流按键调整退出串流原神，启动！ 前言写这篇文章单纯是因为搜来搜去没有很符合我需求的教程&#…...

编程日记 2023/12/5 3:21:34

从顺序表中删除具有最小值的元素(假设唯一) 并由函数返回被删元素的值。空出的位置由最后一个元素填补，若顺序表为空，则显示出错信息并退出运行。

题目描述：从顺序表中删除具有最小值的元素(假设唯一) 并由函数返回被删元素的值。空出的位置由最后一个元素填补，若顺序表为空，则显示出错信息并退出运行。 bool DeleteMin(SqList &L,int &min){if(L.length 0)return false;min L…...

编程日记 2023/12/5 3:19:32

详解—[C++ 数据结构]—AVL树

目录一.AVL树的概念二、AVL树节点的定义三、AVL树的插入 3.1插入方法四、AVL树的旋转 1. 新节点插入较高左子树的左侧---左左：右单旋 2. 新节点插入较高右子树的右侧---右右：左单旋 3.新节点插入较高左子树的右侧---左右：先左单旋…...

编程日记 2023/12/5 3:18:31

卷积神经网络（CNN）：乳腺癌识别.ipynb

文章目录一、前言一、设置GPU二、导入数据1. 导入数据2. 检查数据3. 配置数据集4. 数据可视化三、构建模型四、编译五、训练模型六、评估模型1. Accuracy与Loss图2. 混淆矩阵3. 各项指标评估一、前言我的环境： 语言环境：Python3.6.5编译器&#xf…...

编程日记 2023/12/5 3:16:29

有文件实体的后门无文件实体的后门rootkit后门

有文件实体后门和无文件实体后门&RootKit后门什么是有文件的实体后门： 在传统的webshell当中，后门代码都是可以精确定位到某一个文件上去的，你可以rm删除它，可以鼠标右键操作它，它是有一个文件实体对象存在的。…...

编程日记 2023/12/5 3:15:28

GPT实战系列-大模型训练和预测，如何加速、降低显存

GPT实战系列-大模型训练和预测，如何加速、降低显存不做特别处理，深度学习默认参数精度为浮点32位精度（FP32）。大模型参数庞大，10-1000B级别，如果不注意优化，既耗费大量的显卡资源，…...

编程日记 2023/12/5 3:13:26

SQL Sever 基础知识 - 数据排序

SQL Sever 基础知识 - 二、数据排序二、对数据进行排序第1节 ORDER BY 子句简介第2节 ORDER BY 子句示例2.1 按一列升序对结果集进行排序2.2 按一列降序对结果集进行排序2.3 按多列对结果集排序2.4 按多列对结果集不同排序2.5 按不在选择列表中的列对结果集进行排序2.6 按表…...

编程日记 2023/12/5 3:12:25

vscode配置使用 cpplint

标题安装clang-format和cpplint sudo apt-get install clang-format sudo pip3 install cpplint标题以下settings.json文件放置xxx/Code/User目录 settings.json {"sync.forceDownload": false,"workbench.sideBar.location": "right","…...

编程日记 2023/12/5 3:11:23

C++ 系列第四篇 C++ 数据类型上篇—基本类型

系列文章 C 系列前篇为什么学习C 及学习计划-CSDN博客 C 系列第一篇开发环境搭建（WSL 方向）-CSDN博客 C 系列第二篇你真的了解C吗？本篇带你走进C的世界-CSDN博客 C 系列第三篇 C程序的基本结构-CSDN博客前言面向对象编程(OOP)的…...

编程日记 2023/12/5 3:09:22

C++ 指针详解

目录一、指针概述指针的定义指针的大小指针的解引用野指针指针未初始化指针越界访问指针运算二级指针指针与数组二、字符指针三、指针数组四、数组指针函数指针函数指针数组指向函数指针数组的指针回调函数指针与数组一维数组字符数组…...

编程日记 2023/12/5 3:08:21

KubeSphere 容器平台高可用：环境搭建与可视化操作指南

Linux_k8s篇欢迎来到Linux的世界，看笔记好好学多敲多打，每个人都是大神！ 题目：KubeSphere 容器平台高可用：环境搭建与可视化操作指南版本号: 1.0,0 作者: 老王要学习日期: 2025.06.05 适用环境: Ubuntu22 文档说…...

编程新知 2025/10/19 11:51:44

汽车生产虚拟实训中的技能提升与生产优化

在制造业蓬勃发展的大背景下，虚拟教学实训宛如一颗璀璨的新星，正发挥着不可或缺且日益凸显的关键作用，源源不断地为企业的稳健前行与创新发展注入磅礴强大的动力。就以汽车制造企业这一极具代表性的行业主体为例，汽车生产线上各类…...

编程新知 2025/10/16 1:32:29

华为OD机试-食堂供餐-二分法

import java.util.Arrays; import java.util.Scanner;public class DemoTest3 {public static void main(String[] args) {Scanner in new Scanner(System.in);// 注意 hasNext 和 hasNextLine 的区别while (in.hasNextLine()) { // 注意 while 处理多个 caseint a in.nextIn…...

编程新知 2025/9/28 20:25:11

镜像里切换为普通用户

如果你登录远程虚拟机默认就是 root 用户，但你不希望用 root 权限运行 ns-3（这是对的，ns3 工具会拒绝 root），你可以按以下方法创建一个非 root 用户账号并切换到它运行 ns-3。一次性解决方案：创建非 roo…...

编程新知 2025/9/11 11:00:29

DIY｜Mac 搭建 ESP-IDF 开发环境及编译小智 AI

前一阵子在百度 AI 开发者大会上，看到基于小智 AI DIY 玩具的演示，感觉有点意思，想着自己也来试试。如果只是想烧录现成的固件，乐鑫官方除了提供了 Windows 版本的 Flash 下载工具之外，还提供了基于网页版的 ESP LA…...

编程新知 2025/10/14 22:48:53

ios苹果系统，js 滑动屏幕、锚定无效

现象：window.addEventListener监听touch无效，划不动屏幕，但是代码逻辑都有执行到。 scrollIntoView也无效。原因：这是因为 iOS 的触摸事件处理机制和 touch-action: none 的设置有关。ios有太多得交互动作，从而会影响…...

编程新知 2025/10/15 6:59:40

Rapidio门铃消息FIFO溢出机制

关于RapidIO门铃消息FIFO的溢出机制及其与中断抖动的关系，以下是深入解析： 门铃FIFO溢出的本质在RapidIO系统中，门铃消息FIFO是硬件控制器内部的缓冲区，用于临时存储接收到的门铃消息（Doorbell Message）。…...

编程新知 2025/9/12 21:09:32

Maven 概述、安装、配置、仓库、私服详解

目录 1、Maven 概述 1.1 Maven 的定义 1.2 Maven 解决的问题 1.3 Maven 的核心特性与优势 2、Maven 安装 2.1 下载 Maven 2.2 安装配置 Maven 2.3 测试安装 2.4 修改 Maven 本地仓库的默认路径 3、Maven 配置 3.1 配置本地仓库 3.2 配置 JDK 3.3 IDEA 配置本地 Ma…...

编程新知 2025/10/15 18:04:13

技术栈RabbitMq的介绍和使用

目录 1. 什么是消息队列？2. 消息队列的优点3. RabbitMQ 消息队列概述4. RabbitMQ 安装5. Exchange 四种类型5.1 direct 精准匹配5.2 fanout 广播5.3 topic 正则匹配 6. RabbitMQ 队列模式6.1 简单队列模式6.2 工作队列模式6.3 发布/订阅模式6.4 路由模式6.5 主题模式…...

编程新知 2025/10/18 23:26:41

根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的----NTFS源代码分析--重要

根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的第一部分： 0: kd> g Breakpoint 9 hit Ntfs!ReadIndexBuffer: f7173886 55 push ebp 0: kd> kc # 00 Ntfs!ReadIndexBuffer 01 Ntfs!FindFirstIndexEntry 02 Ntfs!NtfsUpda…...

编程新知 2025/8/27 0:09:05

基于Langchain的txt文本向量库搭建与检索

中文分词类

faiss向量库类

嵌入检索类

测试代码

相关文章：

基于Langchain的txt文本向量库搭建与检索

vue2-router

css新闻链接案例

Android wifi连接和获取IP分析

MLIR笔记（5）

abapgit 安装及使用

园区无线覆盖方案（智慧园区综合解决方案）

配置中心--Spring Cloud Config

笔记-模拟角频率和数字角频率的关系理解

Zookeeper+Kafka集群

Sunshine+Moonlight+Android手机串流配置（局域网、无手柄）

从顺序表中删除具有最小值的元素(假设唯一) 并由函数返回被删元素的值。空出的位置由最后一个元素填补，若顺序表为空，则显示出错信息并退出运行。

详解—[C++ 数据结构]—AVL树

卷积神经网络（CNN）：乳腺癌识别.ipynb

有文件实体的后门无文件实体的后门rootkit后门

GPT实战系列-大模型训练和预测，如何加速、降低显存

SQL Sever 基础知识 - 数据排序

vscode配置使用 cpplint

C++ 系列第四篇 C++ 数据类型上篇—基本类型

C++ 指针详解

KubeSphere 容器平台高可用：环境搭建与可视化操作指南

汽车生产虚拟实训中的技能提升与生产优化

华为OD机试-食堂供餐-二分法

镜像里切换为普通用户

DIY｜Mac 搭建 ESP-IDF 开发环境及编译小智 AI

ios苹果系统，js 滑动屏幕、锚定无效

Rapidio门铃消息FIFO溢出机制

Maven 概述、安装、配置、仓库、私服详解

技术栈RabbitMq的介绍和使用

根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的----NTFS源代码分析--重要