当前位置：首页 > news >正文

LLM之基于llama-index部署本地embedding与GLM-4模型并初步搭建RAG（其他大模型也可，附上ollma方式运行）

news 文章来源：https://blog.csdn.net/weixin_44598554/article/details/141357018 2025/2/7 14:52:05

前言

日常没空，留着以后写

llama-index简介

官网：https://docs.llamaindex.ai/en/stable/

简介也没空，以后再写

注：先说明，随着官方的变动，代码也可能变动，大家运行不起来，可以进官网查查资料

加载本地embedding模型

如果没有找到 llama_index.embeddings.huggingface

那么：pip install llama_index-embeddings-huggingface

还不行进入官网，输入huggingface进行搜索

from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.core import SettingsSettings.embed_model = HuggingFaceEmbedding(model_name=f"{embed_model_path}",device='cuda')

加载本地LLM模型

还是那句话，如果以下代码不行，进官网搜索Custom LLM Model

from llama_index.core.llms import (CustomLLM,CompletionResponse,CompletionResponseGen,LLMMetadata,
)
from llama_index.core.llms.callbacks import llm_completion_callback
from transformers import AutoTokenizer, AutoModelForCausalLMclass GLMCustomLLM(CustomLLM):context_window: int = 8192  # 上下文窗口大小num_output: int = 8000  # 输出的token数量model_name: str = "glm-4-9b-chat"  # 模型名称tokenizer: object = None  # 分词器model: object = None  # 模型dummy_response: str = "My response"def __init__(self, pretrained_model_name_or_path):super().__init__()# GPU方式加载模型self.tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path, device_map="cuda", trust_remote_code=True)self.model = AutoModelForCausalLM.from_pretrained(pretrained_model_name_or_path, device_map="cuda", trust_remote_code=True).eval()# CPU方式加载模型# self.tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path, device_map="cpu", trust_remote_code=True)# self.model = AutoModelForCausalLM.from_pretrained(pretrained_model_name_or_path, device_map="cpu", trust_remote_code=True)self.model = self.model.float()@propertydef metadata(self) -> LLMMetadata:"""Get LLM metadata."""# 得到LLM的元数据return LLMMetadata(context_window=self.context_window,num_output=self.num_output,model_name=self.model_name,)# @llm_completion_callback()# def complete(self, prompt: str, **kwargs: Any) -> CompletionResponse:#     return CompletionResponse(text=self.dummy_response)## @llm_completion_callback()# def stream_complete(#     self, prompt: str, **kwargs: Any# ) -> CompletionResponseGen:#     response = ""#     for token in self.dummy_response:#         response += token#         yield CompletionResponse(text=response, delta=token)@llm_completion_callback()  # 回调函数def complete(self, prompt: str, **kwargs: Any) -> CompletionResponse:# 完成函数print("完成函数")inputs = self.tokenizer.encode(prompt, return_tensors='pt').cuda()  # GPU方式# inputs = self.tokenizer.encode(prompt, return_tensors='pt')  # CPU方式outputs = self.model.generate(inputs, max_length=self.num_output)response = self.tokenizer.decode(outputs[0])return CompletionResponse(text=response)@llm_completion_callback()def stream_complete(self, prompt: str, **kwargs: Any) -> CompletionResponseGen:# 流式完成函数print("流式完成函数")inputs = self.tokenizer.encode(prompt, return_tensors='pt').cuda()  # GPU方式# inputs = self.tokenizer.encode(prompt, return_tensors='pt')  # CPU方式outputs = self.model.generate(inputs, max_length=self.num_output)response = self.tokenizer.decode(outputs[0])for token in response:yield CompletionResponse(text=token, delta=token)

基于本地模型搭建简易RAG

from typing import Anyfrom llama_index.core.llms import (CustomLLM,CompletionResponse,CompletionResponseGen,LLMMetadata,
)
from llama_index.core.llms.callbacks import llm_completion_callback
from transformers import AutoTokenizer, AutoModelForCausalLM
from llama_index.core import Settings,VectorStoreIndex,SimpleDirectoryReader
from llama_index.embeddings.huggingface import HuggingFaceEmbeddingclass GLMCustomLLM(CustomLLM):context_window: int = 8192  # 上下文窗口大小num_output: int = 8000  # 输出的token数量model_name: str = "glm-4-9b-chat"  # 模型名称tokenizer: object = None  # 分词器model: object = None  # 模型dummy_response: str = "My response"def __init__(self, pretrained_model_name_or_path):super().__init__()# GPU方式加载模型self.tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path, device_map="cuda", trust_remote_code=True)self.model = AutoModelForCausalLM.from_pretrained(pretrained_model_name_or_path, device_map="cuda", trust_remote_code=True).eval()# CPU方式加载模型# self.tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path, device_map="cpu", trust_remote_code=True)# self.model = AutoModelForCausalLM.from_pretrained(pretrained_model_name_or_path, device_map="cpu", trust_remote_code=True)self.model = self.model.float()@propertydef metadata(self) -> LLMMetadata:"""Get LLM metadata."""# 得到LLM的元数据return LLMMetadata(context_window=self.context_window,num_output=self.num_output,model_name=self.model_name,)# @llm_completion_callback()# def complete(self, prompt: str, **kwargs: Any) -> CompletionResponse:#     return CompletionResponse(text=self.dummy_response)## @llm_completion_callback()# def stream_complete(#     self, prompt: str, **kwargs: Any# ) -> CompletionResponseGen:#     response = ""#     for token in self.dummy_response:#         response += token#         yield CompletionResponse(text=response, delta=token)@llm_completion_callback()  # 回调函数def complete(self, prompt: str, **kwargs: Any) -> CompletionResponse:# 完成函数print("完成函数")inputs = self.tokenizer.encode(prompt, return_tensors='pt').cuda()  # GPU方式# inputs = self.tokenizer.encode(prompt, return_tensors='pt')  # CPU方式outputs = self.model.generate(inputs, max_length=self.num_output)response = self.tokenizer.decode(outputs[0])return CompletionResponse(text=response)@llm_completion_callback()def stream_complete(self, prompt: str, **kwargs: Any) -> CompletionResponseGen:# 流式完成函数print("流式完成函数")inputs = self.tokenizer.encode(prompt, return_tensors='pt').cuda()  # GPU方式# inputs = self.tokenizer.encode(prompt, return_tensors='pt')  # CPU方式outputs = self.model.generate(inputs, max_length=self.num_output)response = self.tokenizer.decode(outputs[0])for token in response:yield CompletionResponse(text=token, delta=token)if __name__ == "__main__":# 定义你的LLMpretrained_model_name_or_path = r'/home/nlp/model/LLM/THUDM/glm-4-9b-chat'embed_model_path = '/home/nlp/model/Embedding/BAAI/bge-m3'Settings.embed_model = HuggingFaceEmbedding(model_name=f"{embed_model_path}",device='cuda')Settings.llm = GLMCustomLLM(pretrained_model_name_or_path)documents = SimpleDirectoryReader(input_dir="home/xxxx/input").load_data()index = VectorStoreIndex.from_documents(documents,)# 查询和打印结果query_engine = index.as_query_engine()response = query_engine.query("萧炎的表妹是谁?")print(response)

ollama

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader, Settings
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.llms.ollama import Ollamadocuments = SimpleDirectoryReader("data").load_data()# bge-base embedding model
Settings.embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-base-en-v1.5")# ollama
Settings.llm = Ollama(model="llama3", request_timeout=360.0)index = VectorStoreIndex.from_documents(documents,
)

欢迎大家点赞或收藏

大家的点赞或收藏可以鼓励作者加快更新哟~

参加链接：

LlamaIndex中的CustomLLM（本地加载模型）
llamaIndex 基于GPU加载本地embedding模型

官网文档

官网_starter_example_loca

官网_usage_custom

LLM之基于llama-index部署本地embedding与GLM-4模型并初步搭建RAG（其他大模型也可，附上ollma方式运行）

前言日常没空，留着以后写 llama-index简介官网：https://docs.llamaindex.ai/en/stable/ 简介也没空，以后再写注：先说明，随着官方的变动，代码也可能变动，大家运行不起来，可以进…...

编程日记 2024/8/22 11:18:17

Python 异步爬虫：高效数据抓取的现代武器

标题：“Python 异步爬虫：高效数据抓取的现代武器” 在当今信息爆炸的时代，网络爬虫已成为数据采集的重要工具。然而，传统的同步爬虫在处理大规模数据时往往效率低下。本文将深入探讨如何使用 Python 实现异步爬虫，以提…...

编程日记 2024/8/22 11:17:06

【数据结构算法经典题目刨析（c语言）】使用数组实现循环队列（图文详解）

💓 博客主页：C-SDN花园GGbond ⏩ 文章专栏：数据结构经典题目刨析(c语言) 目录一.题目描述二.解题思路 1.循环队列的结构定义 2.队列初始化 3.判空 4.判满 5.入队列 6.出队列 7.取队首元素 8.取队尾元素三.完整代码实…...

编程日记 2024/8/22 11:15:53

PTA L1-005 考试座位号

L1-005 考试座位号（15分） 每个 PAT 考生在参加考试时都会被分配两个座位号，一个是试机座位，一个是考试座位。正常情况下，考生在入场时先得到试机座位号码，入座进入试机状态后，系统会显示该考生…...

编程日记 2024/8/22 11:14:51

软件测试3333

禅道？ 学习正则表达式目标： 能说出软件测试缺陷判定标准能说出项目中缺陷的管理系统能使用Excel对于缺陷进行管理能使用工具管理缺陷一、用例执行说明：用例执行不通过，执行结果与用例的期望结果不一致（含义&…...

编程日记 2024/8/22 11:13:50

JJJ：结构体定义中常加的后缀：attribute ((packed))

__attribute__ ((packed))： 的作用就是告诉编译器取消结构体在编译过程中的优化对齐,按照实际占用字节数进行对齐，是GCC特有的语法。这个功能是跟操作系统没关系，跟编译器有关在GCC下：struct my{ char ch; int a;} sizeof(int)4…...

编程日记 2024/8/22 11:11:47

【HTML】DOCTYPE作用

<!DOCTYPE html> DOCTYPE是document type（文档类型）的缩写。是HTML5中一种标准通用标记语言的文档类型声明，告诉浏览器文档的类型，便于解析文档。不同渲染模式会影响浏览器对CSS代码甚至JS脚本的解析。它必须声明在第一行。…...

编程日记 2024/8/22 11:10:46

STM32学习记录-04-EXTI外部中断

1 中断系统 （1）中断：在主程序运行过程中，出现了特定的中断触发条件（中断源），使得CPU暂停当前正在运行的程序，转而去处理中断程序，处理完成后又返回原来被暂停的位置继续…...

编程日记 2024/8/22 11:09:45

Android Studio 动态表格显示效果

最终效果一、先定义明细的样式 table_row.xml <?xml version"1.0" encoding"utf-8"?> <RelativeLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width"match_parent"android:layout_h…...

编程日记 2024/8/22 11:08:44

Python 全栈系列264 使用kafka进行并发处理

说明暂时考虑的场景是单条数据处理特别复杂和耗时的场景。场景如下： 要对一篇文档进行实体处理，然后再对实体进行匹配。在这个过程当中，涉及到了好几部分服务： 1 实体识别服务2 数据库查询服务3 es查询服务整个处理包成了服…...

编程日记 2024/8/22 11:06:35

【安全靶场】-DC-7

❤️博客主页： iknow181 🔥系列专栏： 网络安全、 Python、JavaSE、JavaWeb、CCNP 🎉欢迎大家点赞👍收藏⭐评论✍ 一、收集信息 1.查看主机是否存活 nmap -T4 -sP 192.168.216.149 2.主动扫描看开放了哪些端口和功能 n…...

编程日记 2024/8/22 11:05:34

0065__windows开发要看的经典书籍

windows开发要看的经典书籍_window编程书籍推荐-CSDN博客...

编程日记 2024/8/22 11:03:31

第133天：内网安全-横向移动域控提权NetLogonADCSPACKDC永恒之蓝

案例一：横向移动-系统漏洞-CVE-2017-0146 这个漏洞就是大家熟悉的ms17-010，这里主要学习cs发送到msf，并且msf正向连接后续原因是cs只能支持漏洞检测，而msf上有很多exp可以利用注意msf不能使用4.5版本的有bug 这里还是反弹权…...

编程日记 2024/8/22 10:59:25

【IoTDB 线上小课 06】列式写入=时序数据写入性能“利器”？

【IoTDB 视频小课】更新来啦！今天已经是第六期了~ 关于 IoTDB，关于物联网，关于时序数据库，关于开源... 一个问题重点，3-5 分钟，我们讲给你听： 列式写入到底是？ 上一期我们详细了解了…...

编程日记 2024/8/22 10:57:21

【机器学习】小样本学习的实战技巧：如何在数据稀缺中取得突破

我的主页：2的n次方_ 在机器学习领域，充足的标注数据通常是构建高性能模型的基础。然而，在许多实际应用中，数据稀缺的问题普遍存在，如医疗影像分析、药物研发、少见语言处理等领域。小样本学习（Few-Shot Le…...

编程日记 2024/8/22 10:55:18

2024.08.14 校招实习内推面经

地/球🌍 ： neituijunsir 交* 流*裙 ，内推/实习/校招汇总表格 1、校招 | 理想汽车2025“理想”技术沙龙开启报名校招 | 理想汽车2025“理想”技术沙龙开启报名 2、校招 | 紫光国芯2025校园招聘正式启动校招 | 紫光国芯2025校园招聘正式…...

编程日记 2024/8/22 10:54:16

国产双通道集成电机一体化应用的电机驱动芯片-SS6951A

电机驱动芯片 - SS6951A为电机一体化应用提供一种双通道集成电机驱动方案。SS6951A有两路H桥驱动，每个H桥可提供较大峰值电流4.0A，可驱动两个刷式直流电机，或者一个双极步进电机，或者螺线管或者其它感性负载。双极步进电机可以以整…...

编程日记 2024/8/22 10:53:15

comments: true difficulty: 简单 edit_url: https://github.com/doocs/leetcode/edit/main/lcof/%E9%9D%A2%E8%AF%95%E9%A2%9832%20-%20II.%20%E4%BB%8E%E4%B8%8A%E5%88%B0%E4%B8%8B%E6%89%93%E5%8D%B0%E4%BA%8C%E5%8F%89%E6%A0%91%20II/README.md 面试题 32 - II. 从上到下打…...

编程日记 2024/8/22 10:50:10

總結熱力學_3

參考: 陈曦<<热力学讲义>>http://ithatron.phys.tsinghua.edu.cn/downloads/thermodynamics.pdf 4 热力学量的测量 4.3 主温度计常用的气体温度计有等体积气体温度计、声学气体温度计和介电常数气体温度计。很多气体在水的三相点附近都接近理想气体。但真正的理…...

编程日记 2024/8/22 10:49:09

TypeScript学习笔记1---认识ts与js的异同、ts的所有数据类型详解

前言：去年做过几个vue3js的项目，当时考虑到时间问题，js更加熟悉，学习成本低一点，所以只去了解了vue3。最近这段时间补了一下ts的知识点，现今终于有空来码文章了，做个学习总结，方便以…...

编程日记 2024/8/22 10:48:07

华为数通方向HCIP-DataCom H12-821题库(更新单选真题：1-10)

第1题 1、下面是一台路由器的部分配置,关于该配置描述正确的是？ [HUAWEllact number 2001 [HUAWEl-acl-basic-2001]rule 0 permit source 1.1.1.1 0 [HUAWEl-acl-basic-2001]rule 1 deny source 1.1.1.0 0 [HUAWEl-acl-basic-2001]rule...

编程日记 2024/8/22 10:46:05

【车载开发系列】单片机烧写的文件

【车载开发系列】单片机烧写的文件【车载开发系列】单片机烧写的文件【车载开发系列】单片机烧写的文件一. 什么是bin二. 什么是Hex三. 什么是Motorola S-record（S19）四. ELF格式五. Bin与Hex文件的比对六. 单片机烧写文件的本质一. 什么是bin bin是…...

编程日记 2024/8/22 10:44:02

pyqt 用lamada关联信号传递参数循环

在PyQt中，使用lambda函数来关联信号并传递参数是一个常见的做法，尤其是在需要为不同的对象实例关联不同的槽函数参数时。但是，需要注意的是，直接使用lambda可能会导致一些不易察觉的错误，尤其是当它在循环中使用时。这…...

编程日记 2024/8/22 10:43:01

adb命令

adbclient adbserver adbd 三者之间的关系 adbclient, adbserver, 和 adbd 是 Android Debug Bridge (ADB) 组件中的三个主要组成部分。它们各自扮演着不同的角色，共同协作来实现设备调试和管理的功能。下面我将详细介绍这三个组件之间的关系： adbd (A…...

编程日记 2024/8/22 10:42:00

Spring Boot项目热部署

Spring Boot项目热部署是什么 Spring Boot项目热部署是一种开发时的优化技术，可以使开发人员在修改代码后不需要重新启动应用程序即可实时看到修改的效果。在传统的开发模式中，每次修改代码后都需要重新编译、打包和部署应用程序，这样会浪费大…...

编程日记 2024/8/22 10:39:58

Chat App 项目之解析（八）

Chat App 项目介绍与解析（一）-CSDN博客文章浏览阅读340次，点赞7次，收藏3次。Chat App 是一个实时聊天应用程序，旨在为用户提供一个简单、直观的聊天平台。该应用程序不仅支持普通用户的注册和登录，还提供了…...

编程日记 2024/8/22 10:38:56

CAAC无人机飞行执照：学习内容与考试流程详解

CAAC无人机飞行执照的学习内容与考试流程是无人机爱好者及从业者必须了解的重要信息。以下是对这两方面的详细解析： 学习内容 CAAC无人机飞行执照的学习内容涵盖了多个方面，以确保学员能够全面掌握无人机飞行和应用的技能。主要学习内容包括&#xff1a…...

编程日记 2024/8/22 10:36:54

苹果手机怎么连接蓝牙耳机？3个方案，3秒连接

在快节奏的现代生活中，无线蓝牙耳机因其便捷性和自由度成为了许多人的首选。那么，苹果手机怎么连接蓝牙耳机呢？本文将为您介绍3种快速连接苹果设备与蓝牙耳机的方案，让您在享受音乐、通话或观看视频时，不再受线缆束缚&…...

编程日记 2024/8/22 10:32:50

CAD图纸加密软件有哪些？10款超级好用的CAD图纸加密软件推荐

在数字化设计日益普及的今天，CAD图纸作为企业的核心资产，其安全性变得尤为重要。为了防止图纸被非法获取、篡改或泄露，使用专业的CAD图纸加密软件成为了许多企业和设计师的首选。本文将为您推荐10款在2024年表现突出的CAD图纸加密软件&#x…...

编程日记 2024/8/22 10:30:48

【html+css 绚丽Loading】000011 三元轮回珠

前言：哈喽，大家好，今天给大家分享htmlcss 绚丽Loading！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏关注哦 &#x1f495…...

编程日记 2024/8/22 10:27:42

我想做网站怎么做呢/优化大师免费安装下载

外接键盘时，如果没反应，可重启手机，再接就可以了。用便签应用测试 OK。五笔输入法：触宝输入法装好后，五笔要另下载个包，还有手写也一样。插上键盘就可以输入中文了。很简单。经过测试。noppoo 84 mini 双…...

编程日记 2025/2/7 9:11:20

wordpress页面都在右边/网络营销有哪些功能

Unity 基础之目录结构解析一，Unity的资源数据加载Resources的序列化Resource、StreamingAsset文件夹安装后的路径（Android，iOS）二，Unity的Android和IOS上相关的目录结构三，常用目录对应的Android&#xf…...

编程日记 2025/2/7 8:32:51

百浪科技做网站怎么样/互联网十大企业

摘要：信息技术高度发达的今天,新闻业已经在互联网行业中占越发主导地位。而我们的生活也跟新闻息息相关，尤其是在高度发达的精神文化社会，人们对于电影的喜爱也越来越热衷，但想挑到自己喜爱的片子，就需要影评网站来筛选…...

编程日记 2025/2/7 6:13:40

煎蛋网站用什么做的/如何注册网站怎么注册

MessageQueue提供了另一类消息，IdleHandler 如果返回false,每次轮询都会调用(理论上应该可以做一些别的东西) Looper.myQueue().addIdleHandler(new MyIdleOnce());Looper.myQueue().addIdleHandler(new MyIdleKeep());//removeIdleHandlerclass MyIdleKeep impleme…...

编程日记 2025/2/7 0:42:49

wordpress加速器/手机百度账号申请注册

WebSocket协议是基于TCP的一种新的协议。WebSocket最初在HTML5规范中被引用为TCP连接，作为基于TCP的套接字API的占位符。它实现了浏览器与服务器全双工(full-duplex)通信。其本质是保持TCP连接，在浏览器和服务端通过Socket进行通信。我们知道http协议是…...

编程日记 2025/2/7 0:04:27

建立https网站/seo优化推荐

/Files/xiangboren/慧聪网电话采集系统.rar 里边用到一个DLL OverredGatherCom.dll 感谢原作者。输入如：http://www.search.hc360.com/cgi-bin/seinterface.cgi?word%BC%C3%C4%CF&ind&price&dt7&class%C6%F3%D2%B5%BF%E2 的采集列表开始开采集&a…...

编程日记 2025/2/6 20:52:51

llama-index简介

加载本地embedding模型

加载本地LLM模型

基于本地模型搭建简易RAG

ollama

相关文章：