当前位置：首页 > news >正文

【个人笔记本】本地化部署类chatgpt模型详细流程

news 2026/2/8 10:40:24

不推荐小白，环境配置比较复杂

全部流程

下载原始模型：Chinese-LLaMA-Alpaca-2
linux部署llamacpp环境
使用llamacpp将Chinese-LLaMA-Alpaca-2模型转换为gguf模型
windows部署Text generation web UI 环境
使用Text generation web UI 加载模型并进行对话

准备工作

笔记本环境：
- 操作系统：win11
- CPU：AMD R7535HS
- GPU：笔记本4060显卡
- CUDA版本：11.8
- VM虚拟机：Ubuntu16
下载模型和部署环境全程需要挂梯子

下载原始模型

原项目链接：https://github.com/ymcui/Chinese-LLaMA-Alpaca-2

模型名称	类型	大小	下载地址
Chinese-LLaMA-2-13B	基座模型	24.7 GB	[百度] [Google] [🤗HF]
Chinese-LLaMA-2-7B	基座模型	12.9 GB	[百度] [Google] [🤗HF]
Chinese-Alpaca-2-13B	指令模型	24.7 GB	[百度] [Google] [🤗HF]
Chinese-Alpaca-2-7B	指令模型	12.9 GB	[百度] [Google] [🤗HF]

下载Chinese-Alpaca-2-7B模型即可，百度网盘不需要挂梯子，其他都需要梯子

linux部署llamacpp环境

原项目链接：https://github.com/ggerganov/llama.cpp
原文档链接：https://github.com/ymcui/Chinese-LLaMA-Alpaca-2/wiki/llamacpp_zh

Step 1: 安装python3.10

sudo apt update
sudo apt install python3.10

Step 2: 克隆和编译llama.cpp

拉取最新版llama.cpp仓库代码

# 要安装git+梯子
git clone https://github.com/ggerganov/llama.cpp

或者

#浏览器挂梯子打开https://github.com/ggerganov/llama.cpp
#下载项目
#解压缩项目到本地

对llama.cpp项目进行编译，生成./main（用于推理）和./quantize（用于量化）二进制文件
```
cd 解压缩项目路径
make
```

Step 3: 生成量化版本模型

创建目录并拷贝模型到项目目录：zh-models/7B/
将Chinese-LLaMA-Alpaca-2模型转换为gguf模型
```
#根目录
python convert.py zh-models/7B/
```

将生成的fp16格式的gguf模型进行4-bit量化

./quantize ./zh-models/7B/ggml-model-f16.gguf ./zh-models/7B/ggml-model-q4_0.gguf q4_0

Step 4: 加载并启动模型

到这一步其实可以用llama.cpp的加载模型方式对话了
但我用的虚拟机，性能有限，故而使用Text generation web UI 加载模型，具体如何加载建议看原文档和项目说明

windows部署Text generation web UI 环境

原项目：https://github.com/oobabooga/text-generation-webui

Step 1: 下载安装Miniconda3_py310

链接：https://repo.anaconda.com/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe

Step 2: 克隆项目到本地

git clone  https://github.com/oobabooga/text-generation-webui

Step 3: 打开Miniconda3命令行，建立新conda环境

conda create -n textgen

Step 4: 下载安装相关的python各类环境库

有github链接的必须手动下载whl,再pip安装whl的绝对位置

conda activate textgen
cd 项目位置
pip install env/bitsandbytes-0.41.1-py3-none-win_amd64.whl
pip install E:\AI\环境第三方库\auto_gptq-0.4.2+cu117-cp310-cp310-win_amd64.whlhttps://github.com/jllllll/exllama/releases/download/0.0.17/exllama-0.0.17+cu117-cp310-cp310-win_amd64.whl
pip install E:\AI\环境第三方库\exllama-0.0.17+cu117-cp310-cp310-win_amd64.whlpip install llama-cpp-python==0.1.84https://github.com/jllllll/llama-cpp-python-cuBLAS-wheels/releases/download/textgen-webui/llama_cpp_python_cuda-0.1.84+cu117-cp310-cp310-win_amd64.whl
pip install E:\AI\环境第三方库\llama_cpp_python_cuda-0.1.84+cu117-cp310-cp310-win_amd64.whlhttps://github.com/jllllll/GPTQ-for-LLaMa-CUDA/releases/download/0.1.0/gptq_for_llama-0.1.0+cu117-cp310-cp310-win_amd64.whl
pip install E:\AI\环境第三方库\gptq_for_llama-0.1.0+cu117-cp310-cp310-win_amd64.whlhttps://github.com/jllllll/ctransformers-cuBLAS-wheels/releases/download/AVX2/ctransformers-0.2.25+cu117-py3-none-any.whl
pip install E:\AI\环境第三方库\ctransformers-0.2.25+cu117-py3-none-any.whlpip install -r requirements.txt -i 换源

Step 5: 启动web服务

conda activate textgen
cd E:/AI/项目/text-generation-webui-main
python server.py

使用Text generation web UI 加载模型并进行对话

打开生成的url网址
加载本地模型
对话即可

【个人笔记本】本地化部署类chatgpt模型详细流程

不推荐小白，环境配置比较复杂全部流程下载原始模型：Chinese-LLaMA-Alpaca-2linux部署llamacpp环境使用llamacpp将Chinese-LLaMA-Alpaca-2模型转换为gguf模型windows部署Text generation web UI 环境使用Text generation web UI 加载模型并进行对话准…...

编程日记 2023/9/18 22:18:16

RFID与人工智能怎么融合，RFID与人工智能融合的应用

随着物联网技术的不断发展，现实世界与数字世界的桥梁已经被打通。物联网通过各种传感器，将现实世界中的光、电、热等信号转化为有价值的数据。这些数据可以通过RFID技术进行自动收集和传输，然后经由人工智能算法进行分析、建模和预测&#xf…...

编程日记 2023/9/18 22:14:13

性能测试 —— Jmeter 常用三种定时器

1、同步定时器位置：HTTP请求->定时器->Synchronizing Timer 当需要进行大量用户的并发测试时，为了让用户能真正的同时执行，添加同步定时器，用户阻塞线程，知道线程数达到预先配置的数值，才开始执行…...

编程日记 2023/9/18 22:13:12

每个高级前端工程师都应该知道的前端布局

首发于公众号大迁世界，欢迎关注。📝 每周一篇实用的前端文章 🛠️ 分享值得关注的开发工具 😜 分享个人创业过程中的趣事快来免费体验ChatGpt plus版本的，我们出的钱体验地址:https://chat.waixingyun.cn 可以加入网站底部技术群，一起找bug，另外新版作图神器已上线…...

编程日记 2023/9/18 22:12:10

100道基于Android毕业设计的选题题目，持续更新

博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝30W,Csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 大家好，我是程序员徐师兄、今天给大家谈谈基于android的app开发毕设题目，以及基于an…...

编程日记 2023/9/18 22:11:09

idea显示git分支信息(GitToolBox插件)

效果图说明本身idea在右下角会有git分支信息，但是显示的当前打开文件的分支信息，并且不够显眼解决 1、安装插件(GitToolBox插件) 2、修改idea.properties project.tree.structure.show.urlfalse ide.tree.horizontal.default.autoscrollingfalse将…...

编程日记 2023/9/18 22:08:07

Hadoop知识点之Hadoop发展历程

一、Hadoop名字的起源 Hadoop这个名字不是一个缩写，它是一个虚构的名字。该项目的创建者，Doug Cutting如此解释Hadoop： 这个名字是我孩子给一头吃饱了的棕黄色大象命名的。我的命名标准就是简短，容易发音和拼写，没有…...

编程日记 2023/9/18 22:07:06

阿里云无影电脑：免费体验无影云电脑3个月

阿里云无影云电脑免费领取流程，免费无影云电脑配置为4核8G，可以免费使用3个月，阿里云百科分享阿里云无影云电脑（云桌面）免费申请入口、申请流程及免费使用限制条件说明： 目录阿里云无影云电脑免费申请入…...

编程日记 2023/9/18 22:06:05

菜鸟教程《Python 3 教程》笔记（20）：面向对象

菜鸟教程《Python 3 教程》笔记（20） 20 面向对象20.1 面向对象技术简介20.2 创建类20.2.1 类定义20.2.2 实例化20.2.3 初始化20.2.4 类变量、实例变量20.2.5 类方法、实例方法、静态方法 20.3 访问可见性20.3.1 property装饰器 20.4 动态性20.4.1 __slot…...

编程日记 2023/9/18 22:04:03

vue2编辑markdown

效果 npm i mavon-editor --save 只能全局注册使用...

编程日记 2023/9/18 22:03:02

PCB走线规则

1、线间距。这里应该遵循3W规则，所谓3W就是为了减少线间串扰，应保证线间距足够大，当线中心不少于3倍线宽，则可保持70%的电场不互相干扰。如要达到98%的电场不互相干扰，可使用10W的间距。——这是查阅华为PCB布线规则…...

编程日记 2023/9/18 22:02:01

webpack静态资源上传到CDNS （阿里云 OSS，亚马逊 AWS S3，七牛云 Qiniu Cloud Kodo）webpack-plugin-cdns

webpack-plugin-cdns 是一个 Webpack 插件，用于实现将前端项目中的资源（如 JavaScript、CSS、图片等）上传到 CDN(OSS、S3、Kodo) 服务器。从而完成资源的 CDN 加速。在开发前端项目时，我们通常会将静态资源放在本地服务器上&…...

编程日记 2023/9/18 22:01:00

python 异常

1.捕获异常 2.密码爆破 3....

编程日记 2023/9/18 21:59:59

stm32--独立看门狗

最近学习到独立看门狗，总结下笔记 1.看门狗的作用：防止程序异常跑飞，跑飞时，进行系统复位，从而不会导致代码瘫痪，奔溃卡死在某段程序。 2.看门狗其实是12bit递减计数器，，减到0会产…...

编程日记 2023/9/18 21:58:58

vue3中css使用script中定义的变量

代码 <template><div class"box">haha</div> </template><script setup lang"ts"> const boxWidth 500px </script><style lang"scss"> .box {width: v-bind(boxWidth);height: 200px;background-c…...

编程日记 2023/9/18 21:57:58

Ubuntu 22.04 安装配置 Flatpak 安装 Flatpak sudo apt install flatpakFlatpak 仓库配置官方仓库 https://flathub.org/repo/flathub上交大镜像 https://mirror.sjtu.edu.cn/flathub flatpak remote-add --if-not-exists flathub https://flathub.org/repo/flathub.flatp…...

编程日记 2023/9/18 21:56:57

oracle创建数据库以及用户，并导入dmp格式数据

oracle创建数据库以及用户，并导入dmp格式数据安装可参考之前的文章https://blog.csdn.net/qq_43421954/article/details/132717546?spm1001.2014.3001.5501 首先创建表空间（也就是其他数据库所谓的数据库） 使用的是navicat,连接配置可以参…...

编程日记 2023/9/18 21:55:56

[deeplearning]pytorch实现softmax多分类问题预测训练

写在前面：俺这两天也是刚刚加入实验室，因为之前的学习过程中用到更多的框架是tensorflow，所以突然上手pytorch多少有些力不从心了。这两个框架的主要区别在与tensorflow更偏向于工业使用，所以里面的很多函数和类都已经封装得很完…...

编程日记 2023/9/18 21:54:55

【C++初阶】动态内存管理

👻内容专栏： C/C编程 🐨本文概括： C/C内存分布、C语言动态内存管理、C动态内存管理、operator new与operator delete函数、new和delete的实现原理、定位new表达式、常见面试问题等。 🐼本文作者： 阿四啊 …...

编程日记 2023/9/18 21:52:52

Mac电脑安装Zulu Open JDK 8 使用 spring-kafka 消费不到Kafka Partition中的消息

一、现象描述使用Mac电脑本地启动spring-kakfa消费不到Kafka的消息，监控消费组的消息偏移量发现存在Lag的消息，但是本地客户端就是拉取不到，通过部署到公司k8s容器上消息却能正常消费！ 本地启动的服务消费组监控公司k8s容器服…...

编程日记 2023/9/18 21:48:48

Qt/C++开发监控GB28181系统/取流协议/同时支持udp/tcp被动/tcp主动

一、前言说明在2011版本的gb28181协议中，拉取视频流只要求udp方式，从2016开始要求新增支持tcp被动和tcp主动两种方式，udp理论上会丢包的，所以实际使用过程可能会出现画面花屏的情况，而tcp肯定不丢包，起码…...

编程新知 2026/2/5 4:23:49

376. Wiggle Subsequence

376. Wiggle Subsequence 代码 class Solution { public:int wiggleMaxLength(vector<int>& nums) {int n nums.size();int res 1;int prediff 0;int curdiff 0;for(int i 0;i < n-1;i){curdiff nums[i1] - nums[i];if( (prediff > 0 && curdif…...

编程新知 2026/1/26 1:54:23

将对透视变换后的图像使用Otsu进行阈值化，来分离黑色和白色像素。这句话中的Otsu是什么意思？

Otsu 是一种自动阈值化方法，用于将图像分割为前景和背景。它通过最小化图像的类内方差或等价地最大化类间方差来选择最佳阈值。这种方法特别适用于图像的二值化处理，能够自动确定一个阈值，将图像中的像素分为黑色和白色两类。 Otsu 方法的原…...

编程新知 2026/1/9 19:36:58

Java多线程实现之Callable接口深度解析

Java多线程实现之Callable接口深度解析一、Callable接口概述1.1 接口定义1.2 与Runnable接口的对比1.3 Future接口与FutureTask类二、Callable接口的基本使用方法2.1 传统方式实现Callable接口2.2 使用Lambda表达式简化Callable实现2.3 使用FutureTask类执行Callable任务三、…...

编程新知 2026/1/25 6:36:06

【算法训练营Day07】字符串part1

文章目录反转字符串反转字符串II替换数字反转字符串题目链接：344. 反转字符串双指针法，两个指针的元素直接调转即可 class Solution {public void reverseString(char[] s) {int head 0;int end s.length - 1;while(head < end) {char temp …...

编程新知 2025/8/27 14:38:58

【JavaWeb】Docker项目部署

引言之前学习了Linux操作系统的常见命令，在Linux上安装软件，以及如何在Linux上部署一个单体项目，大多数同学都会有相同的感受，那就是麻烦。核心体现在三点： 命令太多了，记不住软件安装包名字复杂&…...

编程新知 2026/2/4 16:07:02

Android Bitmap治理全解析：从加载优化到泄漏防控的全生命周期管理

引言 Bitmap（位图）是Android应用内存占用的“头号杀手”。一张1080P（1920x1080）的图片以ARGB_8888格式加载时，内存占用高达8MB（192010804字节）。据统计，超过60%的应用OOM崩溃与Bitm…...

编程新知 2026/1/8 22:17:14

全面解析各类VPN技术：GRE、IPsec、L2TP、SSL与MPLS VPN对比

目录引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec？ IPsec VPN 5.1 IPsec传输模式（Transport Mode） 5.2 IPsec隧道模式（Tunne…...

编程新知 2025/11/3 0:44:41

GC1808高性能24位立体声音频ADC芯片解析

1. 芯片概述 GC1808是一款24位立体声音频模数转换器（ADC），支持8kHz~96kHz采样率，集成Δ-Σ调制器、数字抗混叠滤波器和高通滤波器，适用于高保真音频采集场景。 2. 核心特性高精度：24位分辨率&#xff0c…...

编程新知 2026/1/27 4:58:14

在web-view 加载的本地及远程HTML中调用uniapp的API及网页和vue页面是如何通讯的？

uni-app 中 Web-view 与 Vue 页面的通讯机制详解一、Web-view 简介 Web-view 是 uni-app 提供的一个重要组件，用于在原生应用中加载 HTML 页面： 支持加载本地 HTML 文件支持加载远程 HTML 页面实现 Web 与原生的双向通讯可用于嵌入第三方网页或 H5 应…...

编程新知 2025/8/6 2:19:46