当前位置：首页 > news >正文

Windows11(非WSL)安装Installing llama-cpp-python with GPU Support

news 2026/2/8 15:36:42

直接安装，只支持CPU。想支持GPU，麻烦一些。

1. 安装CUDA Toolkit (NVIDIA CUDA Toolkit (available at https://developer.nvidia.com/cuda-downloads)

2. 安装如下物件：

git
python
cmake
Visual Studio Community (make sure you install this with the following settings)
- Desktop development with C++
- development
- Linux embedded development with C++

3. Clone git repository recursively to get llama.cpp submodule as well

git clone --recursive -j8 https://github.com/abetlen/llama-cpp-python.git

4. Open up a command Prompt and set the following environment variables.

set FORCE_CMAKE=1
set CMAKE_ARGS=-DLLAMA_CUBLAS=ON

5. 复制文件从Cuda到VS：**

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.3\extras\visual_studio_integration\MSBuildExtensions下面有四个文件，全部copy。
在这里插入图片描述
然后复制到：
C:\Program Files\Microsoft Visual Studio\2022\Community\MSBuild\Microsoft\VC\v170\BuildCustomizations下面。

6. Compiling and installing

cd\llama-cpp-python
python -m pip install -e .

7. 检查成果：

>>> from llama_cpp import Llama
>>> llm = Llama(model_path="llama-2-7b-chat.Q8_0.gguf",n_gpu_layers=-1)

结果：

ggml_init_cublas: GGML_CUDA_FORCE_MMQ:   no
ggml_init_cublas: CUDA_USE_TENSOR_CORES: yes
ggml_init_cublas: found 1 CUDA devices:Device 0: NVIDIA GeForce RTX 4090, compute capability 6.1, VMM: yes
llama_model_loader: loaded meta data with 19 key-value pairs and 291 tensors from llama-2-7b-chat.Q8_0.gguf (version GGUF V2)
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.name str              = LLaMA v2
llama_model_loader: - kv   2:                       llama.context_length u32              = 4096
llama_model_loader: - kv   3:                     llama.embedding_length u32              = 4096
llama_model_loader: - kv   4:                          llama.block_count u32              = 32
llama_model_loader: - kv   5:                  llama.feed_forward_length u32              = 11008
llama_model_loader: - kv   6:                 llama.rope.dimension_count u32              = 128
llama_model_loader: - kv   7:                 llama.attention.head_count u32              = 32
llama_model_loader: - kv   8:              llama.attention.head_count_kv u32              = 32
llama_model_loader: - kv   9:     llama.attention.layer_norm_rms_epsilon f32              = 0.000001
llama_model_loader: - kv  10:                          general.file_type u32              = 7
llama_model_loader: - kv  11:                       tokenizer.ggml.model str              = llama
llama_model_loader: - kv  12:                      tokenizer.ggml.tokens arr[str,32000]   = ["<unk>", "<s>", "</s>", "<0x00>", "<...
llama_model_loader: - kv  13:                      tokenizer.ggml.scores arr[f32,32000]   = [0.000000, 0.000000, 0.000000, 0.0000...
llama_model_loader: - kv  14:                  tokenizer.ggml.token_type arr[i32,32000]   = [2, 3, 3, 6, 6, 6, 6, 6, 6, 6, 6, 6, ...
llama_model_loader: - kv  15:                tokenizer.ggml.bos_token_id u32              = 1
llama_model_loader: - kv  16:                tokenizer.ggml.eos_token_id u32              = 2
llama_model_loader: - kv  17:            tokenizer.ggml.unknown_token_id u32              = 0
llama_model_loader: - kv  18:               general.quantization_version u32              = 2
llama_model_loader: - type  f32:   65 tensors
llama_model_loader: - type q8_0:  226 tensors
llm_load_vocab: special tokens definition check successful ( 259/32000 ).
llm_load_print_meta: format           = GGUF V2
llm_load_print_meta: arch             = llama
llm_load_print_meta: vocab type       = SPM
llm_load_print_meta: n_vocab          = 32000
llm_load_print_meta: n_merges         = 0
llm_load_print_meta: n_ctx_train      = 4096
llm_load_print_meta: n_embd           = 4096
llm_load_print_meta: n_head           = 32
llm_load_print_meta: n_head_kv        = 32
llm_load_print_meta: n_layer          = 32
llm_load_print_meta: n_rot            = 128
llm_load_print_meta: n_embd_head_k    = 128
llm_load_print_meta: n_embd_head_v    = 128
llm_load_print_meta: n_gqa            = 1
llm_load_print_meta: n_embd_k_gqa     = 4096
llm_load_print_meta: n_embd_v_gqa     = 4096
llm_load_print_meta: f_norm_eps       = 0.0e+00
llm_load_print_meta: f_norm_rms_eps   = 1.0e-06
llm_load_print_meta: f_clamp_kqv      = 0.0e+00
llm_load_print_meta: f_max_alibi_bias = 0.0e+00
llm_load_print_meta: n_ff             = 11008
llm_load_print_meta: n_expert         = 0
llm_load_print_meta: n_expert_used    = 0
llm_load_print_meta: rope scaling     = linear
llm_load_print_meta: freq_base_train  = 10000.0
llm_load_print_meta: freq_scale_train = 1
llm_load_print_meta: n_yarn_orig_ctx  = 4096
llm_load_print_meta: rope_finetuned   = unknown
llm_load_print_meta: model type       = 7B
llm_load_print_meta: model ftype      = Q8_0
llm_load_print_meta: model params     = 6.74 B
llm_load_print_meta: model size       = 6.67 GiB (8.50 BPW)
llm_load_print_meta: general.name     = LLaMA v2
llm_load_print_meta: BOS token        = 1 '<s>'
llm_load_print_meta: EOS token        = 2 '</s>'
llm_load_print_meta: UNK token        = 0 '<unk>'
llm_load_print_meta: LF token         = 13 '<0x0A>'

显卡终于在列，可以玩儿了。
在这里插入图片描述

Windows11(非WSL)安装Installing llama-cpp-python with GPU Support

直接安装，只支持CPU。想支持GPU，麻烦一些。 1. 安装CUDA Toolkit (NVIDIA CUDA Toolkit (available at https://developer.nvidia.com/cuda-downloads) 2. 安装如下物件： gitpythoncmakeVisual Studio Community (make sure you install t…...

编程日记 2024/2/19 9:11:20

rtt设备io框架面向对象学习-脉冲编码器设备

目录 1.脉冲编码器设备基类2.脉冲编码器设备基类的子类3.初始化/构造流程3.1设备驱动层3.2 设备驱动框架层3.3 设备io管理层 4.总结5.使用 1.脉冲编码器设备基类此层处于设备驱动框架层。也是抽象类。在/ components / drivers / include / drivers 下的pulse_encoder.h定义…...

编程日记 2024/2/19 9:10:18

华为OD机试真题- 攀登者2-2024年OD统一考试（C卷）

题目描述：攀登者喜欢寻找各种地图，并且尝试攀登到最高的山峰。地图表示为一维数组，数组的索引代表水平位置，数组的高度代表相对海拔高度。其中数组元素0代表地面。例如[0,1,4,3,1,0,0,1,2,3,1,2,1,0], 代表如下图所示的地图，地图中有两个山脉位置分别为 1,2,3,4,5和8,9,1…...

编程日记 2024/2/19 9:00:07

19.Qt 组合框的实现和应用

目录前言： 技能： 内容： 1. 界面 2.槽 3.样式表参考： 前言： 学习QCombox控件的使用技能： 简单实现组合框效果内容： 1. 界面在ui编辑界面找到input widget里面的comboBox&#xff…...

编程日记 2024/2/19 8:54:01

【Linux】进程地址空间的理解

进程地址空间的理解一，什么是程序地址空间二，页表和虚拟地址空间三，为什么要有进程地址空间一，什么是程序地址空间在我们写程序时，都会有这样下面的内存结构，来存放变量和代码等数据。一个进程要执行…...

编程日记 2024/2/19 8:49:57

【Jvm】类加载机制(Class Loading Mechanism)原理及应用场景

文章目录 Jvm基本组成一.什么是JVM类的加载二.类的生命周期阶段1：加载阶段2：验证阶段3：准备阶段4：解析阶段5：初始化三.类初始化时机四.类加载器1.引导类加载器（Bootstrap Class Loader）2.拓展类…...

编程日记 2024/2/19 8:44:52

Spring AOP的实现方式

AOP基本概念 Spring框架的两大核心：IoC和AOP AOP：Aspect Oriented Programming（面向切面编程） AOP是一种思想，是对某一类事情的集中处理面向切面编程：切面就是指某一类特定的问题，所以AOP可…...

编程日记 2024/2/19 8:42:50

Linux------环境变量

目录前言一、环境变量二、添加PATH环境变量三、HOME环境变量四、查看所有环境变量 1.指令获取 2.代码获取 2.1 getenv 2.2main函数的第三个参数 2.3 全局变量environ 五、环境变量存放地点六、添加自命名环境变量七、系统环境变量具有全局属性八、环境变…...

编程日记 2024/2/19 8:40:49

计算机视觉所需要的数学基础

计算机视觉领域中使用的数学知识广泛而深入，以下是一些关键知识点及其在计算机视觉中的应用： 线性代数： - 矩阵运算：用于图像的表示和处理，如图像旋转、缩放、裁剪等。 - 向量空间：用于描述图像中的…...

编程日记 2024/2/19 8:37:46

ChatGPT魔法1：背后的原理

1. AI的三个阶段 1） 上世纪50~60年代，计算机刚刚产生 2） Machine learning 3） Deep learning， 有神经网络， 最有代表性的是ChatGPT, GPT(Generative Pre-Trained Transformer) 2. 深度神经网络 llya Suts…...

编程日记 2024/2/19 8:33:42

【c/c++】获取时间

在一些应用的编写中我们有时候需要用到时间，或者需要一个“锚点”来确定一些数的值。在c/c中有两个用来确定时间的函数：time/gettimeofday 一、time time_t time(time_t *timer);time 函数返回当前时间的时间戳（自 1970 年 1 月 1 日以来经…...

编程日记 2024/2/19 8:31:41

uniapp富文本文字长按选中（用于复制，兼容H5、APP、小程序三端）

方案：使用u-parse的selectable属性 <u-parse :selectable"true" :html"content"></u-parse> 注意：u-parse直接使用是不兼容小程序的，需要对u-parse进行改造： 1. 查看u-parse源码发现小程序走到以…...

编程日记 2024/2/19 8:27:36

常见的几种Web安全问题测试简介

Web项目比较常见的安全问题 1.XSS(CrossSite Script)跨站脚本攻击 XSS(CrossSite Script)跨站脚本攻击。它指的是恶意攻击者往Web 页面里插入恶意html代码，当用户浏览该页之时，嵌入其中Web 里面的html 代码会被执行，从而达到恶意用户的特殊…...

编程日记 2024/2/19 8:26:35

linux信号机制[一]

目录信号量时序问题原子性什么是信号信号如何产生引入信号的处理方法常见信号如何理解组合键变成信号呢？ 如何理解信号被进程保存以及信号发送的本质？ 为什么要有信号信号怎么用？ 样例代码 core文件有什么用呢&#…...

编程日记 2024/2/19 8:24:33

elementui 中el-date-picker 选择年后输出的是Wed Jan 01 2025 00:00:00 GMT+0800 (中国标准时间)

文章目录问题分析问题在使用 el-date-picker 做只选择年份的控制器时，出现如下问题：el-date-picker选择年后输出的是Wed Jan 01 2025 00:00:00 GMT0800 (中国标准时间)，输出了两次如下分析在 el-date-picker 中，我们使用…...

编程日记 2024/2/19 8:22:32

Redis 集群(Cluster)

集群概念 Redis 的哨兵模式，提高了系统的可用性，但是正在用来存储数据的还是 master 和 slave 节点，所有的数据都需要存储在单个 master 和 salve 节点中。如果数据量很大，接近超出了 master / slave 所在机器的物理内存&#…...

编程日记 2024/2/19 8:21:31

260.【华为OD机试真题】信道分配（贪心算法-JavaPythonC++JS实现）

🚀点击这里可直接跳转到本专栏，可查阅顶置最新的华为OD机试宝典~ 本专栏所有题目均包含优质解题思路，高质量解题代码(Java&Python&C++&JS分别实现)，详细代码讲解，助你深入学习，深度掌握！文章目录一. 题目-信道分配二.解题思路三.题解代码Python题解代码…...

编程日记 2024/2/19 8:20:30

Python打发无聊时光：3.实现简单电路的仿真

看到这个标题肯定有人会问：好好的multisim、 proteus之类的专门电路仿真软件不用，非要写一个简陋的python程序来弄，是不是精神失常了。实际上，我也不知道为什么要这么干，前两篇文章是我实际项目中的一些探索&#xff0…...

编程日记 2024/2/19 8:19:29

MyBatis-Plus:通用分页实体封装

分页查询实体：PageQuery package com.example.demo.demos.model.query;import com.baomidou.mybatisplus.core.metadata.OrderItem; import com.baomidou.mybatisplus.extension.plugins.pagination.Page; import lombok.Data; import org.springframework.util.St…...

编程日记 2024/2/19 8:16:26

MVC 、DDD(domain-driven design,软件主动学习业务)、中台、Java SPI（Service Provider Interface）

文章目录引言I 单体架构DDD实现版本1.1 核心概念1.2 DDD四层架构规范1.3 案例1.4 请求转发流程II 领域服务调用2.1 菱形对称架构2.2 中台III Java SPI3.1 概念3.2 实现原理3.3 例子：本地SPI找服务see alsojava -cp<...

编程日记 2024/2/19 8:11:22

【OSG学习笔记】Day 18: 碰撞检测与物理交互

物理引擎（Physics Engine） 物理引擎是一种通过计算机模拟物理规律（如力学、碰撞、重力、流体动力学等）的软件工具或库。它的核心目标是在虚拟环境中逼真地模拟物体的运动和交互，广泛应用于游戏开发、动画制作、虚…...

编程新知 2026/2/4 2:08:30

Zustand 状态管理库：极简而强大的解决方案

Zustand 是一个轻量级、快速和可扩展的状态管理库，特别适合 React 应用。它以简洁的 API 和高效的性能解决了 Redux 等状态管理方案中的繁琐问题。核心优势对比基本使用指南 1. 创建 Store // store.js import create from zustandconst useStore create((set)…...

编程新知 2026/2/8 10:56:57

java调用dll出现unsatisfiedLinkError以及JNA和JNI的区别

UnsatisfiedLinkError 在对接硬件设备中，我们会遇到使用 java 调用 dll文件的情况，此时大概率出现UnsatisfiedLinkError链接错误，原因可能有如下几种类名错误包名错误方法名参数错误使用 JNI 协议调用，结果 dll 未实现 JNI 协…...

编程新知 2025/10/6 16:38:04

家政维修平台实战20：权限设计

目录 1 获取工人信息2 搭建工人入口3 权限判断总结目前我们已经搭建好了基础的用户体系，主要是分成几个表，用户表我们是记录用户的基础信息，包括手机、昵称、头像。而工人和员工各有各的表。那么就有一个问题，不同的角色&#xf…...

编程新知 2026/2/1 22:23:58

什么是库存周转？如何用进销存系统提高库存周转率？

你可能听说过这样一句话： “利润不是赚出来的，是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业，很多企业看着销售不错，账上却没钱、利润也不见了，一翻库存才发现： 一堆卖不动的旧货…...

编程新知 2026/1/26 13:21:10

【python异步多线程】异步多线程爬虫代码示例

claude生成的python多线程、异步代码示例，模拟20个网页的爬取，每个网页假设要0.5-2秒完成。代码 Python多线程爬虫教程核心概念多线程：允许程序同时执行多个任务，提高IO密集型任务（如网络请求）的效率…...

编程新知 2025/12/16 18:04:55

初探Service服务发现机制

1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。主要功能：服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源&#xf…...

编程新知 2026/2/6 15:01:23

LRU 缓存机制详解与实现（Java版） + 力扣解决

📌 LRU 缓存机制详解与实现（Java版） 一、📖 问题背景在日常开发中，我们经常会使用缓存（Cache） 来提升性能。但由于内存有限，缓存不可能无限增长，于是需要策略决定&am…...

编程新知 2025/11/28 20:47:33

【Linux系统】Linux环境变量：系统配置的隐形指挥官

。# Linux系列文章目录前言一、环境变量的概念二、常见的环境变量三、环境变量特点及其相关指令3.1 环境变量的全局性3.2、环境变量的生命周期四、环境变量的组织方式五、C语言对环境变量的操作5.1 设置环境变量：setenv5.2 删除环境变量:unsetenv5.3 遍历所有环境…...

编程新知 2026/1/31 17:02:38

MySQL：分区的基本使用

目录一、什么是分区二、有什么作用三、分类四、创建分区五、删除分区一、什么是分区 MySQL 分区（Partitioning）是一种将单张表的数据逻辑上拆分成多个物理部分的技术。这些物理部分（分区）可以独立存储、管理和优化，…...

编程新知 2026/2/2 18:52:32