当前位置：首页 > news >正文

本地部署与使用SenseVoice语音大模型简析

news 2026/2/8 10:53:59

前言

SenseVoice 是一种语音基础模型，具有多种语音理解功能，包括自动语音识别 (ASR)、口语识别 (LID)、语音情感识别 (SER) 和音频事件检测 (AED)。本博客将指导您安装和使用 SenseVoice 模型，使其尽可能方便用户使用。

SenseVoice

Github 仓库链接: https://github.com/FunAudioLLM/SenseVoice

在线演示Demo: https://huggingface.co/spaces/FunAudioLLM/SenseVoice

SenseVoice的亮点

SenseVoice专注于高精度多语言语音识别、语音情感识别和音频事件检测。

多语言语音识别：经过超过40万小时的数据训练，支持50多种语言，识别性能超越Whisper模型。

高效推理：SenseVoice-Small 模型采用非自回归端到端框架，从而实现极低的推理延迟。处理 10 秒的音频仅需 70ms，比 Whisper-Large 快 15 倍。

情绪识别：提供声音事件检测能力，支持bgm、掌声、笑声、哭泣、咳嗽、打喷嚏等各种常见人机交互事件的检测。

便捷的微调：提供方便的微调脚本和策略，让用户根据自己的业务场景轻松解决长尾样本问题。

服务部署：提供服务部署管道，支持多并发请求，客户端语言包括 Python、C++、HTML、Java 和 C# 等。

如何部署安装SenseVoice

步骤 1. 克隆项目并创建 python 3.8+ 虚拟环境

首先克隆官方项目并创建一个独立的 Python 虚拟环境。

git clone https://github.com/FunAudioLLM/SenseVoice.git
cd SenseVoice#创建一个独立的 Python 3.8 虚拟环境并激活它
conda create -n sensevoice python=3.8
conda activate sensevoice

步骤 2. 然后安装依赖项

至此，虚拟环境已被激活。现在下载并安装项目所依赖的第三方软件包。

# 如果在GPUMart上租赁的服务器上
pip install -r requirements.txt# 如果租赁的服务器在中国大陆，需要使用国内的镜像 
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

步骤 3. 启动 SenseVoice WebUI

模型文件非常大，下载需要很长时间。完成后，使用以下命令启动服务：

python webui.py

现在，您可以通过访问局域网 IP 和端口号 7860 访问由gradient库构建的 WebUI 网络应用程序。

SenseVoice WebUI

如何使用SenseVoice

方法 1. 在 Web UI 中使用

使用网页界面非常简单，只需上传音频文件，选择语言（可选），然后点击开始按钮，等待后台处理完成，识别出的文本就会输出到结果区域。

我们使用GPUMart 的 RTX A4000 测试了 90 分钟的音频，耗时约七八分钟。

方法 2. 使用 Python 编程调用

如果需要基于模型进行应用程序开发，或调整更详细的参数，则需要对模型提供的应用程序接口进行封装和二次开发。

推理使用示例 - 支持任何格式和任何持续时间的音频输入。

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocessmodel_dir = "iic/SenseVoiceSmall"model = AutoModel(model=model_dir,trust_remote_code=True,remote_code="./model.py",vad_model="fsmn-vad",vad_kwargs={"max_single_segment_time": 30000},device="cuda:0",
)# en
res = model.generate(input=f"{model.model_path}/example/en.mp3",cache={},language="auto",  # "zh", "en", "yue", "ja", "ko", "nospeech"use_itn=True,batch_size_s=60,merge_vad=True,  #merge_length_s=15,
)
text = rich_transcription_postprocess(res[0]["text"])
print(text)

对于更高级的用户，还可以使用以下命令将模型导出到 ONNX 或 Libtorch：

# 以 Libtorch 为例
from pathlib import Path
from funasr_torch import SenseVoiceSmall
from funasr_torch.utils.postprocess_utils import rich_transcription_postprocessmodel_dir = "iic/SenseVoiceSmall"model = SenseVoiceSmall(model_dir, batch_size=10, device="cuda:0")wav_or_scp = ["{}/.cache/modelscope/hub/{}/example/en.mp3".format(Path.home(), model_dir)]res = model(wav_or_scp, language="auto", use_itn=True)
print([rich_transcription_postprocess(i) for i in res])

本地部署与使用SenseVoice语音大模型简析

前言 SenseVoice 是一种语音基础模型，具有多种语音理解功能，包括自动语音识别 (ASR)、口语识别 (LID)、语音情感识别 (SER) 和音频事件检测 (AED)。本博客将指导您安装和使用 SenseVoice 模型，使其尽可能方便用户使用。 Github 仓库链接: ht…...

编程日记 2025/2/5 3:38:31

文章目录 Kafka SASL/SCRAM介绍1. SASL/SCRAM 认证机制2. SASL/SCRAM 认证工作原理2.1 SCRAM 认证原理2.1.1 密码存储和加盐2.1.2 SCRAM 认证流程 2.2 SCRAM 认证的关键算法2.3 SCRAM 密码存储2.4 SCRAM 密码管理 3. 配置和使用 Kafka SASL/SCRAM3.1 Kafka 服务器端配置3.2 创建…...

编程日记 2025/2/5 3:35:27

中间件漏洞之CVE-2024-53677

目录什么是struts？CVE-2024-53677简介影响版本复现环境搭建漏洞利用修复什么是struts？ 在早期的 Java Web 开发中，代码往往混乱不堪，难以维护和扩展。比如，一个简单的用户登录功能，可能在不同的 Java 类…...

编程日记 2025/2/5 3:33:25

pytorch基于 Transformer 预训练模型的方法实现词嵌入（tiansz/bert-base-chinese）

以下是一个完整的词嵌入（Word Embedding）示例代码，使用 modelscope 下载 tiansz/bert-base-chinese 模型，并通过 transformers 加载模型，获取中文句子的词嵌入。 from modelscope.hub.snapshot_download import snaps…...

编程日记 2025/2/5 3:32:24

Windows电脑本地部署运行DeepSeek R1大模型（基于Ollama和Chatbox）

文章目录一、环境准备二、安装Ollama2.1 访问Ollama官方网站2.2 下载适用于Windows的安装包2.3 安装Ollama安装包2.4 指定Ollama安装目录2.5 指定Ollama的大模型的存储目录三、选择DeepSeek R1模型四、下载并运行DeepSeek R1模型五、常见问题解答六、使用Chatbox进行交互6.1 …...

编程日记 2025/2/5 3:30:21

区间覆盖问题

文章目录 1. 题面2. 简单分析3. 代码解答4. TLE的2点可能 1. 题面给定 N N N个区间 [ a i , b i ] [a_i,b_i] [ai,bi] 以及一个区间 [ s , t ] [s,t] [s,t]，请你选择尽量少的区间，将指定区间完全覆盖。输出最少区间数，如果无法完全…...

编程日记 2025/2/5 3:29:18

【LLM-agent】(task2)用llama-index搭建AI Agent

note LlamaIndex 实现 Agent 需要导入 ReActAgent 和 Function Tool，循环执行：推理、行动、观察、优化推理、重复进行。可以在 arize_phoenix 中看到 agent 的具体提示词，工具被装换成了提示词ReActAgent 使得业务自动向代码转换成为可能&am…...

编程日记 2025/2/5 3:28:15

SpringAI 人工智能

随着 AI 技术的不断发展，越来越多的企业开始将 AI 模型集成到其业务系统中，从而提升系统的智能化水平、自动化程度和用户体验。在此背景下，Spring AI 作为一个企业级 AI 框架，提供了丰富的工具和机制，可以帮助开发者将…...

编程日记 2025/2/5 3:23:09

【axios二次封装】

axios二次封装安装封装使用安装 pnpm add axios封装 // 进行axios二次封装：使用请求与响应拦截器 import axios from axios import { ElMessage } from element-plus//创建axios实例 const request axios.create({baseURL: import.meta.env.VITE_APP_BASE_API,…...

编程日记 2025/2/5 3:18:01

P7497 四方喝彩 Solution

Description 给定序列 a ( a 1 , a 2 , ⋯ , a n ) a(a_1,a_2,\cdots,a_n) a(a1,a2,⋯,an)，有 m m m 个操作，分四种： add ⁡ ( l , r , v ) \operatorname{add}(l,r,v) add(l,r,v)：对于所有 i ∈ [ l , r ] i \in [l,r…...

编程日记 2025/2/5 3:17:00

深入剖析 Bitmap 数据结构：原理、应用与优化策略

深入理解 Bitmap 数据结构一、引言在计算机科学领域，数据的高效存储和快速处理一直是核心问题。随着数据量的不断增长，如何用最少的空间和最快的速度来表示和操作数据变得至关重要。Bitmap（位图）作为一种简洁而强大的数据结构…...

编程日记 2025/2/5 3:08:51

bypass hcaptcha、hcaptcha逆向

可以过steam，已支持并发，欢迎询问！ 有事危，ProfessorLuoMing...

编程日记 2025/2/5 3:07:49

WebForms DataList 深入解析

WebForms DataList 深入解析引言在Web开发领域，控件是构建用户界面（UI）的核心组件。ASP.NET WebForms框架提供了丰富的控件，其中DataList控件是一个灵活且强大的数据绑定控件。本文将深入探讨WebForms DataList控件的功能、用法以及在实际开发中的应用。 DataList控件…...

编程日记 2025/2/5 3:03:43

C# List 列表综合运用实例⁓Hypak原始数据处理编程小结

C# List 列表综合运用实例⁓Hypak原始数据处理编程小结 1、一个数组解决很麻烦引出的问题1.1、RAW 文件尾部数据如下:1.2、自定义标头 ADD 或 DEL 的数据结构如下： 2、程序 C# 源代码的编写和剖析2.1、使用 ref 关键字，通过引用将参数传递，以…...

编程日记 2025/2/5 2:59:38

【C++基础】字符串/字符读取函数解析

最近在学C以及STL，打个基础参考： c中的char[] ,char* ,string三种字符串变量转化的兼容原则 c读取字符串和字符的6种函数字符串结构首先明确三种字符串结构的兼容关系：string>char*>char [] string最灵活，内置增删查改…...

编程日记 2025/2/5 2:53:26

大模型-CLIP 详细介绍

CLIP简介 CLIP（Contrastive Language–Image Pre-training）是由OpenAI在2021年提出的一种多模态机器学习模型。它旨在通过大量的文本-图像对进行训练，从而学会理解图像内容，并能将这些内容与相应的自然语言描述相匹配。CLIP的核心…...

编程日记 2025/2/5 2:52:24

1.4 Go 数组

一、数组 1、简介数组是切片的基础数组是一个固定长度、由相同类型元素组成的集合。在 Go 语言中，数组的长度是类型的一部分，因此 [5]int 和 [10]int 是两种不同的类型。数组的大小在声明时确定，且不可更改。简单来说，数组…...

编程日记 2025/2/5 2:50:22

WebSocket——环境搭建与多环境配置

一、前言：为什么要使用多环境配置？ 在开发过程中，我们通常会遇到多个不同的环境，比如开发环境（Dev）、测试环境（Test）、生产环境（Prod）等。每个环境的配置和需…...

编程日记 2025/2/5 2:47:17

三、递推关系与母函数，《组合数学(第4版)》卢开澄卢华明

文章目录一、似函数、非函数1.1 母函数1.2 母函数的简单应用1.3 整数拆分1.4 Ferrers 图像1.5 母函数能做什么1.6 递推关系1.6.1 Hanoi 问题1.6.2 偶数个5怎么算 1.7 Fibonacci 序列1.7.1 Fibonacci 的奇妙性质1.7.2 Fibonacci 恒等式1.7.3 Fibonacci 的直接表达式1.7.4 Fibon…...

编程日记 2025/2/5 2:46:16

线程互斥同步

前言： 简单回顾一下上文所学，上文我们最重要核心的工作就是介绍了我们线程自己的LWP和tid究竟是个什么，总结一句话，就是tid是用户视角下所认为的概念，因为在Linux系统中，从来没有线程这一说法，…...

编程日记 2025/2/5 2:41:10

rknn优化教程（二）

文章目录 1. 前述2. 三方库的封装2.1 xrepo中的库2.2 xrepo之外的库2.2.1 opencv2.2.2 rknnrt2.2.3 spdlog 3. rknn_engine库 1. 前述 OK，开始写第二篇的内容了。这篇博客主要能写一下： 如何给一些三方库按照xmake方式进行封装，供调用如何按…...

编程新知 2025/6/11 15:25:30

Day131 | 灵神 | 回溯算法 | 子集型子集

Day131 | 灵神 | 回溯算法 | 子集型子集 78.子集 78. 子集 - 力扣（LeetCode） 思路： 笔者写过很多次这道题了，不想写题解了，大家看灵神讲解吧回溯算法套路①子集型回溯【基础算法精讲 14】_哔哩哔哩_bilibili 完…...

编程新知 2026/1/23 12:37:51

Java多线程实现之Callable接口深度解析

Java多线程实现之Callable接口深度解析一、Callable接口概述1.1 接口定义1.2 与Runnable接口的对比1.3 Future接口与FutureTask类二、Callable接口的基本使用方法2.1 传统方式实现Callable接口2.2 使用Lambda表达式简化Callable实现2.3 使用FutureTask类执行Callable任务三、…...

编程新知 2026/1/25 6:36:06

拉力测试cuda pytorch 把 4070显卡拉满

import torch import timedef stress_test_gpu(matrix_size16384, duration300):"""对GPU进行压力测试，通过持续的矩阵乘法来最大化GPU利用率参数:matrix_size: 矩阵维度大小，增大可提高计算复杂度duration: 测试持续时间（秒&…...

编程新知 2025/12/7 12:35:20

学习STC51单片机32（芯片为STC89C52RCRC）OLED显示屏2

每日一言今天的每一份坚持，都是在为未来积攒底气。案例：OLED显示一个A 这边观察到一个点，怎么雪花了就是都是乱七八糟的占满了屏幕。。解释 ： 如果代码里信号切换太快（比如 SDA 刚变，SCL 立刻变&#…...

编程新知 2026/2/6 0:50:24

python执行测试用例，allure报乱码且未成功生成报告

allure执行测试用例时显示乱码：‘allure’ �����ڲ����ⲿ���Ҳ���ǿ�&am…...

编程新知 2026/2/7 4:21:44

Python Ovito统计金刚石结构数量

大家好，我是小马老师。本文介绍python ovito方法统计金刚石结构的方法。 Ovito Identify diamond structure命令可以识别和统计金刚石结构，但是无法直接输出结构的变化情况。本文使用python调用ovito包的方法，可以持续统计各步的金刚石结构，具体代码如下： from ovito…...

编程新知 2026/1/26 5:39:08

MySQL 索引底层结构揭秘：B-Tree 与 B+Tree 的区别与应用

文章目录一、背景知识：什么是 B-Tree 和 BTree？ B-Tree（平衡多路查找树） BTree（B-Tree 的变种） 二、结构对比：一张图看懂三、为什么 MySQL InnoDB 选择 BTree？ 1. 范围查询更快 2…...

编程新知 2026/2/3 19:38:38

C++实现分布式网络通信框架RPC(2)——rpc发布端

有了上篇文章的项目的基本知识的了解，现在我们就开始构建项目。目录一、构建工程目录二、本地服务发布成RPC服务 2.1理解RPC发布 2.2实现三、Mprpc框架的基础类设计 3.1框架的初始化类 MprpcApplication 代码实现 3.2读取配置文件类 MprpcConfig 代码实现…...

编程新知 2026/2/5 18:18:58

Linux 下 DMA 内存映射浅析

序系统 I/O 设备驱动程序通常调用其特定子系统的接口为 DMA 分配内存，但最终会调到 DMA 子系统的dma_alloc_coherent()/dma_alloc_attrs() 等接口。关于 dma_alloc_coherent 接口详细的代码讲解、调用流程，可以参考这篇文章，我觉得写的非常…...

编程新知 2026/2/7 0:29:10

前言