当前位置：首页 > news >正文

whisper深入-语者分离

news 2026/3/23 5:41:50

文章目录

学习目标：如何使用whisper
学习内容一：whisper 转文字
- 1.1 使用whisper.load_model()方法下载，加载
- 1.2 使用实例对文件进行转录
- 1.3 实战
学习内容二：语者分离（pyannote.audio）pyannote.audio是huggingface开源音色包
- 第一步：安装依赖
- 第二步：创建key
- 第三步：测试pyannote.audio
学习内容三：整合

学习目标：如何使用whisper

学习内容一：whisper 转文字

在这里插入图片描述

1.1 使用whisper.load_model()方法下载，加载

model=whisper.load_model(参数)

name 需要加载的模型，如上图
device：默认有个方法，有显存使用显存，没有使用cpu
download_root:下载的根目录，默认使用~/.cache/whisper
in_memory：是否将模型权重预加载到主机内存中

返回值
model : Whisper
Whisper语音识别模型实例

def load_model(name: str,device: Optional[Union[str, torch.device]] = None,download_root: str = None,in_memory: bool = False,
) -> Whisper:"""Load a Whisper ASR modelParameters----------name : strone of the official model names listed by `whisper.available_models()`, orpath to a model checkpoint containing the model dimensions and the model state_dict.device : Union[str, torch.device]the PyTorch device to put the model intodownload_root: strpath to download the model files; by default, it uses "~/.cache/whisper"in_memory: boolwhether to preload the model weights into host memoryReturns-------model : WhisperThe Whisper ASR model instance"""if device is None:device = "cuda" if torch.cuda.is_available() else "cpu"if download_root is None:default = os.path.join(os.path.expanduser("~"), ".cache")download_root = os.path.join(os.getenv("XDG_CACHE_HOME", default), "whisper")if name in _MODELS:checkpoint_file = _download(_MODELS[name], download_root, in_memory)alignment_heads = _ALIGNMENT_HEADS[name]elif os.path.isfile(name):checkpoint_file = open(name, "rb").read() if in_memory else namealignment_heads = Noneelse:raise RuntimeError(f"Model {name} not found; available models = {available_models()}")with (io.BytesIO(checkpoint_file) if in_memory else open(checkpoint_file, "rb")) as fp:checkpoint = torch.load(fp, map_location=device)del checkpoint_filedims = ModelDimensions(**checkpoint["dims"])model = Whisper(dims)model.load_state_dict(checkpoint["model_state_dict"])if alignment_heads is not None:model.set_alignment_heads(alignment_heads)return model.to(device)

1.2 使用实例对文件进行转录

result = model.transcribe(file_path)

def transcribe(model: "Whisper",audio: Union[str, np.ndarray, torch.Tensor],*,verbose: Optional[bool] = None,temperature: Union[float, Tuple[float, ...]] = (0.0, 0.2, 0.4, 0.6, 0.8, 1.0),compression_ratio_threshold: Optional[float] = 2.4,logprob_threshold: Optional[float] = -1.0,no_speech_threshold: Optional[float] = 0.6,condition_on_previous_text: bool = True,initial_prompt: Optional[str] = None,word_timestamps: bool = False,prepend_punctuations: str = "\"'“¿([{-",append_punctuations: str = "\"'.。,，!！?？:：”)]}、",**decode_options,
):"""将音频转换为文本。参数：- model: Whisper模型- audio: 音频文件路径、NumPy数组或PyTorch张量- verbose: 是否打印详细信息，默认为None- temperature: 温度参数，默认为(0.0, 0.2, 0.4, 0.6, 0.8, 1.0)- compression_ratio_threshold: 压缩比阈值，默认为2.4- logprob_threshold: 对数概率阈值，默认为-1.0- no_speech_threshold: 无语音信号阈值，默认为0.6- condition_on_previous_text: 是否根据先前的文本进行解码，默认为True- initial_prompt: 初始提示，默认为None- word_timestamps: 是否返回单词时间戳，默认为False- prepend_punctuations: 前缀标点符号，默认为"\"'“¿([{-"- append_punctuations: 后缀标点符号，默认为"\"'.。,，!！?？:：”)]}、"- **decode_options: 其他解码选项返回：- 转录得到的文本"""

1.3 实战

建议load_model添加参数

download_root:下载的根目录，默认使用~/.cache/whisper
transcribe方法添加参数
word_timestamps=True

import whisper
import arrow# 定义模型、音频地址、录音开始时间
def excute(model_name,file_path,start_time):model = whisper.load_model(model_name)result = model.transcribe(file_path,word_timestamps=True)for segment in result["segments"]:now = arrow.get(start_time)start = now.shift(seconds=segment["start"]).format("YYYY-MM-DD HH:mm:ss")end = now.shift(seconds=segment["end"]).format("YYYY-MM-DD HH:mm:ss")print("【"+start+"->" +end+"】："+segment["text"])if __name__ == '__main__':excute("large","/root/autodl-tmp/no/test.mp3","2022-10-24 16:23:00")

在这里插入图片描述

学习内容二：语者分离（pyannote.audio）pyannote.audio是huggingface开源音色包

第一步：安装依赖

pip install pyannote.audio

第二步：创建key

https://huggingface.co/settings/tokens
在这里插入图片描述

第三步：测试pyannote.audio

创建实例：Pipeline.from_pretrained(参数)
使用GPU加速：import torch # 导入torch库
pipeline.to(torch.device(“cuda”))
实例转化音频pipeline(“test.wav”)

from_pretrained(参数)

cache_dir:路径或str，可选模型缓存目录的路径。默认/pyannote"当未设置时。

pipeline(参数)

file_path：录音文件
num_speakers：几个说话者，可以不带


from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization@2.1", use_auth_token="申请的key")# send pipeline to GPU (when available)
import torch
device='cuda' if torch.cuda.is_available() else 'cpu'
pipeline.to(torch.device(device))# apply pretrained pipeline
diarization = pipeline("test.wav")
print(diarization)
# print the result
for turn, _, speaker in diarization.itertracks(yield_label=True):print(f"start={turn.start:.1f}s stop={turn.end:.1f}s speaker_{speaker}")
# start=0.2s stop=1.5s speaker_0
# start=1.8s stop=3.9s speaker_1
# start=4.2s stop=5.7s speaker_0
# ...

学习内容三：整合

这里要借助一个开源代码，用于整合以上两种产生的结果

报错No module named 'pyannote_whisper'
如果你使用使用AutoDL平台，你可以使用学术代理加速

source /etc/network_turbo

git clone https://github.com/yinruiqing/pyannote-whisper.git
cd pyannote-whisper
pip install -r requirements.txt

在这里插入图片描述
这个错误可能是由于缺少或不正确安装了所需的 sndfile 库。sndfile 是一个用于处理音频文件的库，它提供了多种格式的读写支持。

你可以尝试安装 sndfile 库，方法如下：

在 Ubuntu 上，使用以下命令安装：sudo apt-get install libsndfile1-dev
在 CentOS 上，使用以下命令安装：sudo yum install libsndfile-devel
在 macOS 上，使用 Homebrew 安装：brew install libsndfile
然后重新执行如上指令

在项目里面写代码就可以了,或者复制代码里面的pyannote_whisper.utils模块代码

在这里插入图片描述

import os
import whisper
from pyannote.audio import Pipeline
from pyannote_whisper.utils import diarize_text
import concurrent.futures
import subprocess
import torch
print("正在加载声纹模型")
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization@2.1",use_auth_token="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")
output_dir = '/root/autodl-tmp/no/out'
print("正在whisper模型")
model = whisper.load_model("large", device="cuda")# MP3转化为wav
def convert_to_wav(path):new_path = ''if path[-3:] != 'wav':new_path = '.'.join(path.split('.')[:-1]) + '.wav'try:subprocess.call(['ffmpeg', '-i', path, new_path, '-y', '-an'])except:return path, 'Error: Could not convert file to .wav'else:new_path = ''return new_path, Nonedef process_audio(file_path):file_path, retmsg = convert_to_wav(file_path)print(f"===={file_path}=======")asr_result = model.transcribe(file_path, initial_prompt="语音转换")pipeline.to(torch.device('cuda'))diarization_result = pipeline(file_path, num_speakers=2)final_result = diarize_text(asr_result, diarization_result)output_file = os.path.join(output_dir, os.path.basename(file_path)[:-4] + '.txt')with open(output_file, 'w') as f:for seg, spk, sent in final_result:line = f'{seg.start:.2f} {seg.end:.2f} {spk} {sent}\n'f.write(line)if not os.path.exists(output_dir):os.makedirs(output_dir)wave_dir = '/root/autodl-tmp/no'# 获取当前目录下所有wav文件名
wav_files = [os.path.join(wave_dir, file) for file in os.listdir(wave_dir) if file.endswith('.mp3')]# 处理每个wav文件
# with concurrent.futures.ThreadPoolExecutor(max_workers=1) as executor:
#     executor.map(process_audio, wav_files)
for wav_file in wav_files:process_audio(wav_file)
print('处理完成！')

在这里插入图片描述

whisper深入-语者分离

文章目录学习目标：如何使用whisper学习内容一：whisper 转文字1.1 使用whisper.load_model()方法下载，加载1.2 使用实例对文件进行转录1.3 实战学习内容二：语者分离（pyannote.audio）pyannote.audio是huggi…...

编程日记 2023/12/21 6:17:25

LuaJava操作Java的方法

最近在学习lua，然后顺便看了下luaj，可能用的人比较少，网上关于luaj的文章较少，其中在网上找到这个博主的相关文章，很详细，对于要学习luaj的小伙伴可以两篇一起查看，本文在此基础上进行扩展。 …...

编程日记 2023/12/21 6:16:24

oracle怎样才算开启了内存大页？

oracle怎样才算开启了内存大页？ 关键核查下面三点： 1./etc/sysctl.conf vm.nr_hugepages16384这是给了32G，计划sga给30G，一般需多分配2-4G sysctl -p生效看cat /proc/meminfo|grep Huge啥结果？ 这种明显是配了…...

编程日记 2023/12/21 6:15:23

【halcon深度学习之那些封装好的库函数】determine_dl_model_detection_param

determine_dl_model_detection_param 目标检测的数据准备过程中的有一个库函数determine_dl_model_detection_param “determine_dl_model_detection_param” 直译为 “确定深度学习模型检测参数”。这个过程会自动针对给定数据集估算模型的某些高级参数，强烈建议…...

编程日记 2023/12/21 6:14:22

跟着我学Python进阶篇：01.试用Python完成一些简单问题

往期文章跟着我学Python基础篇：01.初露端倪跟着我学Python基础篇：02.数字与字符串编程跟着我学Python基础篇：03.选择结构跟着我学Python基础篇：04.循环跟着我学Python基础篇：05.函数跟着我学Python基础篇&#…...

编程日记 2023/12/21 6:13:21

neo4j-Py2neo使用

neo4j-Py2neo(一)：基本库介绍使用 py2neo的文档地址：https://neo4j-contrib.github.io/py2neo/ py2neo的本质是可以采用两种方式进行操作，一种是利用cypher语句，一种是使用库提供的DataTypes，Data类的实例需要和远程…...

编程日记 2023/12/21 6:07:16

uint29传输格式

前言不知道谁想出来的。反正我是想不到。我看网上也没人讲这个。写篇博客帮一下素未谋面的网友。 uint29 本质上是网络传输的时候，借用至多4字节Bytes，表达29位的无符号整数。读8位数字，判断小于128? 是的话，返回末7位…...

编程日记 2023/12/21 6:04:14

Linux：终端定时自动注销

这样防止了，当我们临时离开电脑这个空隙，被坏蛋给趁虚而入定几十秒或者分钟，如果这个时间段没有输入东西那么就会自动退出全局生效这个系统中的所有用户生效 vim /etc/profile在末尾加入TMOUT10 TMOUT10 这个就是10 秒，按…...

编程日记 2023/12/21 6:03:12

STM32F103RCT6开发板M3单片机教程06--定时器中断

前言除非特别说明，本章节描述的模块应用于整个STM32F103xx微控制器系列，因为我们使用是STM32F103RCT6开发板是mini最小系统板。本教程使用是（光明谷SUN_STM32mini开发板） STM32F10X定时器(Timer)基础首先了解一下是STM32F10X…...

编程日记 2023/12/21 5:56:05

数据库故障Waiting for table metadata lock

场景：早上来发现一个程序，链接mysql数据库有点问题，随后排查，因为容器在k8s里面。所以尝试重启了pod没有效果一、重启pod: 这里是几种在Kubernetes中重启Pod的方法: 删除Pod,利用Deployment重建 kubectl delete pod mypodDepl…...

编程日记 2023/12/21 5:54:03

Springboot数据校验与异常篇

一、异常处理 1.1Http状态码 HTTP状态码是指在HTTP通信过程中，服务器向客户端返回的响应状态。它通过3位数字构成，第一个数字定义了响应的类别，后两位数字没有具体分类作用。以下是常见的HTTP状态码及其含义： - 1xx（信…...

编程日记 2023/12/21 5:48:57

第三十六章 XML 模式的高级选项 - 创建子类型的替换组

文章目录第三十六章 XML 模式的高级选项 - 创建子类型的替换组创建子类型的替换组将子类限制在替换组中第三十六章 XML 模式的高级选项 - 创建子类型的替换组创建子类型的替换组 XML 模式规范还允许定义替换组，这可以是创建选择的替代方法。语法有些不同。无需…...

编程日记 2023/12/21 5:46:55

堆与二叉树（上）

本篇主要讲的是一些概念，推论和堆的实现（核心在堆的实现这一块） 涉及到的一些结论，证明放到最后，可以选择跳过，知识点过多，当复习一用差不多，如果是刚学这一块的，建议打…...

编程日记 2023/12/21 5:44:54

HBase查询的一些限制与解决方案

Apache HBase 是一个开源的、非关系型、分布式数据库，它是 Hadoop 生态系统的一部分，用于存储和处理大量的稀疏数据。HBase 在设计上是为了提供快速的随机读写能力，但与此同时，它也带来了一些查询上的限制： 没有SQL支持…...

编程日记 2023/12/21 5:43:52

软件开发 VS Web开发

我的新书《Android App开发入门与实战》已于2020年8月由人民邮电出版社出版，欢迎购买。点击进入详情目录介绍： 角色和职责： 软件开发人员： Web开发人员： 技能： 软件开发人员： Web开发人…...

编程日记 2023/12/21 5:42:51

基于Springboot的旅游网站设计与实现（论文+调试+源码）

项目描述临近学期结束，还是毕业设计，你还在做java程序网络编程，期末作业，老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据疫情当下，你想解决的问…...

编程日记 2023/12/21 5:38:47

【从零开始学习--设计模式--策略模式】

返回首页前言感谢各位同学的关注与支持，我会一直更新此专题，竭尽所能整理出更为详细的内容分享给大家，但碍于时间及精力有限，代码分享较少，后续会把所有代码示例整理到github，敬请期待。此章节介绍策…...

编程日记 2023/12/21 5:36:45

条款6：若不想使用编译器自动生成的函数，就该明确拒绝

有些场景我们不需要编译器默认实现的构造函数，拷贝构造函数，赋值函数，这时候我们应该明确的告诉编译器，我们不需要，一个可行的方法是将拷贝构造函数和赋值函数声明为private。 class HomeForSale { ... }; HomeForSal…...

编程日记 2023/12/21 5:31:41

零基础也能制作家装预约咨询小程序

近年来，随着互联网的快速发展，越来越多的消费者倾向于使用手机进行购物和咨询。然而，许多家装实体店却发现自己的客流量越来越少，急需一种新的方式来吸引顾客。而开发家装预约咨询小程序则成为了一种利用互联网技术来解决这一问题…...

编程日记 2023/12/21 5:30:39

Mybatis的插件运⾏原理，如何编写⼀个插件？

🚀 作者主页： 有来技术 🔥 开源项目： youlai-mall 🍃 vue3-element-admin 🍃 youlai-boot 🌺 仓库主页： Gitee 💫 Github 💫 GitCode 💖 欢迎点赞…...

编程日记 2023/12/21 5:23:34

LLMs之Steering ：《EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering》翻译与解

LLMs之Steering ：《EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering》翻译与解读导读：EasySteer 的核心意义是把 LLM steering 变成可用、可扩展、可落地的统一基础设施：它通过 vLLM 深度集成解决了速度瓶…...

编程新知 2026/3/23 5:04:42

如何设计cognee数据模型：优化LLM输出的终极指南

如何设计cognee数据模型：优化LLM输出的终极指南【免费下载链接】cognee Deterministic LLMs Outputs for AI Applications and AI Agents 项目地址: https://gitcode.com/GitHub_Trending/co/cognee cognee是一个专注于为AI应用和AI代理提供确定性LLM输出的…...

编程新知 2026/3/23 4:32:19

BLE Current Time Service嵌入式实现与时间同步实战

1. BLE Current Time Service 技术解析与嵌入式实现指南1.1 服务定位与工程价值BLE Current Time Service（CTS）是蓝牙 SIG 官方定义的标准 GATT 服务（UUID:0x1805），专用于在低功耗蓝牙设备间同步高精度时间信息。该服务…...

编程新知 2026/3/23 4:00:08

Cosmos-Reason1-7B辅助Anaconda环境管理：创建专属模型推理Python环境

Cosmos-Reason1-7B辅助Anaconda环境管理：创建专属模型推理Python环境你是不是也遇到过这种情况？想在自己的电脑上跑一下Cosmos-Reason1-7B这类大模型试试效果，结果光是配环境就折腾了大半天。Python版本不对，各种依赖包冲突&…...

编程新知 2026/3/23 3:21:29

InstructPix2Pix在跨境电商中的应用：多语言商品图本地化快速适配案例

InstructPix2Pix在跨境电商中的应用：多语言商品图本地化快速适配案例 1. 引言：跨境电商的图片本地化难题做跨境电商的朋友都知道，商品图片是吸引顾客的第一道门槛。但同一个商品卖到不同国家，往往需要准备多套图片：…...

编程新知 2026/3/23 2:28:53

HyphenConnect：ESP32嵌入式云连接中间件详解

1. HyphenConnect 项目概述HyphenConnect 是一款专为 ESP32 平台设计的开源云连接中间件库，其核心目标是抽象化异构网络接入与安全云交互的复杂性，使嵌入式开发者能够以声明式接口快速构建具备远程可管理能力的物联网终端。该库并非简单的 MQTT 客户端封…...

编程新知 2026/3/23 2:26:52

SinglePinDevice：嵌入式单引脚开关设备控制类库

1. 项目概述Bas.SinglePinDevice是一个面向嵌入式硬件控制场景的轻量级 Arduino 类库，专为通过单个 GPIO 引脚实现通断控制的简单外设而设计。其核心设计哲学是“极简即可靠”——不引入状态机、不依赖定时器、不封装复杂协议，仅通过一次digitalWrite()操…...

编程新知 2026/3/23 2:04:38

从零到一：基于TwinCAT3的巴鲁夫IO-Link模块实战配置指南

1. 环境准备与软件安装第一次接触TwinCAT3和巴鲁夫IO-Link模块时，我花了整整两天时间才搞明白环境配置的门道。现在回想起来，其实只要抓住几个关键点就能少走弯路。首先需要准备的是TwinCAT3 XAE开发环境，建议直接去倍福官网下载最新版本。安…...

编程新知 2026/3/23 1:18:15

嵌入式血氧饱和度算法BrainflowSpO2深度解析

1. BrainflowSpO2Algorithm 嵌入式血氧饱和度算法深度解析1.1 算法定位与工程价值BrainflowSpO2Algorithm 是一个面向嵌入式可穿戴设备的轻量级脉搏血氧饱和度（SpO₂）计算库，其核心设计目标并非替代临床级医疗设备，而是在资源受限…...

编程新知 2026/3/23 0:52:07

单片机学习路径：从寄存器操作到工程实践

1. 单片机学习路径的工程化实践指南单片机学习并非玄学，而是一套可拆解、可验证、可复现的工程能力构建过程。大量初学者陷入“学不会”的困境，并非智力或基础问题，而是缺乏清晰的技术路径规划与可落地的实践锚点。本文基于多年嵌入式系统开发…...

编程新知 2026/3/23 0:11:41

文章目录

学习目标：如何使用whisper

学习内容一：whisper 转文字

1.1 使用whisper.load_model()方法下载，加载

1.2 使用实例对文件进行转录

1.3 实战

学习内容二：语者分离（pyannote.audio）pyannote.audio是huggingface开源音色包

第一步：安装依赖

第二步：创建key

第三步：测试pyannote.audio

学习内容三：整合

相关文章：