当前位置：首页 > news >正文

4.2、ipex-llm(原bigdl-llm)进行语音识别

news 2026/5/6 16:21:23

ipex-llm环境配置及模型下载
由于需要处理音频文件，还需要安装用于音频分析的 librosa 软件包。

pip install librosa

下载音频文件

!wget -O audio_en.mp3 https://datasets-server.huggingface.co/assets/common_voice/--/en/train/5/audio/audio.mp3
!wget -O audio_zh.mp3 https://datasets-server.huggingface.co/assets/common_voice/--/zh-CN/train/2/audio/audio.mp3

播放下载完成的音频：

import IPythonIPython.display.display(IPython.display.Audio("audio_en.mp3"))
IPython.display.display(IPython.display.Audio("audio_zh.mp3"))

1、加载预训练好的 Whisper 模型

加载一个经过预训练的 Whisper 模型，例如 whisper-medium 。OpenAI 发布了各种尺寸的预训练 Whisper 模型（包括 whisper-small、whisper-tiny 等），您可以选择最符合您要求的模型。
只需在 ipex-llm 中使用单行 transformers-style API，即可加载具有 INT4 优化功能的 whisper-medium（通过指定 load_in_4bit=True），如下所示。请注意，对于 Whisper，我们使用了 AutoModelForSpeechSeq2Seq 类。

from ipex_llm.transformers import AutoModelForSpeechSeq2Seqmodel = AutoModelForSpeechSeq2Seq.from_pretrained(pretrained_model_name_or_path="openai/whisper-medium",load_in_4bit=True,trust_remote_code=True)

2、加载 Whisper Processor

无论是音频预处理还是将模型输出从标记转换为文本的后处理，我们都需要 Whisper Processor。您只需使用官方的 transformers API 加载 WhisperProcessor 即可：

from transformers import WhisperProcessorprocessor = WhisperProcessor.from_pretrained(pretrained_model_name_or_path="openai/whisper-medium")

3、转录英文音频

使用带有 INT4 优化功能的 IPEX-LLM 优化 Whisper 模型并加载 Whisper Processor 后，就可以开始通过模型推理转录音频了。
让我们从英语音频文件 audio_en.mp3 开始。在将其输入 Whisper Processor 之前，我们需要从原始语音波形中提取序列数据：

import librosadata_en, sample_rate_en = librosa.load("audio_en.mp3", sr=16000)

对于 whisper-medium，其 WhisperFeatureExtractor（WhisperProcessor 的一部分）默认使用
16,000Hz 采样率从音频中提取特征。关键的是要用模型的 WhisperFeatureExtractor
以采样率加载音频文件，以便精确识别。

然后，我们就可以根据序列数据转录音频文件，使用的方法与使用官方的 transformers API 完全相同：

import torch
import time# 定义任务类型
forced_decoder_ids = processor.get_decoder_prompt_ids(language="english", task="transcribe")with torch.inference_mode():# 为 Whisper 模型提取输入特征input_features = processor(data_en, sampling_rate=sample_rate_en, return_tensors="pt").input_features# 为转录预测 token idst = time.time()predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)end = time.time()# 将 token id 解码为文本transcribe_str = processor.batch_decode(predicted_ids, skip_special_tokens=True)print(f'Inference time: {end-st} s')print('-'*20, 'English Transcription', '-'*20)print(transcribe_str)

forced_decoder_ids 为不同语言和任务（转录或翻译）定义上下文 token 。如果设置为 None，Whisper 将自动预测它们。

4、转录中文音频并翻译成英文

现在把目光转向中文音频 audio_zh.mp3。Whisper 可以转录多语言音频，并将其翻译成英文。这里唯一的区别是通过 forced_decoder_ids 来定义特定的上下文 token：

# 提取序列数据
data_zh, sample_rate_zh = librosa.load("audio_zh.mp3", sr=16000)# 定义中文转录任务
forced_decoder_ids = processor.get_decoder_prompt_ids(language="chinese", task="transcribe")with torch.inference_mode():input_features = processor(data_zh, sampling_rate=sample_rate_zh, return_tensors="pt").input_featuresst = time.time()predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)end = time.time()transcribe_str = processor.batch_decode(predicted_ids, skip_special_tokens=True)print(f'Inference time: {end-st} s')print('-'*20, 'Chinese Transcription', '-'*20)print(transcribe_str)# 定义中文转录以及翻译任务
forced_decoder_ids = processor.get_decoder_prompt_ids(language="chinese", task="translate")with torch.inference_mode():input_features = processor(data_zh, sampling_rate=sample_rate_zh, return_tensors="pt").input_featuresst = time.time()predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)end = time.time()translate_str = processor.batch_decode(predicted_ids, skip_special_tokens=True)print(f'Inference time: {end-st} s')print('-'*20, 'Chinese to English Translation', '-'*20)print(translate_str)

4.2、ipex-llm(原bigdl-llm)进行语音识别

1、加载预训练好的 Whisper 模型

2、加载 Whisper Processor

3、转录英文音频

4、转录中文音频并翻译成英文

相关文章：

4.2、ipex-llm(原bigdl-llm)进行语音识别

上海亚商投顾：创业板指低开低走黄金、家电股逆势大涨

AIGC革新浪潮：大语言模型如何优化企业运营

Golang基础-12

python递归统计文件夹下pdf文件的数量

Kafka 硬件和操作系统

Kolla-ansible部署OpenStack集群

SHARE 203S PRO：倾斜摄影相机在地灾救援中的应用

MATLAB算法实战应用案例精讲-【数模应用】中介效应分析（补充篇）（附R语言和python代码实现）

Day96：云上攻防-云原生篇Docker安全系统内核版本漏洞CDK自动利用容器逃逸

python botos s3 aws

python画神经网络图

Bash 编程精粹：从新手到高手的全面指南之逻辑控制

自动化运维（三十）Ansible 实战之自定义插件

实习僧网站的实习岗位信息分析

C语言中局部变量和全局变量是否可以重名?为什么?

小程序中配置scss

ZYNQ-Vitis(SDK)裸机开发之（四）PS端MIO和EMIO的使用

聊聊jvm中内存模型的坑

DevOps已死？2024年的DevOps将如何发展

FanControl终极指南：从风扇噪音到静音大师的蜕变之旅

VSCode AI编程助手FlexPilot：从智能代码生成到实战配置全解析

告别Unity/UE4，用Love2D和VSCode开启你的独立游戏开发之旅（附详细配置流程）

深度解构：如何基于PX4-Autopilot构建高性能无人机控制系统

别再到处找了！2024年最全的开源工业以太网协议栈清单（EtherCAT/Profinet/Modbus）

抖音下载器完整指南：免费批量下载无水印抖音视频、图集和音乐终极教程

前端联调总报跨域错误？5分钟搞定Flask后端CORS配置（附Chrome/Postman排查技巧）

Bambu Lab X1：AI与激光雷达重塑3D打印技术

多处理器JTAG实时分析技术解析与优化

开源AI智能体框架CL4R1T4S：构建可靠多智能体系统的架构与实践