当前位置: 首页 > news >正文

4.2、ipex-llm(原bigdl-llm)进行语音识别

ipex-llm环境配置及模型下载
由于需要处理音频文件,还需要安装用于音频分析的 librosa 软件包。

pip install librosa

下载音频文件

!wget -O audio_en.mp3 https://datasets-server.huggingface.co/assets/common_voice/--/en/train/5/audio/audio.mp3
!wget -O audio_zh.mp3 https://datasets-server.huggingface.co/assets/common_voice/--/zh-CN/train/2/audio/audio.mp3

播放下载完成的音频:

import IPythonIPython.display.display(IPython.display.Audio("audio_en.mp3"))
IPython.display.display(IPython.display.Audio("audio_zh.mp3"))

1、加载预训练好的 Whisper 模型

加载一个经过预训练的 Whisper 模型,例如 whisper-medium 。OpenAI 发布了各种尺寸的预训练 Whisper 模型(包括 whisper-small、whisper-tiny 等),您可以选择最符合您要求的模型。
只需在 ipex-llm 中使用单行 transformers-style API,即可加载具有 INT4 优化功能的 whisper-medium(通过指定 load_in_4bit=True),如下所示。请注意,对于 Whisper,我们使用了 AutoModelForSpeechSeq2Seq 类。

from ipex_llm.transformers import AutoModelForSpeechSeq2Seqmodel = AutoModelForSpeechSeq2Seq.from_pretrained(pretrained_model_name_or_path="openai/whisper-medium",load_in_4bit=True,trust_remote_code=True)

2、加载 Whisper Processor

无论是音频预处理还是将模型输出从标记转换为文本的后处理,我们都需要 Whisper Processor。您只需使用官方的 transformers API 加载 WhisperProcessor 即可:

from transformers import WhisperProcessorprocessor = WhisperProcessor.from_pretrained(pretrained_model_name_or_path="openai/whisper-medium")

3、转录英文音频

使用带有 INT4 优化功能的 IPEX-LLM 优化 Whisper 模型并加载 Whisper Processor 后,就可以开始通过模型推理转录音频了。
让我们从英语音频文件 audio_en.mp3 开始。在将其输入 Whisper Processor 之前,我们需要从原始语音波形中提取序列数据:

import librosadata_en, sample_rate_en = librosa.load("audio_en.mp3", sr=16000)

对于 whisper-medium,其 WhisperFeatureExtractor(WhisperProcessor 的一部分)默认使用
16,000Hz 采样率从音频中提取特征。关键的是要用模型的 WhisperFeatureExtractor
以采样率加载音频文件,以便精确识别。

然后,我们就可以根据序列数据转录音频文件,使用的方法与使用官方的 transformers API 完全相同:

import torch
import time# 定义任务类型
forced_decoder_ids = processor.get_decoder_prompt_ids(language="english", task="transcribe")with torch.inference_mode():# 为 Whisper 模型提取输入特征input_features = processor(data_en, sampling_rate=sample_rate_en, return_tensors="pt").input_features# 为转录预测 token idst = time.time()predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)end = time.time()# 将 token id 解码为文本transcribe_str = processor.batch_decode(predicted_ids, skip_special_tokens=True)print(f'Inference time: {end-st} s')print('-'*20, 'English Transcription', '-'*20)print(transcribe_str)

forced_decoder_ids 为不同语言和任务(转录或翻译)定义上下文 token 。如果设置为 None,Whisper 将自动预测它们。

4、转录中文音频并翻译成英文

现在把目光转向中文音频 audio_zh.mp3。Whisper 可以转录多语言音频,并将其翻译成英文。这里唯一的区别是通过 forced_decoder_ids 来定义特定的上下文 token:

# 提取序列数据
data_zh, sample_rate_zh = librosa.load("audio_zh.mp3", sr=16000)# 定义中文转录任务
forced_decoder_ids = processor.get_decoder_prompt_ids(language="chinese", task="transcribe")with torch.inference_mode():input_features = processor(data_zh, sampling_rate=sample_rate_zh, return_tensors="pt").input_featuresst = time.time()predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)end = time.time()transcribe_str = processor.batch_decode(predicted_ids, skip_special_tokens=True)print(f'Inference time: {end-st} s')print('-'*20, 'Chinese Transcription', '-'*20)print(transcribe_str)# 定义中文转录以及翻译任务
forced_decoder_ids = processor.get_decoder_prompt_ids(language="chinese", task="translate")with torch.inference_mode():input_features = processor(data_zh, sampling_rate=sample_rate_zh, return_tensors="pt").input_featuresst = time.time()predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)end = time.time()translate_str = processor.batch_decode(predicted_ids, skip_special_tokens=True)print(f'Inference time: {end-st} s')print('-'*20, 'Chinese to English Translation', '-'*20)print(translate_str)

相关文章:

4.2、ipex-llm(原bigdl-llm)进行语音识别

ipex-llm环境配置及模型下载 由于需要处理音频文件,还需要安装用于音频分析的 librosa 软件包。 pip install librosa下载音频文件 !wget -O audio_en.mp3 https://datasets-server.huggingface.co/assets/common_voice/--/en/train/5/audio/audio.mp3 !wget -O a…...

上海亚商投顾:创业板指低开低走 黄金、家电股逆势大涨

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 一.市场情绪 沪指4月12日震荡调整,创业板指尾盘跌超1%。黄金板块延续强势,莱绅通灵9连板&#xff0…...

AIGC革新浪潮:大语言模型如何优化企业运营

在当今快速发展的商业环境中,企业对于有效管理知识资产的需求日益增长。知识管理作为企业核心竞争力的关键组成部分,对于提高决策质量、增强创新能力和优化运营流程起着至关重要的作用。随着数字化转型的推进,企业对知识管理系统提出了新的要…...

Golang基础-12

Go语言基础 介绍 目录操作 创建 删除 重命名 遍历目录 修改权限 文件操作 创建 打开关闭 删除 重命名 修改权限 读文件 写文件 文件定位 拷贝 测试 单元测试 基准测试 示例 介绍 本文介绍Go语言中目录操作(创建目录、删除目录、重命名、遍历…...

python递归统计文件夹下pdf文件的数量

python递归统计文件夹下pdf文件的数量 import os from docx import Documentdef count_all_pages(root_dir):total_pages 0# 遍历文件夹for dirpath, dirnames, filenames in os.walk(root_dir):for filename in filenames:# if filename.endswith(.docx) or filename.endswit…...

Kafka 硬件和操作系统

目录 一. 前言 二. Kafka 硬件和操作系统(Hardware and OS) 2.1. 操作系统(OS) 2.2. 磁盘和文件系统(Disks and Filesystem) 一. 前言 Kafka 是 I/O 密集型而非计算密集型的框架,所以对 CP…...

Kolla-ansible部署OpenStack集群

0. OpenStack 部署 系统要求 单机部署最低配置: 2张网卡8G内存40G硬盘空间 主机系统: CentOS Stream 9Debian Bullseye (11)openEuler 22.03 LTSRocky Linux 9- Ubuntu Jammy (22.04) 官方不再支持CentOS 7作为主机系统,我这里使用的是R…...

SHARE 203S PRO:倾斜摄影相机在地灾救援中的应用

在地质灾害的紧急关头,救援队伍面临的首要任务是迅速而准确地掌握灾区的地理信息。这时,倾斜摄影相机成为了救援测绘的利器。SHARE 203S PRO,这款由深圳赛尔智控科技有限公司研发的五镜头倾斜摄影相机,以其卓越的性能和功能&#…...

MATLAB算法实战应用案例精讲-【数模应用】中介效应分析(补充篇)(附R语言和python代码实现)

目录 前言 几个高频面试题目 中介效应分析与路径分析的区别 1.中介效应分析 2.路径分析 注意事项...

Day96:云上攻防-云原生篇Docker安全系统内核版本漏洞CDK自动利用容器逃逸

目录 云原生-Docker安全-容器逃逸&系统内核漏洞 云原生-Docker安全-容器逃逸&docker版本漏洞 CVE-2019-5736 runC容器逃逸(需要管理员配合触发) CVE-2020-15257 containerd逃逸(启动容器时有前提参数) 云原生-Docker安全-容器逃逸&CDK自动化 知识点&#xff1…...

python botos s3 aws

https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/s3.html AWS是亚马逊的云服务,其提供了非常丰富的套件,以及支持多种语言的SDK/API。本文针对其S3云储存服务的Python SDK(boto3)的使用进行介绍。 …...

python画神经网络图

代码1(画神经网络连接图) from math import cos, sin, atan import matplotlib.pyplot as plt # 注意这里并没有用到这个networkx这个库,完全是根据matploblib这个库来画的。 class Neuron():def __init__(self, x, y,radius,nameNone):self.x xself.y …...

Bash 编程精粹:从新手到高手的全面指南之逻辑控制

在 Unix 和 Linux 系统中,Bash(Bourne-Again Shell)是一种广泛使用的 shell,提供了强大的脚本编程能力。本文将详细介绍 Bash 脚本中的逻辑控制结构,包括条件判断、分支选择、循环控制以及退出控制等内容。 条件判断&…...

自动化运维(三十)Ansible 实战之自定义插件

Ansible 自定义插件允许你扩展其功能,以满足特定的自动化需求。Ansible 支持多种类型的插件开发,如动态库存、查找、回调、过滤器、变量等。这里我们将通过实例,介绍如何开发、部署和使用一个自定义插件。 开发自定义查找插件 查找插件用于在 Ansible 任务中动态获取数据。…...

实习僧网站的实习岗位信息分析

目录 背景描述数据说明数据集来源问题描述分析目标以及导入模块1. 数据导入2. 数据基本信息和基本处理3. 数据处理3.1 新建data_clean数据框3.2 数值型数据处理3.2.1 “auth_capital”(注册资本)3.2.2 “day_per_week”(每周工作天数&#xf…...

C语言中局部变量和全局变量是否可以重名?为什么?

可以重名 在C语言中, 局部变量指的是定义在函数内的变量, 全局变量指的是定义在函数外的变量 他们在程序中的使用方法是不同的, 当重名时, 局部变量在其所在的作用域内具有更高的优先级, 会覆盖或者说隐藏同名的全局变量 具体来说: 局部变量的生命周期只在函数内部,如果出了…...

小程序中配置scss

找到:project.config.json 文件 setting 模块下添加: "useCompilerPlugins": ["sass","其他的样式类型"] 配置完成后,重启开发工具,并新建文件 结果:...

ZYNQ-Vitis(SDK)裸机开发之(四)PS端MIO和EMIO的使用

目录 一、ZYNQ中MIO和EMIO简介 二、Vivado中搭建block design 1.配置PS端MIO: 2.配置PS端EMIO: 三、Vitis中新建工程进行GPIO控制 1. GPIO操作头文件gpio_hdl.h: 2.GPIO操作源文件gpio_hdl.c: 3.main函数进行调用 例程开发…...

聊聊jvm中内存模型的坑

jvm线程的内存模型 看图,简单来说线程中操作的变量是副本。在并发情况下,如果数据发生变更,副本的数据就变为脏数据。这个时候就会有并发问题。 参考:https://www.cnblogs.com/yeyang/p/12580682.html 怎么解决并发问题 解决的…...

DevOps已死?2024年的DevOps将如何发展

随着我们进入2024年,DevOps也发生了变化。新兴的技术、变化的需求和发展的方法正在重新定义有效实施DevOps实践。 IDC预测显示,未来五年,支持DevOps实践的产品市场继续保持健康且快速增长,2022年-2027年的复合年增长率&#xff0…...

Wan2.2-I2V-A14B实操手册:修改infer.py源码支持自定义帧率与编码参数

Wan2.2-I2V-A14B实操手册:修改infer.py源码支持自定义帧率与编码参数 1. 镜像基础与修改背景 Wan2.2-I2V-A14B私有部署镜像为文生视频任务提供了开箱即用的解决方案,但在实际业务场景中,我们经常需要对视频输出的帧率和编码参数进行精细控制…...

如何轻松掌握Google Cloud Vision图像识别:5步快速上手指南

如何轻松掌握Google Cloud Vision图像识别:5步快速上手指南 【免费下载链接】cloud-vision Sample code for Google Cloud Vision 项目地址: https://gitcode.com/gh_mirrors/cl/cloud-vision Google Cloud Vision是一款强大的图像识别服务,它能让…...

Pixel Script Temple 机器学习全流程辅助:从数据清洗到模型部署脚本

Pixel Script Temple 机器学习全流程辅助:从数据清洗到模型部署脚本 1. 机器学习项目中的痛点与解决方案 在机器学习项目的实际开发中,数据科学家常常面临一个共同的困境:大量时间被消耗在重复性的代码编写和调试上,而非核心算法…...

Python玩转微信自动化:除了监控聊天,uiautomation还能帮你自动保存文件、整理聊天记录

Python实现微信自动化管理:从文件归档到聊天记录整理 微信已经成为现代办公不可或缺的沟通工具,但随之而来的是海量文件管理和聊天记录整理的烦恼。每天手动保存图片、文档,再按日期分类,不仅耗时耗力,还容易遗漏重要…...

Windows用户福音:不用Mac也能搞定uniapp的iOS证书和Profile文件(附详细截图)

Windows平台下高效生成uniapp iOS证书与Profile文件的完整指南 对于许多使用uniapp进行跨平台开发的Windows用户而言,iOS证书和Profile文件的生成一直是个令人头疼的问题。传统方法要求开发者必须拥有Mac设备,这无疑增加了开发门槛和成本。但事实上&…...

在线数据处理工具

推荐一个好用的在线数据处理工具,程序员必备 作为程序员,经常需要处理各种文本数据。今天推荐10个超好用的在线工具,每个都能帮你节省大量时间。 1. 文本去重工具 地址:https://www.aiyun1.cloud/dedup 功能:一键去除…...

Flowable UI 6.6.0 生产环境部署踩坑实录:从H2内存库迁移到PostgreSQL的全过程

Flowable UI 6.6.0 生产环境部署实战:从H2到PostgreSQL的完整迁移指南 当你第一次接触Flowable UI时,可能会被它默认的H2内存数据库所迷惑——启动简单,但重启后数据全无。这种配置显然不适合生产环境。本文将带你深入实战,完成从…...

OpenClaw+千问3.5-9B:自动化学习笔记整理系统

OpenClaw千问3.5-9B:自动化学习笔记整理系统 1. 为什么需要自动化笔记整理 作为一个长期与技术文档打交道的开发者,我发现自己陷入了一个困境:每天阅读大量技术文章、论文和在线课程,但收集的笔记却散落在不同平台——有些在One…...

Unity3D 资源逆向工程:AssetStudio 源码编译与定制化开发指南

1. 为什么需要编译AssetStudio源码 第一次接触Unity资源逆向时,我也像大多数人一样直接下载了AssetStudio的release版本。双击exe就能看到熟悉的界面,拖入apk文件就能解包,这种开箱即用的体验确实很爽。但很快我就遇到了棘手的问题&#xff1…...

简单的kail中使用docker搭建vulhub靶场

我这里kali版本是6.12.38 一,安装docker 提权:sudo su 更新一手软件资源 命令:apt-get update ┌──(root㉿kali)-[/home/kali/Desktop] └─# apt-get update 获取:1 http://mirrors.ustc.edu.cn/kali kali-rolling InRelease [34.0 kB]…...