当前位置：首页 > news >正文

HarmonyOS 原生智能之语音识别实战

news 文章来源：https://blog.csdn.net/sjw890821sjw/article/details/140881059 2025/5/6 12:04:24

HarmonyOS 原生智能之语音识别实战

背景

公司很多业务场景使用到了语音识别功能，当时我们的语音团队自研了语音识别模型，方案是云端模型加端侧SDK交互，端侧负责做语音采集、VAD、opus编码，实时传输给云端，云端识别后返回识别结果。这些业务场景在适配鸿蒙的过程发现HarmonyOS 原生智能中提供了本地语音识别SDK，动手封装一波。

场景介绍

原生语音识别能力支持两种模式：

短语音模式（不超过60s）
长语音模式（不超过8h）

API接口介绍

1. 引擎初始化

speechRecognizer.createEngine

let asrEngine: speechRecognizer.SpeechRecognitionEngine;
// 创建引擎，通过callback形式返回
// 设置创建引擎参数
let extraParam: Record<string, Object> = {"locate": "CN", "recognizerMode": "short"};
let initParamsInfo: speechRecognizer.CreateEngineParams = {language: 'zh-CN',online: 1,extraParams: extraParam
};
// 调用createEngine方法
speechRecognizer.createEngine(initParamsInfo, (err: BusinessError, speechRecognitionEngine: speechRecognizer.SpeechRecognitionEngine) => {if (!err) {console.info('Succeeded in creating engine.');// 接收创建引擎的实例asrEngine = speechRecognitionEngine;} else {// 无法创建引擎时返回错误码1002200008，原因：引擎正在销毁中console.error(`Failed to create engine. Code: ${err.code}, message: ${err.message}.`);}
});

主要是需要构建引擎参数speechRecognizer.CreateEngineParams：

language：语言
online：模式，1为离线，目前只支持离线引擎
extraParams：区域信息等
- locate：区域信息，可选，不设置时默认为“CN”，当前仅支持“CN”
- recognizerMode：识别模式，包含短语音short与场语音long
  回调中可以查看错误信息：

无法创建引擎时返回错误码1002200001，原因：语种不支持、模式不支持、初始化超时、资源不存在等导致创建引擎失败
无法创建引擎时返回错误码1002200006，原因：引擎正在忙碌中，一般多个应用同时调用语音识别引擎时触发
无法创建引擎时返回错误码1002200008，原因：引擎正在销毁中

2、设置RecognitionListener回调

回调主要处理识别过程中的事件，最主要的就是onResult处理识别内容，不同的对话对应不同的sessionId：

// 创建回调对象
let setListener: speechRecognizer.RecognitionListener = {// 开始识别成功回调onStart(sessionId: string, eventMessage: string) {},// 事件回调onEvent(sessionId: string, eventCode: number, eventMessage: string) {},// 识别结果回调，包括中间结果和最终结果onResult(sessionId: string, result: speechRecognizer.SpeechRecognitionResult) {},// 识别完成回调onComplete(sessionId: string, eventMessage: string) {},// 错误回调，错误码通过本方法返回,如：返回错误码1002200006，识别引擎正忙，引擎正在识别中onError(sessionId: string, errorCode: number, errorMessage: string) {}
}
// 设置回调
asrEngine.setListener(setListener);

3、开始识别

let audioParam: speechRecognizer.AudioInfo = {audioType: 'pcm', sampleRate: 16000, soundChannel: 1, sampleBit: 16};
let extraParam: Record<string, Object> = {"vadBegin": 2000, "vadEnd": 3000, "maxAudioDuration": 40000};
let recognizerParams: speechRecognizer.StartParams = {sessionId: sessionId,audioInfo: audioParam,extraParams: extraParam
};
// 调用开始识别方法
asrEngine.startListening(recognizerParams);

主要是设置开始识别的相关参数：

sessionId：会话id，与onResult回调中的sessionId要对应
audioInfo：音频配置信息，可选
- audioType：目前只支持PCM，如果要识别MP3文件等需要解码后再传给引擎
- sampleRate：音频的采样率，当前仅支持16000采样率
- sampleBit：音频返回的采样位数，当前仅支持16位
- soundChannel：音频返回的通道数信息，当前仅支持通道1
- extraParams：音频的压缩率，pcm格式音频默认为0
extraParams：额外配置信息，主要包含：
- recognitionMode：实时语音识别模式（不传时默认为1）
  - 0：实时录音识别（需应用开启录音权限：ohos.permission.MICROPHONE），若需结束录音，则调用finish方法
  - 1：实时音频转文字识别，开启此模式时需要额外调用writeAudio方法，传入待识别音频流；
- vadBegin：Voice Activity Detection(VAD)前端点设置，参数范围是[500,10000]，不传参时默认为10000ms
- vadEnd：Voice Activity Detection(VAD)后端点设置。参数范围是[500,10000]，不传参时默认为800ms。
- maxAudioDuration：最大支持音频时长
  - 短语音模式支持范围[20000-60000]ms，不传参时默认20000ms。
  - 长语音模式支持范围[20000 - 8 * 60 * 60 * 1000]ms。
    VAD作用主要是语音活动检测，对静音数据不进行识别

4、传入音频流

asrEngine.writeAudio(sessionId, uint8Array);

向引擎写入音频数据，可以从麦克风或者音频文件中读取音频流。
注意：音频流长度仅支持640或1280。

5、其他接口

listLanguages：查询语音识别服务支持的语种信息
finish：结束识别
取消识别：cancel
shutdown：释放识别引起资源

最佳实践

实时识别的场景需要从麦克风实时读取音频，写入到asrEngine，在onResult回调中获取识别结果。
配置音频采集参数并创建AudioCapturer实例：

 import { audio } from '@kit.AudioKit';let audioStreamInfo: audio.AudioStreamInfo = {samplingRate: audio.AudioSamplingRate.SAMPLE_RATE_16000, // 采样率channels: audio.AudioChannel.CHANNEL_1, // 通道sampleFormat: audio.AudioSampleFormat.SAMPLE_FORMAT_S16LE, // 采样格式encodingType: audio.AudioEncodingType.ENCODING_TYPE_RAW // 编码格式};let audioCapturerInfo: audio.AudioCapturerInfo = {source: audio.SourceType.SOURCE_TYPE_MIC,capturerFlags: 0};let audioCapturerOptions: audio.AudioCapturerOptions = {streamInfo: audioStreamInfo,capturerInfo: audioCapturerInfo};audio.createAudioCapturer(audioCapturerOptions, (err, data) => {if (err) {console.error(`Invoke createAudioCapturer failed, code is ${err.code}, message is ${err.message}`);} else {console.info('Invoke createAudioCapturer succeeded.');let audioCapturer = data;}});

这里注意采样率和声道以及采样位数要符合ASR引擎要求：16k采样、单声道、16位采样位数。
接着调用on(‘readData’)方法，订阅监听音频数据读入回调：

 import { BusinessError } from '@kit.BasicServicesKit';import { fileIo } from '@kit.CoreFileKit';let bufferSize: number = 0;class Options {offset?: number;length?: number;}let readDataCallback = (buffer: ArrayBuffer) => {//将buffer写入asr引擎asrEngine.writeAudio(sessionId, new Uint8Array(buffer));}audioCapturer.on('readData', readDataCallback);

这里注意写入buffer的大小显示，ASR只支持640或1280。

总结

本文介绍了 HarmonyOS 官方提供的语音识别能力，详解介绍了ASR引擎接口，最后基于麦克风采集数据实现了实时麦克风语音识别功能。

HarmonyOS 原生智能之语音识别实战

HarmonyOS 原生智能之语音识别实战背景公司很多业务场景使用到了语音识别功能，当时我们的语音团队自研了语音识别模型，方案是云端模型加端侧SDK交互，端侧负责做语音采集、VAD、opus编码，实时传输给云端，云端识别后…...

编程日记 2024/8/3 13:46:51

基于Gromacs的蛋白质与小分子配体相互作用模拟教程

在生命科学的广阔领域中，蛋白质与小分子配体之间的相互作用扮演着至关重要的角色。这些相互作用不仅影响着生物体内的各种生命活动，如信号传导、代谢调控和药物作用等，同时也是药物设计和开发的核心内容。因此，深入理解并模拟这些…...

编程日记 2024/8/3 13:45:50

Ubuntu下python3.12安装, 分布式 LLM 推理 exo 安装调试过程, 运行自己的 AI 集群

创作不易只因热爱!! 热衷分享，一起成长! “你的鼓励就是我努力付出的动力” —调试有点废,文章有点长,希望大家用心看完,肯定能学废,感谢. 1. Ubuntu下python3.12安装 1.1 导入 Python 的稳定版 PPA,不用编译 sudo add-apt-repository ppa:deadsnakes/ppa sudo…...

编程日记 2024/8/3 13:44:49

pytest-bdd 行为驱动自动化测试

引言 pytest-bdd 是一个专为Python设计的行为驱动开发（BDD）测试框架，它允许开发人员使用自然语言（如Gherkin）来编写测试用例，从而使测试用例更易于理解和维护。安装通过pip安装 pip install pytest-b…...

编程日记 2024/8/3 13:43:48

PostgreSQL11 | 触发器

本文章代码已在pgsql11.22版本上运行且通过，展示页由pgAdmin8.4版本提供上一篇总结了原著的第十章有关pgsql的视图的用法，本篇将总结pgsql的触发器的用法。触发器使用触发器可以自动化完成一些在插入数据或修改数据时，某些需要同期同步的…...

编程日记 2024/8/3 13:42:47

cesium canvas广告牌

在有些业务中，对场景中的广告牌样式要求比较高，需要动态显示一些数据，这个时候，我们可以通过将复杂背景样式制作成图片，通过canvas绘制图片和动态数据，从而达到比较好的显示效果。 1 CanvasMarker 类封装 …...

编程日记 2024/8/3 13:41:46

使用Floyd算法求解两点间最短距离

Floyd算法 Floyd算法又称为Floyd-Warshell算法，其实Warshell算法是离散数学中求传递闭包的算法，两者的思想是一致的。Floyd算法是求解多源最短路时通常选用的算法，经过一次算法即可求出任意两点之间的最短距离，并且可以处理有负权…...

编程日记 2024/8/3 13:39:44

linux“how_paras.sh“ E212: 无法打开并写入文件

经过一番测试和查找， [6localhost bin]$ find / -name "hello.sh" 2>/dev/null /home/6/bin/hello.sh [6localhost bin]$ ls hello.sh ls: 无法访问hello.sh: 没有那个文件或目录，为什么在/bin文件下却不能打开， [6localhost …...

编程日记 2024/8/3 13:38:43

CSS mask-image 实现边缘淡出过渡效果

使用场景在生产环境中，遇到一个需求，需要在一个深色风格的大屏页面中，嵌入 Google Maps。为了减少违和感，希望地图四边能够淡出过渡。这里的“淡出过渡”，关键是淡出，而非降低透明度。基于 Google Ma…...

编程日记 2024/8/3 13:37:42

电子元器件—电容和电感（一篇文章搞懂电路中的电容和电感）（笔记）（面试考试必备知识点）电容和电感作用、用途、使用、注意事项、特点等（面试必备）-笔记（详解）

作者：Whappy 座右铭：不曾拥有，何来失去！ 时间：2024年8月2日08:40:04 一、电容的作用储能： 电容器通过充电储存电荷在电容板上，形成电场储存电能。当需要释放储存的电能时，电荷…...

编程日记 2024/8/3 13:36:42

2024HDU Contest 5 Problem 5

题目链接从大到小枚举gcd的值 d d d，以及编号为 d d d的倍数的点， [ d , 2 d , 3 d , … ] [d,2d,3d,\dots] [d,2d,3d,…]。然后对于任何一条边 ( x , y ) (x,y) (x,y)，如果 x x x的子树和 y y y的子树里都有编号为 d d d倍数的点&#xf…...

编程日记 2024/8/3 13:35:40

nGQL入门

引言 nGQL（NebulaGraph Query Language）是用于操作 NebulaGraph 的查询语言。它的语法类似于 Cypher，但有自己独特的特性。以下是一些 nGQL 的基本语法和操作示例，以帮助你入门。基本概念节点（Vertex）…...

编程日记 2024/8/3 13:34:39

[CP_AUTOSAR]_系统服务_DEM模块（二）功能规范介绍

目录 1、DEM 功能规范描述1.1、Startup behavior1.2、Monitor re-initialization 在前面《[CP_AUTOSAR]_系统服务_DEM模块（一）》文中，简要介绍了 DEM 模块的功能、与其它模块之间的功能交互，本文将接着介绍 DEM 模块的功能规范。…...

编程日记 2024/8/3 13:33:38

Linux中yum、rpm、apt-get、wget的区别，yum、rpm、apt-get常用命令，CentOS、Ubuntu中安装wget

文章目录一、常见Linux发行版本二、Linux中yum、rpm、apt-get、wget的区别2.1 yum2.2 rpm2.3 apt-get2.4 wget2.5 总结三、CentOS中yum的作用3.1 yum清空缓存列表3.2 yum显示信息3.3 yum搜索、查看3.4 yum安装3.5 yum删除、卸载程序3.6 yum包的升级、降级四、Ubuntu中apt-ge…...

编程日记 2024/8/3 13:32:36

IPython的使用技巧2

关注我，持续分享逻辑思维&管理思维&面试题； 可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导； 推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的…...

编程日记 2024/8/3 13:31:35

win10打开程序闪退的解决方法,亲测好用

当我们在使用win10系统的时候，可能会遇到安装某些程序后无法正常使用，一打开就闪退，或者点击右下角图标就消失了，而其他程序却可以正常打开使用。下面小编就来和大家分享亲测好用的win10打开程序闪退的解决办法。问题原因分析&a…...

编程日记 2024/8/3 13:30:34

木舟0基础学习Java的第二十一天(数据库,MySQL,SQLyog)

数据库数据库：按照数据结构来组织存储数据的厂库数据管理系统(Database Management System,DBMS)：一套操作和管理数据库的软件用于简历使用维护数据库关系型数据库：采用关系模型作为数据组织方式逻辑结构是一张二维表由行和列组成…...

编程日记 2024/8/3 13:29:33

python-鼠标绘画线条程序

闲来无聊简单编写了一个绘图小程序。主要思路主要是基于Python中的内置模块turtle编写的，简单扩展了一下，通过绑定事件能够达到鼠标绘制、删除、存储已经绘制图案的线条这几个功能。路径结构 -draw- define.py- main.py- myturtle.py使用点住鼠…...

编程日记 2024/8/3 13:28:31

【Python实战】如何优雅地实现 PDF 去水印？

话接上篇，自动化处理 PDF 文档，完美实现 WPS 会员功能小伙伴们更关心的是如何去除 PDF 中的水印~ 今天，就来分享一个超简单的 PDF 去水印方法~ 1. 原理介绍在上一篇中，我们介绍了如何将 PDF 文档转换成图片，图片…...

编程日记 2024/8/3 13:25:29

Keysight(原Agilent) E4980AL 精密 LCR 表特性与技术指标

Keysight(原Agilent) E4980AL 精密 LCR 表为基础 LCR 表树立了行业标准，可在多个频率范围内提供更佳的精度、速度和通用性。E4980AL 结合了种类繁多的附件，适用于一般研发和生产环境中的各种元件和材料测量。也可通过频率升级而提升投资回报率。 Keysig…...

编程日记 2024/8/3 13:24:28

【运维】Redis主从复制配置

【运维】Redis主从复制配置主库配置Master # 默认情况下，是启用保护模式的，其他主机的客户端无法连接到 Redis 。当想要其他主机的客户端连接到 Redis 时，需要修改为 no 。protected-mode no 从库配置Slave # replicaof [master主机ip] …...

编程日记 2024/8/3 13:23:27

C++ 微积分 - 求导 - 自动微分（Automatic Differentiation）

C 微积分 - 求导 - 自动微分（Automatic Differentiation） flyfish 自动微分（Automatic Differentiation，简称 AD）是一种用于精确计算函数导数的技术。它结合了符号微分的准确性和数值微分的效率。自动微分的核心思想…...

编程日记 2024/8/3 13:22:25

面试题-每日5道

26.在 Queue 中 poll()和 remove()有什么区别? 相同点：都是删除第一个元素并返回。不同点：如果没有元素poll()会返回null,而remove()会抛出NoSuchElementException异常 27.哪些集合类是线程安全的？ Vector,Stock,Hashtable都是线程安全的&a…...

编程日记 2024/8/3 13:21:23

STM32卡死、跑飞如何调试确定问题

目录前言一、程序跑飞原因二、调试工具 2.1Registers工具 2.2 Memory工具 2.3 Disassembly工具 2.4 Call Stack工具三、找到程序跑飞位置方式一、方式二、前言我们初学STM32的时候代码难免会出现疏忽，导致程序跑飞，不再正常运行&#…...

编程日记 2024/8/3 13:17:20

代理模式和Spring MVC

Spring是一个分层的轻量级的开源Java框架。核心是IOC(Inverse of Control 控制反转)和AOP(Aspect Oriented Programming 面向切面编程) AOP 面向切面 AOP （Aspect Orient Programming）,直译过来就是面向切面编程，AOP 是一种编程思想&#x…...

编程日记 2024/8/3 13:15:18