【专用名词的离线语音识别在2024年底的解决方法调查-会议签到的补充】
语音识别在会议点名中的使用
- 概要
- 解决问题的过程
- 不行的一些参考
- 可以的一个package
- 自定义词语的拼音转换
- 遗留的问题
- 小结
概要
提示:这里可以添加技术概要
这里只实现一个方面,每个android会议设备都可通过语音发送参会者姓名,自动转换成文字添加到人员名单.
语音采集和发送,是通路.
识别是核心.目前的模型和模块都是针对通用语言的,在这里不合适,我只要适合的名字,并且容易添加新的名字.
最后能接受自主调节.
听得懂指令. 看似需要AI支持了,难搞.
解决问题的过程
不行的一些参考
. https://alphacephei.com/vosk/lm
这是vosk的调整,明显还不支持中文
https://github.com/Uberi/speech_recognition/blob/master/reference/pocketsphinx.rst#installing-other-languages
这是pocketsphinx在speechrecognition中的表示,看似可以调整,但是难度有点太大了.
如同vosp中说的端到端,复杂程度大,但是通用性好.可是我只想加个词典,居然这么难的吗.
可以的一个package
`提示: pocketsphinx 5.0.3
这里 pypy:https://pypi.org/project/SpeechRecognition/
原理就用里面的离线库 spinx
准备中文库
这里的中文库从:
https://jaist.dl.sourceforge.net/project/cmusphinx/Acoustic%20and%20Language%20Models/Mandarin/cmusphinx-zh-cn-5.2.tar.gz?viasf=1
来源
https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/Mandarin/
它可以搭配 /SpeechRecognition/ 中的sphinx使用,然而 pocketsphinx却不行.
然后借鉴这里https://blog.csdn.net/Zbreakzhong/article/details/109127837
对中文单词进行编码
将cmusphinx-zh-cn-5.2.tar.解压后放入
,\Lib\site-packages\speech_recognition\pocketsphinx-data\zh-CN
仿照 en-US,为个别文件和文件夹命名.
然后就可以更改根目录下dic文件
演示
段*栓 d uan4 h ong2 sh uan1
石*阳 sh ix2 x iang4 ii ang2
张*嘉 zh ang1 s ai4 j ia1
准备好后
import speech_recognition as sr# 创建Recognizer对象
r = sr.Recognizer()# 从音频文件中识别语音
def recognize_speech_from_file(file_path):with sr.AudioFile(file_path) as source:audio = r.record(source) # 读取音频文件try:text = r.recognize_sphinx(audio, language='zh-CN') # 使用Google语音识别引擎识别语音return textexcept sr.UnknownValueError:print("无法识别音频")except sr.RequestError as e:print("无法连接到Google语音识别服务:{0}".format(e))# 从麦克风实时录制并识别语音
def recognize_speech_from_microphone():with sr.Microphone() as source:print("请开始说话...")audio = r.listen(source) # 实时录制音频try:text = r.recognize_sphinx(audio, language='zh-CN') # 使用Google语音识别引擎识别语音return textexcept sr.UnknownValueError:print("无法识别音频")except sr.RequestError as e:print("无法连接到Google语音识别服务:{0}".format(e))# 调用函数进行语音识别
file_text = recognize_speech_from_file('audio.wav')
print("音频文件识别结果:", file_text)mic_text = recognize_speech_from_microphone()
print("麦克风实时识别结果:", mic_text)
自定义词语的拼音转换
使用pypinyin,由于一开始想,也许可以听得懂拼音.只是字错.所以想用听来的字,转成拼音, 比对字典文字的拼音. 写了一上午后发现,拼音是听不懂的. 错误率的一半以上…但是这部分代码,可以借给生成 spinx的单词注音用.
目前来看 y, ii, w,uu, shi 是shix,需要一些这样的调节,其他都是一样的.另外取消了多音字的处理.
from pypinyin import pinyin, lazy_pinyin, Style
def name2py(name,duoyin=True):return pinyin(name, heteronym=duoyin,style=Style.TONE3)
#names内容一行一个人名,转换成, dic的注音版
def getnames():
with open("names.txt", 'r',encoding ='utf-8') as nf:lines=[ln.strip() for ln in nf.readlines()]return lines
pinyin('中乐', heteronym=True,style=Style.TONE3) nms=getnames()
pys=list(map(name2py,nms))#test=[['gao1', 'gao4'], ['lei2', 'lei4']]
#tar=[['gao1'],['lei2']]
#r=find1py(tar,test)
def find1py(onepy,oneitem):if len(onepy)!=len(oneitem):return Falsefor (i,j) in zip(onepy,oneitem):if i[0][-1].isdigit():i=i[0][:-1]print(j)print("i in "+i)if ','.join(j).find(i)==-1:return Falsereturn True def godo(name,pys=pys,nms=nms):target = name2py(name,duoyin=False)for i,item in enumerate(pys):print(item)if find1py(target,item):return nms[i]return None
def writedic():with open('zh.dic.txt','w') as wf:for i in nms[:30]:final=pinyin(i, heteronym=False,style=Style.INITIALS)rt=name2py(i,False)toget=i+" "for init ,r in zip(final,rt):r=r[0].replace("zhi","zhix").replace("chi","chix").replace("shi","shix")r= r.replace(init[0],'')r=r.replace('w','uu ').replace('y','ii ')toget+=fr"{init[0]} {r} "print (toget[:-1])#r=godo("含风",pys,nms)writedic()
遗留的问题
忙音和部分语音会出现串位不知道为啥,有时候说一个人会出来两个
还有就是网络接口的调节, 接受语音提供反馈,vosp自身有这个功能. 目前用的没有.
小结
提示:这里可以添加总结
虽然已经结束了初步测试,但是还有性能和调优和网络化服务的需求.
相关文章:
【专用名词的离线语音识别在2024年底的解决方法调查-会议签到的补充】
语音识别在会议点名中的使用 概要解决问题的过程不行的一些参考可以的一个package自定义词语的拼音转换遗留的问题 小结 概要 提示:这里可以添加技术概要 这里只实现一个方面,每个android会议设备都可通过语音发送参会者姓名,自动转换成文字添加到人员名单. 语音采集…...
OS基础-
OS基础 内存管理 内核用户设备管理 设备框架I/O子系统网络多媒体 音频视频运维 控制台GUIdebug审计计算机组成 CPU ALUregister SPLRPCR0-R12CPSRcacheclockInterrupt Vector tableIVTRMMU/MPU 内存访问权限配置,支持多进程BUSMEMORYI/O单线程 特点:结构…...
《大型语言模型实战指南:应用实践与场景落地》一文详解大型语言模型的11种微调方法
导读:大型预训练模型是一种在大规模语料库上预先训练的深度学习模型,它们可以通过在大量无标注数据上进行训练来学习通用语言表示,并在各种下游任务中进行微调和迁移。随着模型参数规模的扩大,微调和推理阶段的资源消耗也在增加。…...
嵌入式浏览器 -- Chromium VS Firefox
嵌入式浏览器概念 嵌入式浏览器是嵌入式系统中的核心组件之一,用于为设备提供网络访问能力和内容显示功能。与传统PC浏览器相比,嵌入式浏览器更加注重性能优化和资源效率,同时确保核心功能可用,如HTML渲染、JavaScript支持和多媒…...
权限大、数量多、破坏强、管理难......企业特权访问管理怎么管?
特权账号,通往企业数据大门的“钥匙”。 它权限大,具有高危命令或操作的执行权限; 破坏性强,操作可能影响他人使用或其他系统故障; 信息泄露风险大,操作可能获取别人或其他系统相关隐私信息;…...
UE5 第一人称示例代码阅读0 UEnhancedInputComponent
UEnhancedInputComponent使用流程 我的总结示例分析firstthenand thenfinally&代码关于键盘输入XYZ 我的总结 这个东西是一个对输入进行控制的系统,看了一下第一人称例子里,算是看明白了,但是感觉这东西使用起来有点绕,特此梳…...
如何在Linux下安装和配置Docker
文章目录 安装前的准备在Debian/Ubuntu上安装Docker添加Docker仓库安装Docker验证安装 在CentOS/RHEL上安装Docker安装必要的软件包设置Docker仓库安装Docker启动Docker服务 Docker的基本使用拉取一个镜像运行一个容器 配置Docker创建Docker目录使用非root用户运行Docker 结语 …...
apisix的原理及作用,跟spring cloud gateway有什么区别?
apache APISIX 是一个高性能、可扩展的开源 API 网关,它主要用于处理 API 请求、流量管理、安全控制和服务治理。APISIX 可以将复杂的服务架构中的不同服务通过统一的网关来进行管理和监控,为微服务架构提供了便捷的流量入口管理方式。 APISIX 的原理 …...
华为HarmonyOS实现实时语音识别转文本
场景介绍 将一段音频信息(短语音模式不超过60s,长语音模式不超过8h)转换为文本,音频信息可以为pcm音频文件或者实时语音。 开发步骤 在使用语音识别时,将实现语音识别相关的类添加至工程。 import { speechRecogni…...
DIY可视化-uniapp悬浮菜单支持拖动、吸附-代码生成器
在Uniapp中,悬浮菜单支持拖动和吸附功能,可以为用户带来更加灵活和便捷的操作体验。以下是对这两个功能的详细解释: 悬浮菜单支持拖动 提高用户体验:用户可以根据自己的需要,将悬浮菜单拖动到屏幕上的任意位置&#x…...
HTTP cookie 与 session
一.Cookie 定义: 是服务器发送到用户浏览器并保存在浏览器上的一小块数据, 它会在浏览器之后向同一服务器再次发起请求时被携带并发送到服务器上。 通常, 它用于告知服务端两个请求是否来自同一浏览器, 如保持用户的登录状态、 …...
智慧停车场导航系统架构及反向寻车系统解决方案
一、系统概述: 随着当前室内定位导航技术在大型公共场所如政务中心、商业综合体、车站中的应用越来越多,人们对智慧停车场的需求也日益凸显出来,并且智慧停车场对大型公共场所智慧化的整体建设起到重要作用。如何更有效提高停车效率…...
【小程序上传图片封装2024,支持多图,带进度,上传头像】
import config from ./config;// 支持多图,显示进度 export function uploadImages(count 1, sourceType, onLoading null, showProgress false, fileKey file) {return new Promise((resolve, reject) > {wx.chooseMedia({count: count, // 可以选择的图片数…...
[A-14]ARMv8/ARMv9-Memory-内存模型的类型(Device Normal)
ver0.1 [看前序文章有惊喜。] 前言 前面花了很大的精力把ARM构建的VMSA中的几个核心的议题给大家做了介绍,相信大家已经能够理解并掌握ARM的内存子系统的工作原理大致框架。接下来我们会规划一些文章,对ARM内存子系统的一些细节做一下介绍,使ARM的内存子系统更加的丰满。本…...
驾校管理系统|基于java和小程序的驾校管理系统设计与实现(源码+数据库+文档)
驾校管理系统平台 目录 基于java和小程序的驾校管理系统设计与实现 一、前言 二、系统设计 三、系统功能设计 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍:✌️大厂码农|毕设布道师&#…...
@Mapper使用中遇到的问题解法汇总
最近终于有时间写点代码相关的文章了,工作真的太忙了,果然又要测试又要开发的人最🐂🐴。 1.查询数据库有数据,但是代码中写select语句的时候查出为null Select("SELECT * FROM xx_manager order by id limit 1&q…...
深度学习:YOLO V3 网络架构解析
引言 YOLO V3(You Only Look Once Version 3)是YOLO系列算法的第三个版本,相比之前的版本,它在多个方面进行了优化和改进,不仅提升了检测精度,还保持了较快的检测速度。本文将详细介绍YOLO V3的主要改进以…...
SpringCloudAlibaba-Sentinel-熔断与限流
版本说明 <spring.boot.version>3.2.0</spring.boot.version> <spring.cloud.version>2023.0.0</spring.cloud.version> <spring.cloud.alibaba.version>2023.0.1.2</spring.cloud.alibaba.version>是什么 能干嘛 面试题 服务雪崩 安装使…...
mysql中的mvcc理解
是什么:MVCC指的是在读已提交、可重复读这两种隔离级别下的事务在执行普通的select操作时,访问记录的版本链的过程,可以使不同事务的读写操作并发执行,提高性能。 MVCC 隐藏字段 undo log 版本链 ReadView 1.隐藏字段…...
ETF申购赎回指南:详解注意事项与低费率券商推荐!
ETF 申购&赎回 ETF申购赎回是个啥业务? 01 ETF申购、赎回是一种交易委托方式,指投资者通过申购方式(买入方向)获得ETF份额,通过赎回的方式(卖出方向)换掉/卖出ETF份额。ETF申购,通常是通过一篮子成…...
List<T>属性和方法使用
//author:shark_ddd using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks;//使用函数来减少长度namespace List_T {class Student{public string Name { get; set; }public int Age { get; set; …...
记一次:使用使用Dbeaver连接Clickhouse
前言:使用了navicat连接了clickhouse我感觉不太好用,就整理了一下dbeaver连接 0、使用Navicat连接clickhouse 测试连接 但是不能双击打开,可是使用命令页界面,右键命令页界面,然后可以用sql去测试 但是不太好用&#…...
Java面向对象编程进阶(四)
Java面向对象编程进阶(四) 一、equals()方法的使用二、toString()方法的使用三、复习 一、equals()方法的使用 适用性:任何引用数据都可以使用。 自定义的类在没有重写Object中equals()方法的情况下,调用的就是Object类中声明的…...
【51单片机】第一个小程序 —— 点亮LED灯
学习使用的开发板:STC89C52RC/LE52RC 编程软件:Keil5 烧录软件:stc-isp 开发板实图: 文章目录 单片机介绍LED灯介绍练习创建第一个项目点亮LED灯LED周期闪烁 单片机介绍 单片机,英文Micro Controller Unit࿰…...
如何通过自动化有效地简化 Active Directory 操作?
我们都知道规模稍微大一点的企业为了便于计算机的管理,基本都上了微软的AD域控制器。 那么肯定就会存在这么一个问题, 不断的会有计算机加入或者是退出域控制器,批量的创建、修改、删除AD域用户,如果企业的架构需要改变ÿ…...
Java-POI导出EXCEL(动态表头)
1、主要功能 导出excel,表头有固定的和动态的。动态表头之间不能穿插固定表头。 2、使用方法 引入下方两个工具类,定义excel固定表头类。调用方法即可。 调用方法: ExcelDynamicHeader<MajorNameChangeReport> ledgerSafetyProblemEx…...
利用 Direct3D 绘制几何体—9.流水线状态对象
到目前为止展示过编写输入布局描述、创建顶点着色器和像素着色器,以及配置光栅器状态组这 3 个步骤。接下来讲如何将这些对象绑定到图形流水线上,用以实际绘制图形。大多数控制图形流水线状态的对象被统称为流水线状态对象(Pipeline State Ob…...
【开源项目】libfaketime安装、使用——小白教程
项目 Github:GitHub - wolfcw/libfaketime: libfaketime modifies the system time for a single application libfaketime安装 01.切换路径,目标路径:/usr/local (在/usr/local路径下git clone 开源项目) 切换路径指令: cd …...
java.util.concurrent包
java.util.concurrent包是Java中用于并发编程的重要工具集,提供了丰富的并发原语和组件,以简化多线程编程的复杂性,并帮助开发者编写高效、可伸缩和线程安全的并发程序。其主要功能包括以下几个方面: 一、线程池和任务执行框架 …...
Django创建项目模块+创建映射类+视图
确保你的项目已经正确链接数据库 链接数据库的工具有很多,数据库的种类也有很多,我使用的数据库是mysql,工具是pmysql,使用pymysql链接数据库,在settings文件中这么设置: DATABASES {# default: {# ENGINE: dja…...
爱站权重/百度识别图片找图
mysql自动关闭,日志看不懂,希望大神解读下Version: 5.5.48 socket: /tmp/mysql.sock port: 3306 Source distribution160515 14:15:17 mysqld_safe Number of processes running now: 0160515 14:15:17 mysqld_safe mysqld restarted160515 14:15:17 [Wa…...
做校园文化展览的网站/国外网站设计
文章目录切比雪夫近似值是什么常见函数的近似值切比雪夫近似值是什么 计算机计算正弦余弦等函数,都不太可能直接泰勒级数展开,因为太耗费计算资源了。除非特殊需要,一般都是使用切比雪夫近似值计算的。当然更不可能用割圆术,割圆术…...
flash网站源文件下载/1688如何搜索关键词排名
微信服务通知类似短信,但是开发相对简单,在发开前必须搞懂下面的几个参数,因为这几个参数关系到你开发是否成功。 1:参数 这里先说参数的意义,如何获取下面详细讲解。 openid:每个微信唯一的id,…...
请人做网站/广州网络推广seo
于使用mybatis generator自动生成代码报Table configuration with catalog null, schema null异常,经昨日排查,找到了两个原因,希望能给遇到同样困扰的小伙伴一点参考 创建表时未创建索引(主键,外键,索引都没有)表名过…...
wordpress 简单主题/视频剪辑培训班
更换gcc编译器可以解决 -D CMAKE_C_COMPILER/usr/bin/gcc-4.8转载于:https://www.cnblogs.com/gabrialrx/p/9001554.html...
免费房地产网站模板/宁波seo公司排名榜
参考文章:http://blog.csdn.net/mythma/archive/2008/08/31/2857664.aspx 作者:力为http://blog.csdn.net/kamaliang/archive/2009/08/30/4499488.aspx 作者:evilshadow1. 点击【开始】->【运行】 命令:regedit.2. 定位到HKEY_LOCALMACHINE -> SOFTWARE ->…...