当前位置：首页 > news >正文

基于百度接口的实时流式语音识别系统

news 文章来源：https://blog.csdn.net/sidaotiger/article/details/139482191 2025/4/19 8:53:29

基于百度接口的实时流式语音识别系统

1. 简介

2. 需求分析

3. 系统架构

4. 模块设计

4.1 音频输入模块

4.2 WebSocket通信模块

4.3 音频处理模块

4.4 结果处理模块

5. 接口设计

5.1 WebSocket接口

5.2 音频输入接口

6. 流程图

程序说明文档

1. 安装依赖

2. 运行程序

3. 配置文件 (const.py)

4. 程序结构

5. 代码说明

5.1 主程序

代码说明

结论

基于百度接口的实时流式语音识别系统

1. 简介

本项目实现了一个实时流式语音识别系统，利用百度语音识别服务和WebSocket协议，实现从麦克风捕获音频数据并实时进行语音识别。该系统适用于需要将实时语音转换为文本的应用场景。

2. 需求分析

实时捕获麦克风音频数据
使用WebSocket与百度语音识别服务进行通信
实时发送音频数据并接收识别结果
提供可选的音频输入设备选择

3. 系统架构

音频输入模块：使用PyAudio库捕获麦克风的音频数据。
WebSocket通信模块：使用websocket-client库与百度语音识别服务进行通信。
音频处理模块：处理捕获的音频数据并通过WebSocket发送。
结果处理模块：接收并处理百度语音识别服务返回的识别结果。

4. 模块设计

4.1 音频输入模块

功能：从麦克风捕获音频数据并传递给WebSocket模块。
实现：利用PyAudio库的回调函数实现音频数据的实时捕获。

4.2 WebSocket通信模块

功能：与百度语音识别服务建立WebSocket连接，发送音频数据并接收识别结果。
实现：使用websocket-client库实现WebSocket的连接、数据发送和接收。

4.3 音频处理模块

功能：将捕获的音频数据按需处理并转换为适合发送的格式。
实现：将音频数据转换为PCM格式并按帧发送。

4.4 结果处理模块

功能：处理并显示百度语音识别服务返回的识别结果。
实现：解析WebSocket返回的JSON数据并输出识别结果。

5. 接口设计

5.1 WebSocket接口

连接URI：由const.URI定义
连接参数：在连接建立时发送的起始参数帧，包含appid, appkey, dev_pid, cuid, sample, format等。

5.2 音频输入接口

设备选择：列出可用的音频输入设备，用户选择设备索引。

6. 流程图

启动程序，列出可用音频输入设备，用户选择设备。
建立WebSocket连接。
发送起始参数帧。
开始捕获音频数据，通过WebSocket发送。
接收并处理识别结果。
发送结束帧，关闭连接。

程序说明文档

1. 安装依赖

首先，确保安装必要的库：

bash

Copy code

pip install websocket-client pyaudio

2. 运行程序

运行程序时，可以选择输入音频文件路径或者直接使用麦克风捕获音频：

python realtime_asr.py

3. 配置文件 (const.py)

在const.py文件中，需要配置以下参数：

python

Copy code

URI = "your_baidu_asr_service_uri"

APPID = "your_appid"

APPKEY = "your_appkey"

DEV_PID = 1537 # 选择合适的识别模型

4. 程序结构

realtime_asr.py：主程序文件，包含实时语音识别的实现。
const.py：配置文件，包含WebSocket URI和百度语音识别服务的appid和appkey。

5. 代码说明

5.1 主程序

python code

import websocketimport pyaudioimport threadingimport timeimport uuidimport jsonimport logging

import const

logger = logging.getLogger()

# 配置音频输入

CHUNK = 1024

FORMAT = pyaudio.paInt16

CHANNELS = 1

RATE = 16000

p = pyaudio.PyAudio()

# 列出所有音频设备

info = p.get_host_api_info_by_index(0)

numdevices = info.get('deviceCount')for i in range(0, numdevices):

if (p.get_device_info_by_host_api_device_index(0, i).get('maxInputChannels')) > 0:

print("Input Device id ", i, " - ", p.get_device_info_by_host_api_device_index(0, i).get('name'))

# 选择设备

device_index = int(input("Select device index: "))

def send_start_params(ws):

req = {

"type": "START",

"data": {

"appid": const.APPID,

"appkey": const.APPKEY,

"dev_pid": const.DEV_PID,

"cuid": "yourself_defined_user_id",

"sample": 16000,

"format": "pcm"

}

body = json.dumps(req)

ws.send(body, websocket.ABNF.OPCODE_TEXT)

logger.info("send START frame with params:" + body)

def send_audio(ws):

def callback(in_data, frame_count, time_info, status):

ws.send(in_data, websocket.ABNF.OPCODE_BINARY)

return (in_data, pyaudio.paContinue)

stream = p.open(format=FORMAT,

channels=CHANNELS,

rate=RATE,

input=True,

input_device_index=device_index,

frames_per_buffer=CHUNK,

stream_callback=callback)

stream.start_stream()

while stream.is_active():

time.sleep(0.1)

stream.stop_stream()

stream.close()

def send_finish(ws):

req = {

"type": "FINISH"

}

body = json.dumps(req)

ws.send(body, websocket.ABNF.OPCODE_TEXT)

logger.info("send FINISH frame")

def send_cancel(ws):

req = {

"type": "CANCEL"

}

body = json.dumps(req)

ws.send(body, websocket.ABNF.OPCODE_TEXT)

logger.info("send Cancel frame")

def on_open(ws):

def run(*args):

send_start_params(ws)

send_audio(ws)

send_finish(ws)

logger.debug("thread terminating")

threading.Thread(target=run).start()

def on_message(ws, message):

logger.info("Response: " + message)

def on_error(ws, error):

logger.error("error: " + str(error))

def on_close(ws):

logger.info("ws close ...")

if __name__ == "__main__":

logging.basicConfig(format='[%(asctime)-15s] [%(funcName)s()][%(levelname)s] %(message)s')

logger.setLevel(logging.DEBUG)

logger.info("begin")

uri = const.URI + "?sn=" + str(uuid.uuid1())

logger.info("uri is "+ uri)

ws_app = websocket.WebSocketApp(uri,

on_open=on_open,

on_message=on_message,

on_error=on_error,

on_close=on_close)

ws_app.run_forever()

代码说明

send_start_params(ws)：发送识别开始的参数帧。
send_audio(ws)：实时捕获麦克风音频并通过WebSocket发送。
send_finish(ws)：发送识别结束的参数帧。
send_cancel(ws)：发送取消识别的参数帧。
on_open(ws)：WebSocket连接建立后的回调，启动一个线程发送音频数据。
on_message(ws, message)：接收服务端返回的识别结果。
on_error(ws, error)：处理连接错误。
on_close(ws)：WebSocket连接关闭时的处理。

结论

本系统实现了从麦克风实时捕获音频并通过WebSocket与百度语音识别服务进行通信，实现实时语音识别的功能。该系统可应用于各种需要实时语音转文字的场景，如实时字幕、语音助手等。

基于百度接口的实时流式语音识别系统

目录基于百度接口的实时流式语音识别系统 1. 简介 2. 需求分析 3. 系统架构 4. 模块设计 4.1 音频输入模块 4.2 WebSocket通信模块 4.3 音频处理模块 4.4 结果处理模块 5. 接口设计 5.1 WebSocket接口 5.2 音频输入接口 6. 流程图程序说明文档 1. 安装依赖 2.…...

编程日记 2024/6/10 4:40:51

AIGC作答《2024年高考作文｜新课标I卷》能拿多少分？

AIGC作答《2024年高考作文｜新课标I卷》能拿多少分？ 一、前言二、题目三、作答一、前言如火如荼的2024年高考圆满落幕，在如此Happy的时刻，AIGC技术正以其前所未有的热度席卷全球。它不仅改变了我们获取信息的方式，也…...

编程日记 2024/6/10 4:39:50

WHAT - 发布订阅

目录一、常见实现方案1.1 使用事件发射器（Event Emitter）1.2 自定义事件系统（EventBus）1.3 使用库如 PubSubJS1.4 使用框架内置的状态管理工具Vue.jsReact (使用 Context API 或 Redux) 二、先后关系2.1 缓存事件数据2.2 使用 Re…...

编程日记 2024/6/10 4:38:50

React@16.x（23）useEffect

目录 1，介绍作用介绍 2，注意点2.1，参数1，副作用函数2.1.1，运行时间点2.1.2，返回值2.1.3，闭包的影响2.1.4，严禁出现在代码块中（判断，循环）2.1.5&am…...

编程日记 2024/6/10 4:36:47

算法竞赛一句话解题经典问题分析 ©ntsc 2024

原名：算法竞赛一句话解题&经典问题分析 ©ntsc 2024 处理进度绿：P1381【~P（今日进度）】蓝：P1099 致CSDN网友： 本文章不定期更新！文章链接： 经典问题分析基础知识与编程…...

编程日记 2024/6/10 4:34:45

【TensorFlow深度学习】强化学习中的贝尔曼方程及其应用

强化学习中的贝尔曼方程及其应用强化学习中的贝尔曼方程及其应用：理解与实战演练贝尔曼方程简介应用场景代码实例：使用Python实现贝尔曼方程求解状态价值结语强化学习中的贝尔曼方程及其应用：理解与实战演练在强化学习这一复杂而迷人的领…...

编程日记 2024/6/10 4:33:44

牛客 NC129 阶乘末尾0的数量【简单基础数学 Java/Go/PHP/C++】

题目题目链接： https://www.nowcoder.com/practice/aa03dff18376454c9d2e359163bf44b8 https://www.lintcode.com/problem/2 思路 Java代码 import java.util.*;public class Solution {/*** 代码中的类名、方法名、参数名已经指定，请勿修改&#xff…...

编程日记 2024/6/10 4:32:43

【Spring Boot】异常处理

异常处理 1.认识异常处理1.1 异常处理的必要性1.2 异常的分类1.3 如何处理异常1.3.1 捕获异常1.3.2 抛出异常1.3.4 自定义异常 1.4 Spring Boot 默认的异常处理 2.使用控制器通知3.自定义错误处理控制器3.1 自定义一个错误的处理控制器3.2 自定义业务异常类3.2.1 自定义异常类3…...

编程日记 2024/6/10 4:31:41

Laravel学习-自定义辅助函数

因为laravel框架的辅助函数helpers不会进入版本库，被版本库忽略的，只有自己创建一个helpers辅助函数。可以在任意文件下创建helpers.php文件，建议在app目录下， 然后在composer.json文件中，autoload 中间&#xff0c…...

编程日记 2024/6/10 4:30:39

LLVM Cpu0 新后端6

想好好熟悉一下llvm开发一个新后端都要干什么，于是参考了老师的系列文章： LLVM 后端实践笔记代码在这里（还没来得及准备，先用网盘暂存一下）： 链接: https://pan.baidu.com/s/1yLAtXs9XwtyEzYSlDCSlqw?…...

编程日记 2024/6/10 4:29:39

一、官方定义二、wirechark实例有前面查询的基础，这个接口相对简单很多。请求：文本化： POST /VIID/Images HTTP/1.1 Host: 10.0.201.56:31400 User-Agent: python-requests/2.32.3 Accept-Encoding: gzip, deflate Accept: */* Connection: keep-alive content-type:…...

编程日记 2024/6/10 4:28:38

Spring ApplicationContext的getBean方法

Spring ApplicationContext的getBean方法在Spring框架的ApplicationContext中，getBean(Class<T> requiredType)方法可以接受一个类类型参数，这个参数可以是接口类也可以是实现类。使用接口类： 如果requiredType是一个接口&#xff0c…...

编程日记 2024/6/10 4:27:37

自然语言处理（NLP）—— 自动摘要

自动摘要是一种将长文本信息浓缩为短文本的技术，旨在保留原文的主要信息和意义。 1 自动摘要的第一种方法它的第一种方法是基于理解的，受认知科学和人工智能的启发。在这个方法中，我们首先建立文本的语义表示，这可以理解为文本…...

编程日记 2024/6/10 4:24:33

Spring RestClient报错：400 Bad Request : [no body]

我项目采用微服务架构，所以各服务之间通过Spring RestClient远程调用，本来一直工作得好好的，昨天突然发现远程调用一直报错，错误详情如下： org.springframework.web.client.HttpClientErrorException$BadRequest: 400…...

编程日记 2024/6/10 4:23:32

【数据结构】 -- 堆（堆排序）（TOP-K问题）

引入要学习堆，首先要先简单的了解一下二叉树，二叉树是一种常见的树形数据结构，每个节点最多有两个子节点，通常称为左子节点和右子节点。它具有以下特点： 根节点（Root）：树的顶部节…...

编程日记 2024/6/10 4:21:29

C#面：XML与 HTML 的主要区别是什么

C# XML与HTML有以下几个主要区别： 用途不同：XML（eXtensible Markup Language）是一种用于存储和传输数据的标记语言，它的主要目的是描述数据的结构和内容。HTML（HyperText Markup Language）是一…...

编程日记 2024/6/10 4:20:28

java并发-如何保证线程按照顺序执行？

【readme】使用只有单个线程的线程池（最简单）Thread.join() 可重入锁 ReentrantLock Condition 条件变量（多个） ； 原理如下： 任务1执行前在锁1上阻塞；执行完成后在锁2上唤醒；任务…...

编程日记 2024/6/10 4:18:26

PyCharm中 Fitten Code插件的使用说明一

一. 简介 Fitten Code插件是是一款由非十大模型驱动的 AI 编程助手，它可以自动生成代码，提升开发效率，帮您调试 Bug，节省您的时间，另外还可以对话聊天，解决您编程碰到的问题。前一篇文章学习了 PyCharm…...

编程日记 2024/6/10 4:15:23

Polar Web【简单】PHP反序列化初试

Polar Web【简单】PHP反序列化初试 Contents Polar Web【简单】PHP反序列化初试思路EXP手动脚本PythonGo 运行&总结思路启动环境，显示下图中的PHP代码，于是展开分析： 首先发现Easy类中有魔术函数 __wakeup() ，实现的是对成员…...

编程日记 2024/6/10 4:14:23

树莓派4B 零起点(二) 树莓派更换软件源和软件仓库

目录一、准备工作，查看自己的树莓派版本二、安装HTTPS支持三、更换为清华源 1、更换Debian软件源 2，更换Raspberrypi软件仓库四、进行软件更新接前章，我们的树莓派已经启动起来了，接下来要干的事那就是更换软件源和软件…...

编程日记 2024/6/10 4:12:21

Pytorch 实现目标检测二（Pytorch 24）

一实例操作目标检测下面通过一个具体的例子来说明锚框标签。我们已经为加载图像中的狗和猫定义了真实边界框，其中第一个元素是类别（0代表狗，1代表猫），其余四个元素是左上角和右下角的(x, y)轴坐标（范围…...

编程日记 2024/6/10 4:11:20

如何使用Python中的列表解析（list comprehension）进行高效列表操作

Python中的列表解析（list comprehension）是一种创建列表的简洁方法，它可以在单行代码中执行复杂的循环和条件逻辑。列表解析提供了一种快速且易于阅读的方式来生成新的列表。以下是一些使用列表解析进行高效列表操作的示例： 1.…...

编程日记 2024/6/10 4:10:19

java使用websocket遇到的问题

java使用websocket的bug 1 websocket连接正常但是收不到服务端发出的消息java的websocket并发的时候导致连接断开（看着连接是正常的，但是实际上已经断开） 1 websocket连接正常但是收不到服务端发出的消息 java的websocket并发的时候导致连接断…...

编程日记 2024/6/10 4:09:18

[Cloud Networking] Layer 2

文章目录 1. 什么是Mac Address?2. 如何查找MAC地址？3. 二层数据交换4. [Layer 2 Protocol](https://blog.csdn.net/settingsun1225/article/details/139552315) 1. 什么是Mac Address? MAC 地址是计算机的唯一48位硬件编码，嵌入到网卡中。 MAC地址也…...

编程日记 2024/6/10 4:08:16

[240609] qwen2 发布，在 Ollama 已可用 | 采用语言模型构建通用 AGI（2020年8月）

目录 qwen2 发布，在 Ollama 已可用Qwen2 模型概览 (基于 Ollama 网站信息)一、模型介绍二、模型参数三、支持语言 (除英语和中文外)四、模型性能五、许可证六、数据支撑: 采用语言模型构建通用 AGI qwen2 发布，在 Ollama 已可用 Qwen2 模型概览 (基于 O…...

编程日记 2024/6/10 4:06:15

赶紧收藏！2024 年最常见 20道分布式、微服务面试题（五）

上一篇地址：赶紧收藏！2024 年最常见 20道分布式、微服务面试题（四）-CSDN博客九、在分布式系统中，如何保证数据一致性？ 在分布式系统中保证数据一致性是一个复杂的问题，因为分布式系统由多个独…...

编程日记 2024/6/10 4:05:14

为什么Kubernetes（K8S）弃用Docker：深度解析与未来展望

为什么Kubernetes弃用Docker：深度解析与未来展望 🚀 为什么Kubernetes弃用Docker：深度解析与未来展望摘要引言正文内容（详细介绍）什么是 Kubernetes？什么是 Docker？Kubernetes 和 Docker 的关系…...

编程日记 2024/6/10 4:04:13

软件游戏提示msvcp120.dll丢失的解决方法，总结多种靠谱的解决方法

在电脑使用过程中，我们可能会遇到一些错误提示，其中之一就是“找不到msvcp120.dll”。那么，msvcp120.dll是什么？它对电脑有什么影响？有哪些解决方法？本文将从以下几个方面进行探讨。一，了解msv…...

编程日记 2024/6/10 4:03:13

使用kafka tools工具连接带有用户名密码的kafka

使用kafka tools工具连接带有用户名密码的kafka 创建kafka连接，配置zookeeper 在Security选择Type类型为SASL Plaintext 在Advanced页面添加如下图红框框住的内容在JAAS_Config加上如下配置需要加的配置： org.apache.kafka.common.security.plain.Pla…...

编程日记 2024/6/10 4:01:09

[个人感悟] Java基础问题应该考察哪些问题?

前言 “一切代码无非是数据结构和算法流程的结合体.” 忘了最初是在何处看见这句话了, 这句话, 对于Java基础的考察也是一样. 正如这句话所说, 我们对于基础的考察主要考察, 数据结构, 集合类型结构, 异常类型, 已经代码的调用和语法关键字. 其中数据结构和集合类型结构是重点…...

编程日记 2024/6/10 4:00:08

基于百度接口的实时流式语音识别系统

1. 简介

2. 需求分析

3. 系统架构

4. 模块设计

4.1 音频输入模块

4.2 WebSocket通信模块

4.3 音频处理模块

4.4 结果处理模块

5. 接口设计

5.1 WebSocket接口

5.2 音频输入接口

6. 流程图

程序说明文档

1. 安装依赖

2. 运行程序

3. 配置文件 (const.py)

4. 程序结构

5. 代码说明

5.1 主程序

代码说明

结论

相关文章：