当前位置：首页 > news >正文

python 图片转文字、语音转文字、文字转语音保存音频并朗读

news 2026/2/7 15:04:51

一、python图片转文字

1、引言

pytesseract是基于Python的OCR工具，底层使用的是Google的Tesseract-OCR 引擎，支持识别图片中的文字，支持jpeg, png, gif, bmp, tiff等图片格式

2、环境配置

python3.6+
PIL库
安装Google Tesseract OCR

3、安装pytesseract

使用pip 或 pip3

pip install pytesseract==0.3.10
pip install pillow==10.4.0

4、安装Google Tesseract OCR

Tesseract是一个开源文本识别 (OCR)引擎，是目前公认最优秀、最精确的开源OCR系统，用于识别图片中的文字并将其转换为可编辑的文本

Tesseract OCR github地址：https://github.com/tesseract-ocr/tesseractWindows Tesseract下载地址：https://digi.bib.uni-mannheim.de/tesseract/Mac和Linux安装方法参考：https://tesseract-ocr.github.io/tessdoc/Installation.html

安装完成后

添加PATH环境变量，可方便的执行tesseract命令

D:\Development\Tesseract-OCR   ## 自己的安装路径

添加TESSDATA_PREFIX变量名，将语言字库文件夹添加到变量中

D:\Development\Tesseract-OCR\tessdata  ## 自己的安装路径

3、使用pytesseract转换图片

import pytesseract
from PIL import Image
from PIL import ImageEnhanceret = {'code': 100, 'msg': None, 'data': None}
class TextExtraction(APIView):# 图片转文字def get(self, request):# 加载图像image = Image.open('\media\image\\2.jpg')# 增强图片对比度enhancer = ImageEnhance.Contrast(image)img_contrast = enhancer.enhance(2.0)text = pytesseract.image_to_string(img_contrast, lang='chi_sim')print(text)ret['data'] = textreturn Response(ret)if __name__ == '__main__':te = TextExtraction()te.as_view()

二、语音转文字

使用百度语音识别Aip

1、注册登录百度AI开放平台

登录百度AI开放平台，在控制台—人工智能–语音技术
在这里插入图片描述

获得APPID、API KEY、SECRET KEY

2、安装百度Aip

pip install Baidu-Aip==4.16.13

3、使用百度Aip转语音

from aip import AipSpeechret = {'code': 100, 'msg': None, 'data': None}
class SpeechRecognition(APIView):# 语音转文字  使用百度语音识别def post(self, request):# 百度语音识别try:# 设置 APPID、API Key 和 Secret KeyAPP_ID = ''API_KEY = ''SECRET_KEY = ''# 初始化 AipSpeech 对象client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)# 设置音频文件的位置audio_file = '\media\\audio\\16k.wav'# 读取音频文件with open(audio_file, 'rb') as fp:audio_data = fp.read()# 识别音频文件res = client.asr(audio_data, 'wav', 16000, {'dev_pid': 1536,})print(res)if res['err_no'] == 0:print(res['result'][0])ret['data'] = res['result'][0]else:ret['code'] = 101ret['msg'] = res['err_msg']except Exception as e:ret['code'] = 102ret['msg'] = ereturn Response(ret)

三、speech语音播放

在python中我们可以使用speech模块让计算机进行语音输出

1、安装speech

pip install speech

2、因为speech模块最早是在python 2.x中开发的，因此在python 3.x中并不能够直接使用，我们需要打开它安装后的原始文件，并进行以下调整即可。

speech.py打开后进行定位错误位置并更改，每个人的文件位置可能有差异。因为虚拟环境的创建一般不同，Pycharm中一般是相同的，可以自行查找。接着我们按部就班地更改以下三个位置地源文件。原始文件第157行，print prompt应该改为print(prompt)。
原始文件第59行，thread应该改为_thread。
拖动文件到最后，将263行thread应该为_thread

3、语音输出

import speech
def speach():# 文字转语音speech.say("从前，有一座美丽的大森林，森林里住着许多小动物，它们每天过着无忧无虑的生活。")speech.say("Don't ask me .I have no idea why bug exist again")

四、文字转音频并保存输出

Pyttsx是一个支持Mac OS X、Windows和Linux上常见的文本到语音引擎的Python包。

1、安装pyttsx3

pip install pyttsx3

2、保存音频语音输出

import pyttsx3def pyttsx3(text, language, rate, volume, filename, sayit=0):# 参数说明: 六个重要参数,阅读的文字,语言(0-英文/1-中文),语速,音量(0-1),保存的文件名(以.mp3收尾),是否发言(0否1是)  engine = pyttsx3.init()  # 初始化语音引擎engine.setProperty('rate', rate)  # 设置语速# 速度调试结果:50戏剧化的慢,200正常,350用心听小说,500敷衍了事engine.setProperty('volume', volume)  # 设置音量voices = engine.getProperty('voices')  # 获取当前语音的详细信息if int(language) == 0:engine.setProperty('voice', voices[0].id)  # 设置第一个语音合成器 #改变索引，改变声音。0中文,1英文(只有这两个选择)elif int(language) == 1:engine.setProperty('voice', voices[1].id)if int(sayit) == 1:engine.say(text)  # pyttsx3->将结果念出来elif int(sayit) == 0:passengine.save_to_file(text, filename)  # 保存音频文件print(filename, "保存成功")engine.runAndWait()  # pyttsx3结束语句(必须加)engine.stop()  # pyttsx3结束语句(必须加)if __name__ == '__main__':text = """从前，有一座美丽的大森林，森林里住着许多小动物，它们每天过着无忧无虑的生活。有一天，森林里来了几个伐木工人，他们拿着斧头和锯子，把一棵棵树给砍倒了。几天下来，裸露的土地不断扩大，森林里的树木不断减少。大象看了之后非常生气，他和几个好朋友决定把这些伐木工人抓起来，送到动物法庭上。第二天，大象他们就把伐木工人给抓了起来，送到了动物法庭上。许多旁观者都纷纷议论起来，猴法官说：“安静，安静，大象你们把这些人抓来是怎么回事?”大象说：“这些人乱砍树木，破坏我们的家园。大象的好朋友小猴说：“对呀，他们把树给砍光了，我们就不能在树上荡秋千了。”小鸟也说：”猴法官，要是没有树木，我们就不能筑巢了。长颈鹿说：“要是没有树木，我们就吃不到树叶了，我们会饿死的。”听到这里，猴法官对伐木工人说：“你们乱砍树木是不对的，没有了树木，我们动物就无法生存，同样也会给你们人类带来灾难的。”听了这些话，伐木工人觉得很惭愧，知道自己错了，他们保证以后不再乱砍树木破坏森林了，还在森林入口立了一块告示牌，上面写着：“保护森林，人人有责。”从此以后，人们不再破坏森林，动物和人类和平相处，大家都过着幸福、快乐的生活。"""pyttsx3_debug(text=text, language=0, rate=200, volume=0.9, filename="\media\\audio\ptttsx3中文测试.mp3", sayit=1)

python 图片转文字、语音转文字、文字转语音保存音频并朗读

一、python图片转文字 1、引言 pytesseract是基于Python的OCR工具， 底层使用的是Google的Tesseract-OCR 引擎，支持识别图片中的文字，支持jpeg, png, gif, bmp, tiff等图片格式 2、环境配置 python3.6PIL库安装Google Tesseract OCR 3、安…...

编程日记 2024/7/29 12:36:19

SSRF (服务端请求伪造)

🎼个人主页：金灰 😎作者简介:一名简单的大一学生;易编橙终身成长社群的嘉宾.✨ 专注网络空间安全服务,期待与您的交流分享~ 感谢您的点赞、关注、评论、收藏、是对我最大的认可和支持！❤️ 🍊易编橙终身成长社群&#…...

编程日记 2024/7/29 12:35:18

SQL中的LEFT JOIN、RIGHT JOIN和INNER JOIN

在SQL中，JOIN操作是连接两个或多个数据库表，并根据两个表之间的共同列（通常是主键和外键）返回数据的重要方法。其中，LEFT JOIN（左连接）、RIGHT JOIN（右连接）和INNER JOIN…...

编程日记 2024/7/29 12:32:14

[网鼎杯 2020 朱雀组]Nmap（详细解读版）

这道题考察nmap的一些用法,以及escapeshellarg和escapeshellcmd两个函数的绕过，可以看这里PHP escapeshellarg()escapeshellcmd() 之殇 (seebug.org) 两种解题方法： 第一种通过nmap的-iL参数读取扫描一个文件到指定文件中第二种是利用nmap的参数写入we…...

编程日记 2024/7/29 12:31:12

【React】详解“最新”和“最热”切换与排序

文章目录一、基本概念和初始化二、切换与排序功能的实现1. 函数定义和参数2. 设置活动 Tab3. 定义新列表变量4. 根据排序类型处理列表4.1 按时间降序排序4.2 按点赞数降序排序 5. 更新评论列表三、渲染导航 Tab 和评论列表1. map 方法2. key 属性3. className 动态赋值4. onC…...

编程日记 2024/7/29 12:30:11

BUUCTF [MRCTF2020]Ezpop

这道题对于刚接触到pop链的我直接把我整懵了，一边看着魔术方法一边分析魔术方法可以看这里PHP 魔术方法 - 简介 - PHP 魔术方法 - 简单教程，简单编程 (twle.cn) 代码解析经过以上的分析我们可以理一下解题思路：接收参数反序列化之前先触发…...

编程日记 2024/7/29 12:29:10

RV1126 Linux 系统，接外设，时好时坏（一）应该从哪些方面排查问题

在 Linux 系统中接外设时，遇到“时好时坏”的问题，可能是由多种因素引起的。以下是一些排查问题的建议。 1. 硬件方面的排查 1.1 连接检查物理连接: 确保外设与主板之间的连接良好，检查插头、插座及线缆是否牢固。引脚配置: 确认设备树中引脚的配置是否正确，尤其是引脚…...

编程日记 2024/7/29 12:28:09

Vue实现简单小案例

一、创建文件夹二、引用vue.js <script src"../js/vue.js"></script> 三、准备一个容器 <div id"app"><h1>Hello,{{name}}</h1> </div> 四、创建实例 <script>new Vue({el:"#app", //el用于指…...

编程日记 2024/7/29 12:26:07

【MATLAB APP】建立独立桌面APP

背景：已有MATLAB APP的.mlapp文件，但客户提出需要可以直接使用的exe文件。要求：点开即用，无需下载MATLAB。使用者无法修改APP的代码。一、环境配置 APP创建者：安装MATLAB R2023a，配置Application Compile…...

编程日记 2024/7/29 12:25:06

Spring的优缺点？

Spring的优缺点直接回答相关的Spring的特点： IOC AOP 事务简化开发： 容易集成JDBCTemplateRestTemplate（接口远程调用）邮件发送相关异步消息请求支持更加深入就讲源码了优点： 方便解耦，简化开发…...

编程日记 2024/7/29 12:24:05

第一百八十三节 Java IO教程 - Java目录事件、Java异步I/O

Java IO教程 - Java目录事件当文件系统中的对象被修改时，我们可以监听watch服务以获取警报。 java.nio.file包中的以下类和接口提供watch服务。 Watchable接口WatchService接口WatchKey接口WatchEvent接口WatchEvent.Kind接口StandardWatchEventKinds类可监视对…...

编程日记 2024/7/29 12:23:04

【设计模式】（万字总结）深入理解Java中的创建型设计模式

1. 前言在软件开发的世界里，设计模式是一种被广泛接受并应用的解决方案。它们不仅仅是代码的设计，更是对问题的思考和解决的方法论。在Java开发中，特别是在面向对象的编程中，设计模式尤为重要。创建型设计模式，作为设…...

编程日记 2024/7/29 12:22:03

【全面讲解下Docker in Docker的原理与实践】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者，CSDN实力新星，CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益，如有不足之处，欢迎在评论区提出指正，让我们共同学习、交流进步！ 👉目录 👉前言👉原理👉实践👉安全和最佳实践👉前言 🦛…...

编程日记 2024/7/29 12:21:02

Android Settings增加多击事件，增加开发者模式打开难度

软件平台：Android11 硬件平台：QCS6125 需求来源：用户通过系统异常崩溃，进入原生Settings页面，通过默认的多击版本号方式打开开发者模式，继而打开adb调试开关，安装三方apk。对付这种需求本来有…...

编程日记 2024/7/29 12:20:01

【相机与图像】1. 相机模型的介绍：内参、外参、畸变参数

想着整理下相机模型（内容上参考 slam十四讲）、相机的内外参标定。方便自己的使用和回顾。不过，内外参标定啥时候记录随缘 -_- 概述【构建相机模型】相机将三位世界中的坐标点（单位为米）映射到二维图像平面&#xff…...

编程日记 2024/7/29 12:17:59

Linux内核netlink机制 - 用户空间和内核空间数据传输

简介： Netlink socket 是一种Linux特有的socket，用于实现用户空间与内核空间通信的一种特殊的进程间通信方式(IPC) ，也是网络应用程序与内核通信的最常用的接口。 Netlink 是一种在内核和用户应用间进行双向数据传输的非常好的方式&a…...

编程日记 2024/7/29 12:16:58

Node.js自动化处理TOML文件

在软件开发过程中，自动化处理配置文件是一种常见的需求。TOML（Tom’s Obvious, Minimal Language）是一种用于配置文件的简单易读的格式。本文将展示如何使用Node.js和一些流行的库来自动化读取、修改并写入TOML文件。 1. 准备工作在开始之前…...

编程日记 2024/7/29 12:12:55

Spring boot 后端向前端发送日期时间发现少了8小时

问题数据库后端的控制台输出前端控制台输出可以发现少了8小时问题 springboot 向前端响应数据是默认 Json 格式，所以会有类型转换，springboot 就通过 Jackson 来对 data 类型数据进行转换，但是Jackson 类型的时区是 GMT，与…...

编程日记 2024/7/29 12:11:54

MySQL数据库（基础篇）

🌏个人博客主页：心.c 前言：今天讲解的是MySQL的详细知识点的，希望大家可以收货满满，话不多说，直接开始搞！ 🔥🔥🔥文章专题：MySQL 😽感…...

编程日记 2024/7/29 12:10:53

ffmpeg ffplay.c 源码分析二：数据读取线程

本章主要是分析数据读取线程read_thread 中的工作。如上图红色框框的部分从ffplay框架分析我们可以看到，ffplay有专⻔的线程read_thread()读取数据， 且在调⽤av_read_frame 读取数据包之前需要做： 1.例如打开⽂件， 2.查找配置解…...

编程日记 2024/7/29 12:08:51

Cursor实现用excel数据填充word模版的方法

cursor主页：https://www.cursor.com/ 任务目标：把excel格式的数据里的单元格，按照某一个固定模版填充到word中文章目录注意事项逐步生成程序1. 确定格式2. 调试程序注意事项直接给一个excel文件和最终呈现的word文件的示例，…...

编程新知 2025/8/23 5:46:26

Golang 面试经典题：map 的 key 可以是什么类型？哪些不可以？

Golang 面试经典题：map 的 key 可以是什么类型？哪些不可以？ 在 Golang 的面试中，map 类型的使用是一个常见的考点，其中对 key 类型的合法性是一道常被提及的基础却很容易被忽视的问题。本文将带你深入理解 Golang 中…...

编程新知 2025/12/20 7:42:02

边缘计算医疗风险自查APP开发方案

核心目标：在便携设备（智能手表/家用检测仪）部署轻量化疾病预测模型，实现低延迟、隐私安全的实时健康风险评估。一、技术架构设计 #mermaid-svg-iuNaeeLK2YoFKfao {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg…...

编程新知 2026/1/28 10:02:54

Swift 协议扩展精进之路：解决 CoreData 托管实体子类的类型不匹配问题（下）

概述在 Swift 开发语言中，各位秃头小码农们可以充分利用语法本身所带来的便利去劈荆斩棘。我们还可以恣意利用泛型、协议关联类型和协议扩展来进一步简化和优化我们复杂的代码需求。不过，在涉及到多个子类派生于基类进行多态模拟的场景下，…...

编程新知 2026/1/23 4:56:05

macOS多出来了：Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用

文章目录问题现象问题原因解决办法问题现象 macOS启动台（Launchpad）多出来了：Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用。问题原因很明显，都是Google家的办公全家桶。这些应用并不是通过独立安装的…...

编程新知 2025/12/4 19:00:05

1.3 VSCode安装与环境配置

进入网址Visual Studio Code - Code Editing. Redefined下载.deb文件，然后打开终端，进入下载文件夹，键入命令 sudo dpkg -i code_1.100.3-1748872405_amd64.deb 在终端键入命令code即启动vscode 需要安装插件列表 1.Chinese简化 2.ros …...

编程新知 2026/1/29 3:35:37