用Flask构建一个AI翻译服务
缘起
首先,看一段代码,只有几行Python语句却完成了AI翻译的功能。
#!/usr/bin/python3import sys
from transformers import MarianMTModel, MarianTokenizerdef translate(word_list):model_name = "Helsinki-NLP/opus-mt-en-zh"tokenizer = MarianTokenizer.from_pretrained(model_name)model = MarianMTModel.from_pretrained(model_name)translated = model.generate(**tokenizer(word_list, return_tensors="pt", padding=True))for res in [tokenizer.decode(t, skip_special_tokens=True) for t in translated]:print(res)if __name__ == "__main__":translate(sys.argv[1:])
这里可以看到,只要调用这个tranlate
函数,向它传递一个英语词汇的list,就能返回一个翻译好的中文词汇列表。这里的词汇指的是单词、词组或句子。
不过这个函数有个问题,就是运行起来比较慢。因为它需要加载 tokenizer 和 model. 这最快也要5-6秒;如果这个程序是跑在docker里面,就更慢了,可能要十几甚至几十秒。
(这些tokenizer和model可以由pip install得到,这个在后面再详细介绍。)
所以,总不能每次翻译都要把tokenizer和model都加载一遍。解决的办法也有多种。比如写一个类,在类的实例初始化的时候就把这些加载好,后面调translate函数的时候自然就快了。不过这篇博文里想介绍的方法是,利用一个Python的轻量级的web框架来提供一个Http的服务,从而可以向这个Http服务提出REST请求以获得翻译服务。
第1步 建立virtualenv环境
写Python应用程序的第一步总是建立virtualenv环境,为了避免和本地系统的Python库冲突的情况。
运行以下命令
virtualenv FlaskServer
cd FlaskServer
source bin/activate
注意,本博文的程序基于Linux系统运行。如果在Windows上,则以上的激活命令是不同的。
另外,如果没有安装 virtualenv, 则需要运行pip3 install virtualenv
命令进行安装。
第2步 安装必要的库
第二步就是在virtualenv环境下安装必要的library了。
这里需要的库包括翻译模型相关的库以及Flask.
pip install transformers sentencepiece sacremoses
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
pip install Flask
第3步 设计REST请求及返回
我们希望一次能翻译多个单词或词组或句子。那么就需要向翻译服务提供一个list;相应的,翻译之后,也就会返回一个list.
例子如下:
POST /translate # request body example
{"target_words": ["Hello, what's you name", "I am good", "How are you"]
}# response example
{"translated_words": ["xx", "xxx", "xx"]
}
第4步 完成Flask代码
Flask是一个轻量级的框架。我们只需要撰写很少的代码,即可实现以上的POST请求的backend处理部分。
具体代码如下,假设Python文件名为 hello.py
#!/usr/bin/python3# Run: flask run -h <IP> -p 7979from flask import Flask, request
from transformers import MarianMTModel, MarianTokenizerapp = Flask(__name__)model_name = "Helsinki-NLP/opus-mt-en-zh"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)@app.route("/")
def hello_world():return "<p>Hello, World!</p>"@app.post("/translate")
def translate():data = request.get_json()word_list = data.get('target_words')translated = model.generate(**tokenizer(word_list, return_tensors="pt", padding=True))key = 'translated_words'result = {key: [tokenizer.decode(t, skip_special_tokens=True) for t in translated]}print(result)return resultif __name__ == '__main__':app.run(host='10.111.222.111',port=7979,debug=True)
从以上代码可以看出,我们在http服务器启动的时候加载了tokenizer和model,而将来接收到 POST /translate
请求的时候,translate()函数里的翻译动作的耗时就很短了。
第5步 启动Flask服务器
这一步仍是在virtualenv环境下,运行以下命令
export FLASK_APP=hello.py
export FLASK_ENV=development
flask run -h 10.111.222.111 -p 7979
如果对以上命令不熟悉或容易遗忘,可以查看 flask --help
和 flask run --help
以获得帮助。
这里指定 7979 端口号,是为了避免机器上有其他程序已经占用了Flask的默认端口5000.
至此,我们的翻译服务已经提供好了,下面就是对它进行测试了。
第6步 利用 cURL 发送 POST 翻译请求
运行以下命令
curl -X POST "http://10.111.222.111:7979/translate" -H "Content-Type: application/json" -d'{"target_words": ["clean", "how are you"]}' | jq
注意,这里必须使用 jq
程序帮助解析。如果不使用jq,则cURL返回的response的内容会直接显示为像 “\u6d01” 这样的字符串形式,并不会将其按照UTF-解码。
下面是实际的执行效果。
curl -X POST "http://10.111.222.111:7979/translate" -H "Content-Type: application/json; charset=UTF-8" -d'{"target_words": ["clean", "how are you"]}' | jq% Total % Received % Xferd Average Speed Time Time Time CurrentDload Upload Total Spent Left Speed
100 121 100 79 100 42 121 64 --:--:-- --:--:-- --:--:-- 186
{"translated_words": ["清洁","你好吗?"]
}
实测结果,响应速度非常之快,即使包括网络延迟,也不到1秒。
(END)
相关文章:
用Flask构建一个AI翻译服务
缘起 首先,看一段代码,只有几行Python语句却完成了AI翻译的功能。 #!/usr/bin/python3import sys from transformers import MarianMTModel, MarianTokenizerdef translate(word_list):model_name "Helsinki-NLP/opus-mt-en-zh"tokenizer …...
微信小程序引入阿里巴巴iconfont图标并使用
介绍 在小程序里,使用阿里巴巴的图标,如下所示: 使用方式 搜索自己需要的图标,然后将需要用到的图标加入购物车,如下图所示: 去右上角,点击购物车按钮;这里第一次使用,会有三个提…...
mysql面试题49:MySQL中不同text数据类型的最大长度
该文章专注于面试,面试只要回答关键点即可,不需要对框架有非常深入的回答,如果你想应付面试,是足够了,抓住关键点 面试官:MySQL中TEXT数据类型的最大长度 在MySQL中,TEXT数据类型用于存储较大…...
从虚拟电厂在上海的实践探索看企业微电网数字化的意义
安科瑞 华楠 作为典型的人口聚集、负荷密集区域,上海市具有外来电比例高、本地资源禀赋不足的特点。从发电侧角度来看,近年来上海风、光等新能源发电装机比例逐年提升,传统的火电逐渐成为调节性发电资源;从负荷侧角度来看上海以第…...
创建并初始化线程池
创建并初始化线程池–》threadpool.h, 创建并初始化&脱离(执行完后)子线程,每个子线程信号量wait阻塞【1】 创建套接字:int listenfd socket( PF_INET, SOCK_STREAM, 0 ); 端口复用:setsockopt( listenfd, SOL_SOCKET, SO_REUSEADDR, &a…...
【LeetCode热题100】--136.只出现一次的数字
136.只出现一次的数字 使用哈希表: class Solution {public int singleNumber(int[] nums) {Map<Integer,Integer> map new HashMap<>();for(int num:nums){Integer count map.get(num);if(count null){count 1;}else{count;}map.put(num,count);}…...
Java idea查看自定义注解的调用地方
Java idea查看自定义注解的调用地方...
ReLU激活函数
LeakyReLU激活函数的具体用法请查看此篇博客:LeakyReLU激活函数 ReLU(Rectified Linear Unit)激活函数是深度学习中最常用的激活函数之一,它的数学表达式如下: 在这里,(x) 是输入,(f(x)) 是输…...
【Android】adjustViewBounds 的理解和使用
理解 adjustViewBounds 是一个 ImageView 的属性,用于调整 ImageView 的边界以适应图像的尺寸。当设置为 true 时,ImageView 的边界将根据图像的宽高比例进行调整,以确保图像完全显示在 ImageView 内部。 理解和使用 adjustViewBounds 的步…...
Redis知识补充
大key删除 unLink scan分批删除 渐进式rehash Redis笔记:Redis的字典什么时候进行Rehash?_redis什么时候进行rehash-CSDN博客...
IIS 部署.NetCore,最细步骤
服务器安装环境 将.net core程序部署到IIS总体需要经过以下3个大步骤,其中在IIS上配置网站有些比较繁琐,我都会逐一给出详细步骤。 <1>安装IIS和.NetCORE运行时程序 <2>以文件的形式发布.NETCORE程序到指定目录 <3>IIS上面建立网站…...
4.查询用户的累计消费金额及VIP等级
思路分析: (1)按照user_id及create_date 分组求消费金额total_amount (2)开窗计算同user_id下的累计销售金额sum(total_amount) over(partition by user_id order by create_date ROWS BETWEEN UNBOUNDED PRECEDING AN…...
解决MySQL错误-this is incompatible with sql_mode=only_full_group_by
报错 Expression #1 of SELECT list is not in GROUP BY clause and contains nonaggregated column ‘数据库名.表名.字段名’ which is not functionally dependent on columns in GROUP BY clause; this is incompatible with sql_modeonly_full_group_by 原因 MySQL错误-t…...
UDP通信-广播、组播
UDP的三种通信方式 单播:单台主机与单台主机之间的通信。 广播:当前主机与所在网络中的所有主机通信。 组播:当前主机与选定的一组主机的通信。 UDP如何实现广播 使用广播地址:255.255.255.255 具体操作: 发送端…...
10-bean创建流程1一finishBeanFactoryInitialization(ConfigurableListableBeanFactory
文章目录 1. 方法的主要流程2. ConversionService-如何自定义转换器3. AbstractBeanFactory#getMergedLocalBeanDefinition(String beanName)4.FactoryBean实例化5.内置值处理器1. 方法的主要流程 /*** Finish the initialization of this contexts bean factory,* initializi…...
专题三:穷举、暴搜、深搜、回溯、剪枝【递归、搜索、回溯】
1、全排列 class Solution { public:vector<vector<int>> ret;vector<int> path;bool check[7];void dfs(vector<int>& nums){if(nums.size() path.size()) {ret.push_back(path);return;}for(int i 0;i < nums.size();i){if(check[i] fals…...
国科云SSL证书讲堂:SSL证书安装常见问题盘点
SSL证书能够对网站传输数据进行加密处理,有效提升网站的数据安全防护能力,逐渐被越来越多的政企网站所应用。但在安装使用SSL证书时,经常会发生各种意想不到的问题,对网站的数据安全和正常访问造成严重影响。本文国科云对安装使用…...
Python3无法调用Sqlalchemy解决(mysqldb)
原因 在安装Sqlalchemy后运行程序报错 无法导入mysqldb,缺失模块 ImportError: No module named ‘MySQLdb’ 既然缺少 MySQLdb 这个模块,尝试按照正常的想法执行 pip install MySQLdbpip install mysql-python 应该能解决,但是却找不到…...
2023/10/15总结
学习总结 最近开始写项目了,然后写的过程中遇到了跨域问题。 为什么会出现跨域问题 由于浏览器的同源策略限制。同源策略是一种约定,它是浏览器最核心也是最基本的安全功能。如果缺少了同源策略,那么浏览器的正常功能可能都会收到影响。所谓…...
关于图像分割SDK的一些基础认识
随着科技的不断发展,图像分割SDK已经成为了一个备受关注的话题。而在众多图像分割SDK中,美摄图像分割SDK以其独特的功能和优势脱颖而出。本文将从美摄图像分割SDK的企业价值和互联网娱乐方面,介绍其宣传文章的具体写作规范。 在企业价值方面&…...
SpringMVC之国际化上传下载
spring项目中的国际化 1)提供中英两种资源文件 i18n_en_US.properties i18n_zh_CN.properties 2)配置国际化资源文件(在spring配置文件中添加,例如spring-mvc.xml) <bean id"messageSource" class&quo…...
TigerVNC自动设置密码脚本
新建sh脚本,复制以下命令。设置ssh终端密码和vncserver密码后,运行ssh脚本,即可设置修改vncserver密码。 #!/bin/bash vncpwd"vncserver密码" sshpwd"ssh终端密码"expect << EOFset timeout 10spawn ssh root127.…...
什么是美体SDK?美摄美颜美体SDK对接开发指南
在当今的数字世界中,人们对自我表达和形象展示的需求越来越高。美体SDK应运而生,为用户提供了一种全新的美颜美体体验,让每一个人都能享受到个性化的美丽与自信。 一、美体SDK的特点 轻量级:美体SDK体积小巧,不会对用…...
【Java集合中各种数据结构的方法汇总】
文章目录 Java集合中各种数据结构的方法汇总数组 ArrayList 、LinkedList链表 LinkedList栈 Stack队列 ArrayQueue、LinkedList哈希表 HashMap堆 PriorityQueue Java集合中各种数据结构的方法汇总 获取大小:fun.size(); 判断是否为空:fun.isEmpty(); …...
算法通过村第十四关-堆|白银笔记|经典问题
文章目录 前言在数组中寻找第K大的元素堆排序原理合并K个排序链表总结 前言 提示:想要从讨厌的地方飞出来,就得有藏起来的翅膀。 --三岛由纪夫《萨德侯爵夫人》 这里我们主要看一下经典的题目,这三个题目来说都是堆的热点问题。重点再理解处理…...
如何正确维护实验室超声波清洗器?
实验室一直被视为一个严谨而严肃的场所,实验应遵循一定的步骤,使用的设备也经历了详细的选择,如实验室超声波清洗机,其特点远强于一般类型的清洗机。专门负责采购的实验室人员一般对优质服务的实验室超声波清洗机印象深刻…...
DID赛道前列的生物识别技术,开启Web3时代的大门—MXT
互联网发展的十字路口 互联网从上世纪90年代初发展至今,历经30年,她改变了整个人类的生活方式、沟通形式以及社会发展模式,她的影响早已渗透到了世界的各个角落。而如今,我们似乎正站在一个新的十字路口,一个互联网将…...
Java基础面试-final
final(最终的) 修饰类:表示类不可被继承修饰方法:表示方法不可被子类覆盖,但是可以重载修饰变量:表示变量一旦被赋值就不可以更改它的值 修饰成员变量 如果final修饰的是类变量,只能在静态初始…...
全波形反演的目标和技术
本篇文章主要讲述了全波形反演的目标和可能用到的方法,对其概念进行解释,以加深理解。若有不正确的地方,欢迎批评指正。 一. 全波形反演的目标: 1. 如何保障模型的拟合能力? 2. 如何保障模型的泛化能力? 3. 如何使结果 (速度模型) 满足物理…...
【SA8295P 源码分析】105 - QNX MISC分区读写、切换A/B启动槽、读取开机次数命令 swdl_utils 介绍 及 祼分区读写 代码实现
【SA8295P 源码分析】105 - QNX MISC分区读写、切换A/B启动槽、读取开机次数命令 swdl_utils 介绍 及 祼分区读写 代码实现 一、切换 A/B 槽启动分区二、读取开机次数三、写 MISC 信息四、Dump Misc 信息五、misc 祼分区读写 代码实现系列文章汇总见:《【SA8295P 源码分析】00…...
wordpress手动更新插件/百度推广的方式
我有点困惑,我无法使用MSVC在Windows上进行C开发设置Visual Studio Code . 网络上的所有人都说他们对设置和使用一切都很容易感到高兴,但我找不到任何简单的指南;他们中的大多数只是跳过设置部分,并显示一切有效,包括代码完成/智能…...
网站开发实战项目/学开网店哪个培训机构好正规
概述 Floodlight内部定义报文格式的代码位于net.floodlightcontroller.packet,其中定义的报文类型有ARP,BPDU,BSN,BSNPROBE,DHCP,Ethernet,ICMP,IPv4,LLC,LLDP,TCP,UDP。 其中定义了一个名为IPacket的接口,该接口结构如图: 包…...
建一个网站都需要什么/seo搜索引擎优化实训总结
合并效果图 Bootstrap其他请求的属性我们就不写了 和平常的一样 重点是columns var columns [ [ { field : merchantId, title : 商户ID, align : center, colspan : 1, rowspan : 2 …...
赣州做网站/百度seo效果怎么样
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼我在网上找了半天也没找到win8.1上能用的turbo debugger,所以只好求助大神帮忙了,要是有win8.1上能用的TD发我一个就更好了。谢谢!#include #include #include extern unsigned char asc[256*16]…...
5台电脑做视频网站服务器/东莞seo排名扣费
shc加密shc是加密脚本的工具,使用RC4加密算法,能把shell程序转化成二进制文件(支持动静态链接库)安装# wget http://www.datsi.fi.upm.es/~frosal/sources/shc-3.8.9b.tgz# tar zxvf shc-3.8.9b.tgz# cd shc-3.8.9b# mkdir -p /usr/local/man/man1/# mak…...
网站改版 删除栏目/上海网络推广
数据表设计的时候使用一个字段来存储多对多关系,比如表 user 中有一个字段叫 category, category存储的是 "1,3,9" 这样的类型的数据,实际上是 category 的 id 用逗号分隔开来的。 向 user 表录入 100万的数据,同时建立 user_cate…...