一种别样的Unicode Python编码方式,完美转换表情和阿拉伯语
我们可能有时候在处理字符时需要处理到非ASCII的字符,比如将表情、阿拉伯语转换为Unicode字符,从而避免在传输时会出现乱码的情况。
Unicode验证网站:
unicode转换网站
目的:转换下面除ASCII字符外的字符为Unicode字符👇
🔥🎱é🕐 19h📱mação nos stories!link
一、encode方法
看过网上的一些技术文,像以下方法
text = "你好世界"
escaped_text = text.encode('unicode-escape')
print(escaped_text) # b'\\u4f60\\u597d\\u4e16\\u754c'
上面的确实可以转换,但表情却不行,比如"🔥🎱",转换之后是\\U0001f525\\U0001f3b1
去掉转义符号测试一下,没办法转换
而我们试试网站自身的编码,同样也是乱码,不能正常解析出来
这个方法显然不管用
二、高代理和低代理对处理方法
为了正确处理表情符号(Unicode Supplementary Characters),处理 Unicode 补充字符(Supplementary Characters),我们需要特别处理这些高代理和低代理对,这些字符的编码范围在 0x10000 到 0x10FFFF 之间,通常用于表示表情符号等。
高代理和低代理对(surrogate pairs)是 Unicode 用来编码超出基本多文种平面的字符的方法。基本多文种平面(BMP, Basic Multilingual Plane)包含从 0x0000 到 0xFFFF 的字符,而超出这个范围的字符称为补充字符(Supplementary Characters),它们的代码点范围是从 0x10000 到 0x10FFFF。
由于 UTF-16 编码格式只能表示 0x0000 到 0xFFFF 范围内的字符,为了表示超出这个范围的字符,Unicode 引入了代理对的概念。代理对由两个 16 位的代码单元组成:
-
高代理单元(High Surrogate):范围是 0xD800 到 0xDBFF,包含 1024 个代码点。
-
低代理单元(Low Surrogate):范围是 0xDC00 到 0xDFFF,也包含 1024 个代码点。
由于 UTF-16 不能直接表示这些字符,所以需要使用代理对(surrogate pairs)
补充字符通常为表情符号,编码值一般大于 0xFFFF(即 65535)
补充字符的处理
- 检查字符是否是补充字符:
if code > 0xFFFF:
补充字符的编码值大于 0xFFFF(即 65535)。
- 计算高代理:
high_surrogate = 0xD800 + ((code - 0x10000) >> 10)
code - 0x10000
:将编码值减去 0x10000,因为补充字符的编码范围是从 0x10000 开始的。
(code - 0x10000) >> 10
:将结果右移 10 位,得到高 10 位的值。
0xD800 + ...
:将高 10 位的值加上 0xD800(高代理范围的起始值)得到高代理的编码值。
3. 计算低代理:
low_surrogate = 0xDC00 + ((code - 0x10000) & 0x3FF)
code - 0x10000
:将编码值减去 0x10000。
(code - 0x10000) & 0x3FF
:将结果与 0x3FF 做按位与操作,得到低 10 位的值。
0xDC00 + ...
:将低 10 位的值加上 0xDC00(低代理范围的起始值)得到低代理的编码值。
返回高代理和低代理对的 Unicode 转义表示:
return f'\\u{high_surrogate:04x}\\u{low_surrogate:04x}'
\\u{high_surrogate:04x}
:将高代理的编码值格式化为 4 位的十六进制数,并添加 Unicode 转义前缀 \u。
\\u{low_surrogate:04x}
:将低代理的编码值格式化为 4 位的十六进制数,并添加 Unicode 转义前缀 \u。
通过这种方式,我们可以将补充字符正确地转换为 Unicode 转义表示,保证它们在 JSON 文件中能以 \uXXXX\uXXXX 的形式表示。
处理非ASCII字符:
对于其他非ASCII字符(编码值大于 127 且小于等于 0xFFFF),直接格式化为 \uXXXX。
elif code > 127:return f'\\u{code:04x}'
保留 ASCII 字符:
对于 ASCII 字符(编码值小于等于 127),则直接返回字符本身。
最终代码
unicode_str = '🔥🎱é🕐 19h📱mação nos stories!link'def encode_non_ascii_chars(input_str):def to_unicode_escape(char):code = ord(char)# 处理补充字符(补充字符,通常是表情符号)# 补充字符的 Unicode 编码范围在 0x10000 到 0x10FFFF 之间。因为 UTF-16 不能直接表示这些字符,所以需要使用代理对(surrogate pairs)if code > 0xFFFF: # Supplementary charactershigh_surrogate = 0xD800 + ((code - 0x10000) >> 10)low_surrogate = 0xDC00 + ((code - 0x10000) & 0x3FF)return f'\\u{high_surrogate:04x}\\u{low_surrogate:04x}'# 处理非ASCII字符# 对于其他非ASCII字符(编码值大于 127 且小于等于 0xFFFF),直接格式化为 \uXXXX。elif code > 127: # non-ASCIIreturn f'\\u{code:04x}'# 对于 ASCII 字符(编码值小于等于 127),直接返回字符本身else:return charreturn ''.join(to_unicode_escape(char) for char in input_str)encoded_str = encode_non_ascii_chars(unicode_str)
print(encoded_str) # \ud83d\udd25\ud83c\udfb1\u00e9\ud83d\udd50 19h\ud83d\udcf1ma\u00e7\u00e3o nos stories!link
可正常转换
推荐文章:
(2024 最新 GPT4、GPT4.0 升级教程)ChatGPT 升级银行卡被拒绝,教你 5 分钟快速升级 chatgpt4
相关文章:
![](https://i-blog.csdnimg.cn/direct/0caa61ad89154e99b7876ca159b7219c.png)
一种别样的Unicode Python编码方式,完美转换表情和阿拉伯语
我们可能有时候在处理字符时需要处理到非ASCII的字符,比如将表情、阿拉伯语转换为Unicode字符,从而避免在传输时会出现乱码的情况。 Unicode验证网站: unicode转换网站 目的:转换下面除ASCII字符外的字符为Unicode字符…...
![](https://www.ngui.cc/images/no-images.jpg)
小白的晋升之路
编程小白如何成为大神?大学新生的最佳入门攻略 编程已成为当代大学生的必备技能,但面对众多编程语言和学习资源,新生们常常感到迷茫。如何选择适合自己的编程语言?如何制定有效的学习计划?如何避免常见的学习陷阱&…...
![](https://i-blog.csdnimg.cn/direct/e717df5de75643b29bb60c4405d69578.png)
WebLogic:CVE-2017-10271[XML反序列化]
漏洞成因 Weblogic的WLS Security组件对外提供 webservice服务 其中使用了XMLDecoder来 解析用户传入的XML数据 在解析的过程中出现 反序列化漏洞 ,导致可执行任意命令 原理:https://xz.aliyun.com/t/10172 靶场部署 1.进入靶场目录 cd /vulhub-maste…...
![](https://www.ngui.cc/images/no-images.jpg)
Day13--JavaWeb学习之Servlet后端渲染界面
基于Day12中登录页面实现的修改,这里实现的是如果登录成功,跳到LoginSuccess页面中展示后端查询到数据库中的信息,并实现在浏览器实现插入数据和删除数据(mybaits)。 当输入账号密码正确后进入LoginSuccess页面&#x…...
![](https://img-blog.csdnimg.cn/img_convert/3060660fdecd6c8e2794386fe4610da6.png)
【MySQL】全面剖析索引失效、回表查询与索引下推
1.索引失效的情况 以tb_user表举例,id为主键索引、name和phone字段上建立了一个普通索引,name和phone均为varchar类型。 索引列运算 当在 WHERE 子句或 JOIN 子句中对列使用函数或表达式时,索引会失效。 执行以下语句,可以发现执…...
![](https://img-blog.csdnimg.cn/img_convert/4aa78de38d3aaaa79156eb42b4ffa9fd.png)
1、爬⾍概述
1. 什么是爬虫? 爬虫(Web Crawler)是一种通过编写程序自动访问并提取互联网上数据的技术。爬虫可以帮助我们在浏览网页时自动收集和保存一些有用的数据,例如图片、视频和文本信息。简单来说,爬虫就是自动化的浏览器。…...
![](https://img-blog.csdnimg.cn/img_convert/8d07ccaed00b493f9ec7bb8b760498c1.jpeg)
科普文:微服务之分布式链路追踪SkyWalking单点服务搭建
1. 概述 1.1 概念 SkyWalking 是什么? SkyWalking 极简入门 | Apache SkyWalking FROM Apache SkyWalking 分布式系统的应用程序性能监视工具,专为微服务、云原生架构和基于容器(Docker、K8s、Mesos)架构而设计。 提供分布式追…...
![](https://i-blog.csdnimg.cn/direct/1ceb29fb85ca45aaaf20df86ff43e80c.png)
R 语言学习教程,从入门到精通,R的安装与环境的配置(3)
1、R 基础语法 一门新的语言学习一般是从输出 “Hello, World!” 程序开始,R 语言的 “Hello, World!” 程序代码如下: myString <- "Hello, World!" print ( myString )以上示例将字符串 “Hello, World!” 赋值给 myString 变量&#x…...
![](https://img-blog.csdnimg.cn/img_convert/472cbe9822dc4e9a8a8cb3a95a00f9ab.png)
【Pageadmin】之cms漏洞
方法一:上传模块拿webshell 首页如下 第一步:访问admin/login,登录后台 第二步:使用哥斯拉工具生成payload 然后自动生成了一个asp的payload 第三步:上传文件 将asp文件压缩为压缩包,上传。 解压访问1.asp…...
![](https://img-blog.csdnimg.cn/img_convert/2bec56c360ae765bc62f5bbb82667980.jpeg)
AIGC重塑设施农业:让农事操作更智能,生产效率更高
设施农业是现代农业的重要组成部分,随着人工智能等前沿技术的快速发展,这个领域迎来了新的变革机遇。尤其是大语言模型(Large Language Model,LLM)技术的崛起,其强大的语言理解和知识汇聚能力,为设施农业智能化发展带来了新的想象空间。本文将深入探讨大模型技术在设施农业生产…...
![](https://www.ngui.cc/images/no-images.jpg)
netty应用-手写RPC
文章目录 手写RPC之案例定位与通信过程介绍RPC框架案例定位服务端与客户端架构通信过程1. 服务注册与发现2. 请求序列化与传输3. 请求处理与响应4. 响应反序列化与结果处理实现细节1. 服务端2. 客户端技术选型关键挑战总结手写RPC之请求响应通信协议定制协议结构示例消息头格式…...
![](https://i-blog.csdnimg.cn/direct/1f07eebdae0147a68d94ab4b1c155016.png)
私域流量变迁与精细移动化趋势下的AI智能名片小程序源码应用探索
摘要:随着移动互联网技术的飞速发展,私域流量的价值日益凸显,成为企业营销战略的重要组成部分。私域流量的精细化和移动化趋势不仅改变了传统的营销格局,也为新兴技术的应用提供了广阔空间。本文深入探讨了私域流量的变迁历程&…...
![](https://i-blog.csdnimg.cn/direct/ea75cbfad3f2492288ed319ef78efb7c.png)
数据结构初阶之排序(下)
前言 上一期内容中我们了解了基本排序中的插入与选择排序,今天我将为大家带来剩下的几种排序算法 快速排序 快速排序是Hoare于1962年提出的⼀种⼆叉树结构的交换排序⽅法,其基本思想为:任取待排序元素序列中的某元素作为基准值,…...
![](https://i-blog.csdnimg.cn/direct/57eb55e51923440da62e88455e5e8d2c.png)
RGB图像的读取与保存
目录 1、安装imageio 2、读取照片 3、保存照片 4、resize 5、示例代码 1、安装imageio pip install imageio -i https://pypi.tuna.tsinghua.edu.cn/simple 2、读取照片 import imageio img imageio.imread(image_path) 3、保存照片 import imageio import numpy as…...
![](https://www.ngui.cc/images/no-images.jpg)
江协科技51单片机学习- p35 AD/DA模拟/数字采样
🚀write in front🚀 🔎大家好,我是黄桃罐头,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流 🎁欢迎各位→点赞👍 收藏⭐️ 留言📝…...
![](https://i-blog.csdnimg.cn/direct/639f2de26cdb4b078bb92620c63fd2fa.png)
C#裁剪图像的几种方法总结
前言 我们在上位机软件开发过程中经常需要裁剪图像,本文就是对c#中常见的裁剪图像方法进行总结。 1、克隆 直接调用Bitmap的Clone函数,然后指定需要裁剪的区域即可裁剪图像,该种方法不会损失精度 public static Bitmap CropImage_Clone(Bi…...
![](https://i-blog.csdnimg.cn/direct/8128e248c26641cca3e6e928d12cc68f.png)
被遗忘的哑终端 —— 键盘键位演变的启发者
注:机翻,未校对。 The Forgotten World of Dumb Terminals 被遗忘的哑终端世界 A quick journey through the lost age of “glass teletypes.” 快速穿越失落的“玻璃电传打字机”时代。 From the earliest days of digital computers, researchers o…...
![](https://i-blog.csdnimg.cn/direct/fb4001e19df64e3b900d470f3bdbc9b0.gif)
APACHE安装与应用
💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:Linux运维老纪的首页…...
![](https://img-blog.csdnimg.cn/img_convert/8a69c419039439c06abd90a8997b5ea9.png)
预警器件控制思考
预警器件控制思考 最小示例思想 当读取到环境信息与环境阈值的时候, 我们预警系统就要根据这些信息做出判断,是否要启动器件。 最简单的就是, 举温度temp的例子, temp(温度)与temp_th(阈值), 通过判断, 得出是否要启动器件. 如果在一段时间内, 一直是环境异常, 我…...
![](https://www.ngui.cc/images/no-images.jpg)
[Day 43] 區塊鏈與人工智能的聯動應用:理論、技術與實踐
區塊鏈的隱私保護機制 隨著區塊鏈技術的廣泛應用,隱私保護成為了一個至關重要的問題。區塊鏈以其去中心化和透明性的特點,為數據管理和交易提供了新的方法。然而,這些特點也帶來了新的挑戰,尤其是在隱私保護方面。本文將深入探討…...
![](https://www.ngui.cc/images/no-images.jpg)
【星海随笔】路由器的启动过程
路由器的启动过程 1.加电之后,ROM运行加电自检程序(Post),检查路由器的处理器、接口、内存等硬件设备。2.执行路由器中的启动程序(Bootstrap),搜索操作系统。路由器操作系统扩张部分可以从Flash RAM中装入,也可从 TFT…...
![](https://i-blog.csdnimg.cn/direct/41ce485b4c6d41ffa720e73b4d5ec559.png)
[翻译] Asset Administration Shells
关于资产管理外壳 (AAS) 资产管理外壳 (AAS) 是工业4.0中的关键概念,为产品、资源(如设备)和过程提供信息隐藏和更高层次的抽象。AAS 是技术和设备无关的机器可读描述,提供访问资产属性和功能的统一接口。与现有解决方案不同&…...
![](https://www.ngui.cc/images/no-images.jpg)
linux 常用磁盘维护命令
badblocks 功能说明:检查磁盘装置中损坏的区块。 语 法:badblocks [-svw][-b <区块大小>][-o <输出文件>][磁盘装置][磁盘区块数][启始区块] 补充说明:执行指令时须指定所要检查的磁盘装置,及此装置的磁盘区块数。…...
![](https://i-blog.csdnimg.cn/direct/bfa370bba4c24d8fbf2494a82095a062.png)
滑动窗口大总结!!!妈妈以后再也不担心我不会做滑动窗口啦~
写在前面:全部题都源于力扣 讲解题目一:最小覆盖子串题目二:字符串排列题目三:找所有字母异位词题目四:无重复字符的最长子串题目五:滑动窗口的最大值 讲解 滑动窗口算法技巧主要用来解决子数组问题&#…...
![](https://www.ngui.cc/images/no-images.jpg)
从地铁客流讲开来:客流统计与清分释义
一、常见的客流统计 1. 进站客流 定义:指在某个时间段内,乘客进入地铁站的数量。示例:如果某天早上8点到9点之间有5000人次进入地铁站,则这段时间内的进站客流为5000人次。 2. 出站客流 定义:指在某个时间段内&…...
![](https://i-blog.csdnimg.cn/direct/e90822a4b69f457882565c003117e358.jpeg)
《Excelize权威指南》新书发布
在数据洪流涌动的数字化时代,数据处理与分析已跃升为解锁无限洞察力的金钥匙,赋能商业智慧、重塑医疗健康版图、驱动教育科研创新。然而,当数据量级爆炸式增长,传统工具如 Excel 虽被誉为数据处理领域的常青树,其手动操…...
![](https://i-blog.csdnimg.cn/direct/3c98679222ef466886298d0fbe21d8e1.png)
Go语言加Vue3零基础入门全栈班11 Go语言+gorm用户管理系统实战 2024年08月03日 课程笔记
概述 如果您没有Golang的基础,应该学习如下前置课程。 Golang零基础入门Golang面向对象编程Go Web 基础Go语言开发REST API接口_20240728Go语言操作MySQL开发用户管理系统API教程_20240729Redis零基础快速入门_20231227GoRedis开发用户管理系统API实战_20240730Mo…...
![](https://img-blog.csdnimg.cn/img_convert/03a8e45fba043ae5d784fcdac512454b.png)
【设计模式】代理模式详解
1.简介 代理模式是常用的Java设计模式,该模式的特点是代理类与委托类共享相同的接口。代理类主要负责预处理消息、过滤消息、将消息转发给委托类,并在事后处理消息等。代理类与委托类之间通常存在关联关系,一个代理类对象与一个委托类对象关…...
![](https://www.ngui.cc/images/no-images.jpg)
Python变量和简单的数据类型
1、变量 massageHello python world! print(massage) massageHello world print(massage) 运行这个代码发现,同一个变量出现两个不同的结果 Hello python world! Hello world 在程序中,可随时修改变量的值&…...
![](https://www.ngui.cc/images/no-images.jpg)
切比雪夫距离
切比雪夫距离(Chebyshev Distance),又称棋盘距离或最大值距离,是一种用于测量两个点之间距离的度量方法。在二维平面上,切比雪夫距离定义为两个点之间的最大坐标差值。其公式如下: DChebyshevmax(∣x2−…...
![](/images/no-images.jpg)
奥门网站建设/最新新闻摘抄
Stepper常常用于表单的提交中,比如内容较多,一页显示不了,要分几页提交时使用 https://api.flutter.dev/flutter/material/Stepper-class.html...
![](/images/no-images.jpg)
网站建设博采/小辉seo
注意如下几点:1 其中,21000是impala-shell使用,21050是impala jdbc使用2 在Impala 2.0以后,可以使用两种方式去连接impala, Cloudera JDBC Connector 和 Hive 0.13 JDBC driver,一般推荐使用的是Cloudera J…...
![](/images/no-images.jpg)
公会网站免费建设/杭州百度seo优化
QIcon icon;icon.addFile(QStringLiteral("bitbug_favicon.ico"), QSize(), QIcon::Normal, QIcon::Off);widget->setWindowIcon(icon);转载于:https://www.cnblogs.com/liujx2019/p/10481323.html...
![](https://img-blog.csdnimg.cn/img_convert/8f406e830579b7c3b38b23bfa8a91f1c.png)
电气网站设计/搜索引擎是什么意思啊
目前职场中使用流程图或者思维导图梳理工作思路、制定工作规范已经成为了大家普遍认可的高效率工作方式。那去哪找制作流程图的工具呢?别找了,找不到了!最赞的流程图工具都在U妹这!一、ProcessOnProcessOn是一款网页版作图工具&am…...
![](/images/no-images.jpg)
营销型网站规划建设的七大要素/推广平台免费b2b网站大全
几日来一直在看 马维达翻译的《ACE自适配通信环境中文技术文档》,终于看出点名堂决定从今日开始写代码调试工作工作系统的原型。虽说动作慢了点,不过连续阅读了《ACE文档》和Bruce Zhang的《软件设计精要与模式》多章,对设计模式有了更深刻的…...
![](/images/no-images.jpg)
海宏集团网站建设方案/百度榜
篇前语:感谢上帝,感谢出版社,《白话C》下册(练武)出版行程终于迈过“终审”环节了。春节后下印厂有了可能性。高兴之余,发一个基于下册内容预览,为方便在线阅读,做了一些处理&#x…...