当前位置: 首页 > news >正文

一种别样的Unicode Python编码方式,完美转换表情和阿拉伯语

我们可能有时候在处理字符时需要处理到非ASCII的字符,比如将表情、阿拉伯语转换为Unicode字符,从而避免在传输时会出现乱码的情况。

Unicode验证网站:
unicode转换网站

目的:转换下面除ASCII字符外的字符为Unicode字符👇

🔥🎱é🕐  19h📱mação nos stories!link

一、encode方法

看过网上的一些技术文,像以下方法

text = "你好世界"
escaped_text = text.encode('unicode-escape')
print(escaped_text) # b'\\u4f60\\u597d\\u4e16\\u754c'

上面的确实可以转换,但表情却不行,比如"🔥🎱",转换之后是\\U0001f525\\U0001f3b1
去掉转义符号测试一下,没办法转换

而我们试试网站自身的编码,同样也是乱码,不能正常解析出来

这个方法显然不管用

二、高代理和低代理对处理方法

为了正确处理表情符号(Unicode Supplementary Characters),处理 Unicode 补充字符(Supplementary Characters),我们需要特别处理这些高代理和低代理对,这些字符的编码范围在 0x10000 到 0x10FFFF 之间,通常用于表示表情符号等。

高代理和低代理对(surrogate pairs)是 Unicode 用来编码超出基本多文种平面的字符的方法。基本多文种平面(BMP, Basic Multilingual Plane)包含从 0x0000 到 0xFFFF 的字符,而超出这个范围的字符称为补充字符(Supplementary Characters),它们的代码点范围是从 0x10000 到 0x10FFFF。

由于 UTF-16 编码格式只能表示 0x0000 到 0xFFFF 范围内的字符,为了表示超出这个范围的字符,Unicode 引入了代理对的概念。代理对由两个 16 位的代码单元组成:

  • 高代理单元(High Surrogate):范围是 0xD800 到 0xDBFF,包含 1024 个代码点。

  • 低代理单元(Low Surrogate):范围是 0xDC00 到 0xDFFF,也包含 1024 个代码点。

由于 UTF-16 不能直接表示这些字符,所以需要使用代理对(surrogate pairs)

补充字符通常为表情符号,编码值一般大于 0xFFFF(即 65535)

补充字符的处理

  1. 检查字符是否是补充字符:
if code > 0xFFFF:

补充字符的编码值大于 0xFFFF(即 65535)。

  1. 计算高代理:

high_surrogate = 0xD800 + ((code - 0x10000) >> 10)

code - 0x10000:将编码值减去 0x10000,因为补充字符的编码范围是从 0x10000 开始的。
(code - 0x10000) >> 10:将结果右移 10 位,得到高 10 位的值。
0xD800 + ...:将高 10 位的值加上 0xD800(高代理范围的起始值)得到高代理的编码值。
3. 计算低代理:

low_surrogate = 0xDC00 + ((code - 0x10000) & 0x3FF)

code - 0x10000:将编码值减去 0x10000。
(code - 0x10000) & 0x3FF:将结果与 0x3FF 做按位与操作,得到低 10 位的值。
0xDC00 + ...:将低 10 位的值加上 0xDC00(低代理范围的起始值)得到低代理的编码值。
返回高代理和低代理对的 Unicode 转义表示:

return f'\\u{high_surrogate:04x}\\u{low_surrogate:04x}'

\\u{high_surrogate:04x}:将高代理的编码值格式化为 4 位的十六进制数,并添加 Unicode 转义前缀 \u。
\\u{low_surrogate:04x}:将低代理的编码值格式化为 4 位的十六进制数,并添加 Unicode 转义前缀 \u。
通过这种方式,我们可以将补充字符正确地转换为 Unicode 转义表示,保证它们在 JSON 文件中能以 \uXXXX\uXXXX 的形式表示。

处理非ASCII字符:

对于其他非ASCII字符(编码值大于 127 且小于等于 0xFFFF),直接格式化为 \uXXXX。

elif code > 127:return f'\\u{code:04x}'

保留 ASCII 字符:

对于 ASCII 字符(编码值小于等于 127),则直接返回字符本身。

最终代码

unicode_str = '🔥🎱é🕐  19h📱mação nos stories!link'def encode_non_ascii_chars(input_str):def to_unicode_escape(char):code = ord(char)# 处理补充字符(补充字符,通常是表情符号)# 补充字符的 Unicode 编码范围在 0x10000 到 0x10FFFF 之间。因为 UTF-16 不能直接表示这些字符,所以需要使用代理对(surrogate pairs)if code > 0xFFFF:  # Supplementary charactershigh_surrogate = 0xD800 + ((code - 0x10000) >> 10)low_surrogate = 0xDC00 + ((code - 0x10000) & 0x3FF)return f'\\u{high_surrogate:04x}\\u{low_surrogate:04x}'# 处理非ASCII字符# 对于其他非ASCII字符(编码值大于 127 且小于等于 0xFFFF),直接格式化为 \uXXXX。elif code > 127:  # non-ASCIIreturn f'\\u{code:04x}'# 对于 ASCII 字符(编码值小于等于 127),直接返回字符本身else:return charreturn ''.join(to_unicode_escape(char) for char in input_str)encoded_str = encode_non_ascii_chars(unicode_str)
print(encoded_str) # \ud83d\udd25\ud83c\udfb1\u00e9\ud83d\udd50  19h\ud83d\udcf1ma\u00e7\u00e3o nos stories!link

可正常转换

推荐文章:

(2024 最新 GPT4、GPT4.0 升级教程)ChatGPT 升级银行卡被拒绝,教你 5 分钟快速升级 chatgpt4

相关文章:

一种别样的Unicode Python编码方式,完美转换表情和阿拉伯语

我们可能有时候在处理字符时需要处理到非ASCII的字符,比如将表情、阿拉伯语转换为Unicode字符,从而避免在传输时会出现乱码的情况。 Unicode验证网站: unicode转换网站 目的:转换下面除ASCII字符外的字符为Unicode字符&#x1f…...

小白的晋升之路

编程小白如何成为大神?大学新生的最佳入门攻略 编程已成为当代大学生的必备技能,但面对众多编程语言和学习资源,新生们常常感到迷茫。如何选择适合自己的编程语言?如何制定有效的学习计划?如何避免常见的学习陷阱&…...

WebLogic:CVE-2017-10271[XML反序列化]

漏洞成因 Weblogic的WLS Security组件对外提供 webservice服务 其中使用了XMLDecoder来 解析用户传入的XML数据 在解析的过程中出现 反序列化漏洞 ,导致可执行任意命令 原理:https://xz.aliyun.com/t/10172 靶场部署 1.进入靶场目录 cd /vulhub-maste…...

Day13--JavaWeb学习之Servlet后端渲染界面

基于Day12中登录页面实现的修改,这里实现的是如果登录成功,跳到LoginSuccess页面中展示后端查询到数据库中的信息,并实现在浏览器实现插入数据和删除数据(mybaits)。 当输入账号密码正确后进入LoginSuccess页面&#x…...

【MySQL】全面剖析索引失效、回表查询与索引下推

1.索引失效的情况 以tb_user表举例,id为主键索引、name和phone字段上建立了一个普通索引,name和phone均为varchar类型。 索引列运算 当在 WHERE 子句或 JOIN 子句中对列使用函数或表达式时,索引会失效。 执行以下语句,可以发现执…...

1、爬⾍概述

1. 什么是爬虫? 爬虫(Web Crawler)是一种通过编写程序自动访问并提取互联网上数据的技术。爬虫可以帮助我们在浏览网页时自动收集和保存一些有用的数据,例如图片、视频和文本信息。简单来说,爬虫就是自动化的浏览器。…...

科普文:微服务之分布式链路追踪SkyWalking单点服务搭建

1. 概述 1.1 概念 SkyWalking 是什么? SkyWalking 极简入门 | Apache SkyWalking FROM Apache SkyWalking 分布式系统的应用程序性能监视工具,专为微服务、云原生架构和基于容器(Docker、K8s、Mesos)架构而设计。 提供分布式追…...

R 语言学习教程,从入门到精通,R的安装与环境的配置(3)

1、R 基础语法 一门新的语言学习一般是从输出 “Hello, World!” 程序开始&#xff0c;R 语言的 “Hello, World!” 程序代码如下&#xff1a; myString <- "Hello, World!" print ( myString )以上示例将字符串 “Hello, World!” 赋值给 myString 变量&#x…...

【Pageadmin】之cms漏洞

方法一&#xff1a;上传模块拿webshell 首页如下 第一步&#xff1a;访问admin/login&#xff0c;登录后台 第二步&#xff1a;使用哥斯拉工具生成payload 然后自动生成了一个asp的payload 第三步&#xff1a;上传文件 将asp文件压缩为压缩包&#xff0c;上传。 解压访问1.asp…...

AIGC重塑设施农业:让农事操作更智能,生产效率更高

设施农业是现代农业的重要组成部分,随着人工智能等前沿技术的快速发展,这个领域迎来了新的变革机遇。尤其是大语言模型(Large Language Model,LLM)技术的崛起,其强大的语言理解和知识汇聚能力,为设施农业智能化发展带来了新的想象空间。本文将深入探讨大模型技术在设施农业生产…...

netty应用-手写RPC

文章目录 手写RPC之案例定位与通信过程介绍RPC框架案例定位服务端与客户端架构通信过程1. 服务注册与发现2. 请求序列化与传输3. 请求处理与响应4. 响应反序列化与结果处理实现细节1. 服务端2. 客户端技术选型关键挑战总结手写RPC之请求响应通信协议定制协议结构示例消息头格式…...

私域流量变迁与精细移动化趋势下的AI智能名片小程序源码应用探索

摘要&#xff1a;随着移动互联网技术的飞速发展&#xff0c;私域流量的价值日益凸显&#xff0c;成为企业营销战略的重要组成部分。私域流量的精细化和移动化趋势不仅改变了传统的营销格局&#xff0c;也为新兴技术的应用提供了广阔空间。本文深入探讨了私域流量的变迁历程&…...

数据结构初阶之排序(下)

前言 上一期内容中我们了解了基本排序中的插入与选择排序&#xff0c;今天我将为大家带来剩下的几种排序算法 快速排序 快速排序是Hoare于1962年提出的⼀种⼆叉树结构的交换排序⽅法&#xff0c;其基本思想为&#xff1a;任取待排序元素序列中的某元素作为基准值&#xff0c;…...

RGB图像的读取与保存

目录 1、安装imageio 2、读取照片 3、保存照片 4、resize 5、示例代码 1、安装imageio pip install imageio -i https://pypi.tuna.tsinghua.edu.cn/simple 2、读取照片 import imageio img imageio.imread(image_path) 3、保存照片 import imageio import numpy as…...

江协科技51单片机学习- p35 AD/DA模拟/数字采样

&#x1f680;write in front&#x1f680; &#x1f50e;大家好&#xff0c;我是黄桃罐头&#xff0c;希望你看完之后&#xff0c;能对你有所帮助&#xff0c;不足请指正&#xff01;共同学习交流 &#x1f381;欢迎各位→点赞&#x1f44d; 收藏⭐️ 留言&#x1f4dd;​…...

C#裁剪图像的几种方法总结

前言 我们在上位机软件开发过程中经常需要裁剪图像&#xff0c;本文就是对c#中常见的裁剪图像方法进行总结。 1、克隆 直接调用Bitmap的Clone函数&#xff0c;然后指定需要裁剪的区域即可裁剪图像&#xff0c;该种方法不会损失精度 public static Bitmap CropImage_Clone(Bi…...

被遗忘的哑终端 —— 键盘键位演变的启发者

注&#xff1a;机翻&#xff0c;未校对。 The Forgotten World of Dumb Terminals 被遗忘的哑终端世界 A quick journey through the lost age of “glass teletypes.” 快速穿越失落的“玻璃电传打字机”时代。 From the earliest days of digital computers, researchers o…...

APACHE安装与应用

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:Linux运维老纪的首页…...

预警器件控制思考

预警器件控制思考 最小示例思想 当读取到环境信息与环境阈值的时候, 我们预警系统就要根据这些信息做出判断,是否要启动器件。 最简单的就是&#xff0c; 举温度temp的例子, temp(温度)与temp_th(阈值), 通过判断, 得出是否要启动器件. 如果在一段时间内, 一直是环境异常, 我…...

[Day 43] 區塊鏈與人工智能的聯動應用:理論、技術與實踐

區塊鏈的隱私保護機制 隨著區塊鏈技術的廣泛應用&#xff0c;隱私保護成為了一個至關重要的問題。區塊鏈以其去中心化和透明性的特點&#xff0c;為數據管理和交易提供了新的方法。然而&#xff0c;這些特點也帶來了新的挑戰&#xff0c;尤其是在隱私保護方面。本文將深入探討…...

【OSG学习笔记】Day 18: 碰撞检测与物理交互

物理引擎&#xff08;Physics Engine&#xff09; 物理引擎 是一种通过计算机模拟物理规律&#xff08;如力学、碰撞、重力、流体动力学等&#xff09;的软件工具或库。 它的核心目标是在虚拟环境中逼真地模拟物体的运动和交互&#xff0c;广泛应用于 游戏开发、动画制作、虚…...

cf2117E

原题链接&#xff1a;https://codeforces.com/contest/2117/problem/E 题目背景&#xff1a; 给定两个数组a,b&#xff0c;可以执行多次以下操作&#xff1a;选择 i (1 < i < n - 1)&#xff0c;并设置 或&#xff0c;也可以在执行上述操作前执行一次删除任意 和 。求…...

CRMEB 框架中 PHP 上传扩展开发:涵盖本地上传及阿里云 OSS、腾讯云 COS、七牛云

目前已有本地上传、阿里云OSS上传、腾讯云COS上传、七牛云上传扩展 扩展入口文件 文件目录 crmeb\services\upload\Upload.php namespace crmeb\services\upload;use crmeb\basic\BaseManager; use think\facade\Config;/*** Class Upload* package crmeb\services\upload* …...

MySQL中【正则表达式】用法

MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现&#xff08;两者等价&#xff09;&#xff0c;用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例&#xff1a; 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...

selenium学习实战【Python爬虫】

selenium学习实战【Python爬虫】 文章目录 selenium学习实战【Python爬虫】一、声明二、学习目标三、安装依赖3.1 安装selenium库3.2 安装浏览器驱动3.2.1 查看Edge版本3.2.2 驱动安装 四、代码讲解4.1 配置浏览器4.2 加载更多4.3 寻找内容4.4 完整代码 五、报告文件爬取5.1 提…...

AI语音助手的Python实现

引言 语音助手(如小爱同学、Siri)通过语音识别、自然语言处理(NLP)和语音合成技术,为用户提供直观、高效的交互体验。随着人工智能的普及,Python开发者可以利用开源库和AI模型,快速构建自定义语音助手。本文由浅入深,详细介绍如何使用Python开发AI语音助手,涵盖基础功…...

【Linux手册】探秘系统世界:从用户交互到硬件底层的全链路工作之旅

目录 前言 操作系统与驱动程序 是什么&#xff0c;为什么 怎么做 system call 用户操作接口 总结 前言 日常生活中&#xff0c;我们在使用电子设备时&#xff0c;我们所输入执行的每一条指令最终大多都会作用到硬件上&#xff0c;比如下载一款软件最终会下载到硬盘上&am…...

OCR MLLM Evaluation

为什么需要评测体系&#xff1f;——背景与矛盾 ​​ 能干的事&#xff1a;​​ 看清楚发票、身份证上的字&#xff08;准确率>90%&#xff09;&#xff0c;速度飞快&#xff08;眨眼间完成&#xff09;。​​干不了的事&#xff1a;​​ 碰到复杂表格&#xff08;合并单元…...

EEG-fNIRS联合成像在跨频率耦合研究中的创新应用

摘要 神经影像技术对医学科学产生了深远的影响&#xff0c;推动了许多神经系统疾病研究的进展并改善了其诊断方法。在此背景下&#xff0c;基于神经血管耦合现象的多模态神经影像方法&#xff0c;通过融合各自优势来提供有关大脑皮层神经活动的互补信息。在这里&#xff0c;本研…...

在Spring Boot中集成RabbitMQ的完整指南

前言 在现代微服务架构中&#xff0c;消息队列&#xff08;Message Queue&#xff09;是实现异步通信、解耦系统组件的重要工具。RabbitMQ 是一个流行的消息中间件&#xff0c;支持多种消息协议&#xff0c;具有高可靠性和可扩展性。 本博客将详细介绍如何在 Spring Boot 项目…...