想学好python，得知道utf8的编码原理，对utf8很熟悉但又很陌生|utf|二进制|十进制|字符串|字节|官方文档|编码原理

UTF‑8 编码原理

UTF‑8是unicode字符集的一种存储实现方式，把每个字符的unicode码点，按规则转换成1～4 个字节。

utf8会根据Unicode码点的大小，自动决定用几个字节。

先看这张表

utf8编码对应字节数

你的Unicode码点多大

转换为二进制规则

1 字节

很小（0~127）

对应二进制是7位

0xxxxxxx

2 字节

小（128~2047）

对应二进制是8-11位

110xxxxx 10xxxxxx

3 字节

中等（2048~65535）

对应二进制是12-16位

1110xxxx 10xxxxxx 10xxxxxx

4 字节

很大（大于65536）

对应二进制时17位及以上

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

utf8转码规则：

unicode码点数是二进制7位以内对应1个字节以0开头+原来的7位（正好兼容ASCII码的所有字符）
unicode码点数是二制8~11位对应2个字节：第1个字节110开头+原来的5位，第2个字节10开头加上原来的6位
unicode码点数是二进制12~16位对应3个字节：第1个字节1110开头+原来的4位，第2个和第3个字节10开头加上原来的各6位
unicode码点数是二进制17位以上对应4个字节：第1个字节11110开头+原来的3位，第2个和第3个和第4个字节10开头加上原来的各6位

拿 “中” 字举例

“中” 的Unicode码点=U+4e2d，换算成十进制 =20013，utf8编码为b'\xe4\xb8\xad'

见下面的代码：

s = "中"#ord函数获取十进制码点print(ord(s))#输出为20013# 2. unicode_escape编码：得到转义16进制字符串print(s.encode('unicode_escape'))#输出为b'\中'# 1. utf-8 编码：得到字节(bytes)print(s.encode('utf-8'))# 输出：b'\xe4\xb8\xad'

第1步：根据上面的表数字20013落在哪个范围？

1 字节：0~127 ❌ 不符合
2 字节：128~2047 ❌ 不符合
3 字节：2048~65535 ✅ 正好符合

所以必须用3 字节来存！

U+4e2d是16进制数，换成二进制：0100 1110 0010 1101

s = "中"#bin函数获取对应二进制数print(bin(ord(s)))#输出为 0b100111000101101

第2步：按照3个字节的规则把二进制填进去

原16位：0100 1110 0010 1101

分段：0100 111000 101101

塞进格式：1110xxxx 10xxxxxx 10xxxxxx

重新计算二进制数：11100100 10111000 10101101

第3步：二进制数转成十六进制（我们看到的UTF-8结果）

第2步得到的二进制11100100 10111000 10101101对应16进制数为：e4 b8 ad

所以：“中” 的UTF-8编码 = 0xe4 0xb8 0xad，跟我们上面代码中得到的b'\xe4\xb8\xad'一致。

想学好python，得知道utf8的编码原理，对utf8很熟悉但又很陌生

热搜

热门跟贴

热搜

热门跟贴

相关推荐

DeepSource把150条规则塞进Python检查

AWS把入门门槛压到15分钟，新手却卡在0.0.0.0/0这串数

遇到了专业内的知识盲区

万字结编法教程，我所学的都是这本书教会的，这本书用了很久了，

这个开发者用1个YAML文件干掉了300行Python胶水代码

API文档写了300页，AI还是看不懂

一颗“球”玩转二进制！解决打字难题

先这样再那样 最后学会了吗～

此题有坑！A×B=B×B，A+B=12，A-B=？你敢算吗？

师傅和徒弟的编程对比，你能看出区别吗

看懂了没学会

分解的挺好的，丁是丁卯是卯

这理解能力有点犯规啊

要在昆虫界生存，你比不样样精通，但要在某一领域精通

哪有什么技巧，都是熟能生巧

想破头也不知啥原理

华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能

Claude Code 源码泄露了，有人用Python复刻了一个极简版

大模型公司不搞浏览器搞Agent，实测找到原因了

DeepSeek突然更新！

先这样再那样最后学会了吗～