python中的编码之间可以相互转换,这个我们在之前的文章中有讲到。那小编开始提问了,utf-8
编码如何转换?有的小伙伴可能对这个词模模糊糊的有点印象。
但是如果我们提到
unicode编码大家就会觉得很熟
悉
。所以
今天讲的是
unicode编码里的
Utf-8,我们来试试两种不同编码的区别,说不定会有新的惊喜呢。
UTF-8编码将一个unicode字符编码为1~6个字节,常用的英文字母编码为1个字节,汉字通常为3个字节,只有非常少见的字符才编码为4~6个字节。注意,从unicode到utf-8不是直接对应,而是通过一些算法和规则转换的。
来看一下具体编码例子吧:
>>> list('中'.encode('utf-8'))
[228, 184, 173]
>>> list('a'.encode('utf-8'))
[97]
可以看出,
utf-8
汉字'中'被编码成三个字节,英文字母'a'被编码成一个字节,utf-8编码兼容ASCII编码。
拓展:unicode 编码
每种语言都有一套编码,真是太蠢了!为什么不能把所有语言的所有字符都编码在一起呢?
把所有的语言统一成一套编码,就是unicode编码。使用unicode编码,无论处理什么文本,都不会出现乱码。
Unicode编码使用两个字节(16位)来表示一个字符,更远的字符需要使用4个字节。
但是新的问题又出现了。一段纯英文文本如果用unicode编码存储,占用的空间是ASCII编码的两倍!存储和传输都是浪费!
今天关于utf-8编码转换的讲解到这里就结束了。不知道大家有没有掌握好呢~我就看一遍,代码真的很简单。以后还会有新的类似的扩展,小编会及时更新的。
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ python中INF值介绍09/04
- ♥ 如何在python中实现余数运算10/18
- ♥ python源文件的字符编码09/18
- ♥ python如何获取当前目录08/25
- ♥ Python3编码如何实现相互转换?11/28
- ♥ 什么是 Python 路径09/03
内容反馈