如果处理后的字符串中有中文表示的字符,要想不出错,就得转成unicode编码。具体方法是:
1、decode(),将对方编码的字符串转成unicode编码,如str1.decode('gb2312'),意思是将gb2312编码的字符串str1转成unicode编码;
2、encode(),将unicode编码转换成其他编码的字符串,如str2.encode('gb2312'),表示将unicode编码的字符串str2转换成gb2312编码;
3、unicode(),同decode(),将其他编码的字符串转为unicode编码,如unicode(str3, 'gb2312'),表示将gb2312编码的字符串str3转为unicode编码。
转码的时候首先要了解字符串str的编码是什么,然后解码成unicode,最后再编码成其他编码。
另外,对unicode编码的字符串进行解码时会出错,所以如果不知道编码,首先要判断编码方式是否为unicode,可以使用isinstance(str, unicode)。
不仅是中文,以后处理包含非ascii编码的字符串时,可以按照下面的步骤:
1、确定源字符的编码格式,假设是utf8;
2、使用unicode()或decode()转换成unicode编码,如str1.decode('utf8'),或者unicode(str1, 'utf8');
3、把处理后字符串用encode()编码成指定格式。
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ 如何在python中实现复数运算09/09
- ♥ python如何从官网下载64位安装包10/24
- ♥ python用什么实现报表?12/25
- ♥ Python实战:求三角函数09/20
- ♥ python比较运算的使用方法12/17
- ♥ 如何在python中编写空函数?10/04
内容反馈