深度剖析Python中文乱码说明

一直以来，Python 中文乱码就是一个极为头大的问题，经常抛出编码转换的异常，python中的str和unicode到底是一个什么东西呢？下面就进行学习相关Python 中文乱码问题。

10年专注成都网站制作，企业网站设计，个人网站制作服务，为大家分享网站制作知识、方案，网站设计流程、步骤,成功服务上千家企业。为您提供网站建设,网站制作,网页设计及定制高端网站建设服务,专注于企业网站设计,高端网页制作,对服务器租用等多个方面，拥有丰富设计经验。

在Python 中文乱码中提到unicode，一般指的是unicode对象，例如'哈哈'的unicode对象为而str，是一个字节数组，这个字节数组表示的是对unicode对象编码(可以是utf-8、gbk、cp936、GB2312)后的存储的格式。这里它仅仅是一个字节流，没有其它的含义，如果你想使这个字节流显示的内容有意义，就必须用正确的编码格式，解码显示。

例如：

对于unicode对象哈哈进行编码，编码成一个utf-8编码的str－s_utf8,s_utf8就是是一个字节数组，存放的就是'\xe5\x93\x88\xe5\x93\x88'，但是这仅仅是一个字节数组，如果你想将它通过print语句输出成哈哈，那你就失望了，为什么呢？

因为print语句它的实现是将要输出的内容传送了操作系统，操作系统会根据系统的编码对输入的字节流进行编码，这就解释了为什么utf-8格式的字符串“哈哈”，输出的是“鍝堝搱”。

因为 '\xe5\x93\x88\xe5\x93\x88'用GB2312去解释，其显示的出来就是“鍝堝搱”。这里再强调一下，str记录的是字节数组，只是某种编码的存储格式，至于输出到文件或是打印出来是什么格式，完全取决于其解码的编码将它解码成什么样子。

这里再对print进行一点补充说明：当将一个unicode对象传给print时，在内部会将该unicode对象进行一次转换，转换成本地的默认编码（这仅是个人猜测） str和unicode对象的转换，通过encode和decode实现，具体使用如下：

将GBK'哈哈'转换成unicode，然后再转换成UTF8 后就可以转换成功，为什么呢？在python中str和unicode在编码和解码过程中。如果将一个str直接编码成另一种编码，会先把str解码成unicode，采用的编码为默认编码，一般默认编码是 ansci i，所以在上面示例代码中***次转换的时候会出错，当设定当前默认编码为'gbk'后，就不会出错了。

在***节已经说过，Python 中文乱码中的字符串，只是一个字节数组，所以当把a情况的str输出到gbk编码的控制台时，就将显示为乱码：鍝堝搱；而当把b情况下的str输出utf-8编码的控制台时，也将显示乱码的问题，是什么也没有，也许'\xb9\xfe\xb9\xfe'用utf-8解码显示，就是空白吧至于reload(sys)是因为 Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法，我们需要重新载入。

当前标题：深度剖析Python中文乱码说明
文章路径：http://www.shufengxianlan.com/qtweb/news30/140030.html

网站建设、网络推广公司-创新互联，是专注品牌与效果的网站制作，网络营销seo公司；服务项目有等

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容