Python中文对相关文件的改编和处理

在Python中文中有很多的困难是新手的“克星”，以下文章是我们就这一问题给出的相关的解决方案，希望我们能够从中得到一些好的方法去解决这些问题，以便更好的在计算机的运行中灵活应用。

让客户满意是我们工作的目标，不断超越客户的期望值来自于我们对这个行业的热爱。我们立志把好的技术通过有效、简单的方式提供给客户，将通过不懈努力成为客户在信息化领域值得信任、有价值的长期合作伙伴，公司提供的服务项目有：域名与空间、虚拟空间、营销软件、网站建设、广西网站维护、网站推广。

import sys sys.version'2.5.1 (r251:54863, Apr 18 2007, 08:51:08) [MSC v.1310 32 bit (Intel)]'用记事本创建一个文件ChineseTest.py，默认ANSI：
s = "中文"
print s

测试一下瞧瞧：

 
 
   
  
  E:\Project\Python\Test>python中文Python ChineseTest.py    
  
  File "ChineseTest.py", line 1    
  
  SyntaxError: Non-ASCII character '\xd6' in file 
ChineseTest.py on line 1, but no encoding declared;

偷偷地把文件编码改成UTF-8：

 
 
   
  
  E:\Project\Python\Test>python 中文ChineseTest.py    
  
  File "ChineseTest.py", line 1    
  
  SyntaxError: Non-ASCII character '\xe4' in file 
ChineseTest.py on line 1, but no encoding declared;无济于事。

既然它提供了网址，那就看看吧。简单地浏览一下，终于知道如果文件里有非ASCII字符，需要在***行或第二行指定编码声明。把ChineseTest.py文件的编码重新改为ANSI，并加上编码声明

 
 
   
  
  # coding=gbk   
  
  s = "中文"   
  
  print s再试一下：    
  
  E:\Project\Python\Test>python ChineseTest.py    
  
  中文正常咯：）

（一）看一看它的长度：

 
 
   
  
  # coding=gbk   
  
  s = "中文"   
  
  print len(s)

s这里是str类型，所以计算的时候一个中文相当于两个英文字符，因此长度为4。
我们这样写

 
 
   
  
  # coding=gbk   
  
  s = "中文"   
  
  s1 = u"中文"   
  
  s2 = unicode(s, "gbk") #省略参数将用python中文默认的ASCII来解码    
  
  ss3 = s.decode("gbk") #把str转换成unicode是decode，unicode函数
作用与之相同    
  
  print len(s1)    
  
  print len(s2)    
  
  print len(s3)

（二）接着来看看文件的处理：

建立一个文件test.txt，文件格式用ANSI，内容为:
abc中文
用python来读取

 
 
   
  
  # coding=gbk   
  
  print open("Test.txt").read()    
  
  结果：abc中文

把文件格式改成UTF-8：
结果：abc涓?枃
显然，这里需要解码：

 
 
   
  
  # coding=gbk   
  
  import codecs    
  
  print open("Test.txt").read().decode("utf-8")    
  
  结果：abc中文

上面的test.txt我是用Editplus来编辑的，但当我用Windows自带的记事本编辑并存成UTF-8格式时，
运行时报错：
原来，某些软件，如notepad，在保存一个以UTF-8编码的文件时，会在文件开始的地方插入三个不可见的字符（0xEF 0xBB 0xBF，即BOM）。
因此我们在读取时需要自己去掉这些字符，python中文中的codecs module定义了这个常量：

 
 
   
  
  # coding=gbk   
  
  import codecs    
  
  data = open("Test.txt").read()    
  
  if data[:3] == codecs.BOM_UTF8:    
  
  datadata = data[3:]    
  
  print data.decode("utf-8")    
  
  结果：abc中文

（三）一点遗留问题

在第二部分中，我们用unicode函数和decode方法把str转换成unicode。为什么这两个函数的参数用"gbk"呢？
***反应是我们的编码声明里用了gbk(# coding=gbk)，但真是这样？
修改一下源文件：

 
 
   
  
  # coding=utf-8    
  
  s = "中文"   
  
  print unicode(s, "utf-8")    
  
  运行，报错：    
  
  Traceback (most recent call last):    
  
  File "ChineseTest.py", line 3, in    
  
  s = unicode(s, "utf-8")    
  
  UnicodeDecodeError: 'utf8' codec can't decode
 bytes in position 0-1: invalid data

简单地说，python中的print直接把字符串传递给操作系统，所以你需要把str解码成与操作系统一致的格式。Windows使用CP936(几乎与gbk相同)，所以这里可以使用gbk。
***测试：

 
 
   
  
  # coding=utf-8    
  
  s = "中文"   
  
  print unicode(s, "cp936")    
  
  结果：中文

【编辑推荐】

Python中文字符具体应用技巧分享
Python连接数据库两种常用方法介绍
Python流程控制关键字基本内容总结
Python流程控制关键字基本内容总结
Python文件路径具体操作方法经典讲解

网站建设、网络推广公司-创新互联，是专注品牌与效果的网站制作，网络营销seo公司；服务项目有等

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容