首页 > python > Python中将中文字符串拆分为中文字符数组

Python中将中文字符串拆分为中文字符数组

2008年6月26日 Zhaoren 发表评论 阅读评论

line 是一个从中文文件(gbk)中读取的行,值为: 上海市第一中级人民法院刑事判决书 。

将中文字符串转换为中文 :

def __line2characters(self, line):
return list(line.decode(”gbk”))

打印显示代码:

characters = self.__line2characters(line)
for ch in characters:
print ch.decode(”gbk”),

显示结果:

上 海 市 第 一 中 级 人 民 法 院 刑 事 判 决 书

如果不采用这种方式,直接list(line)的话,得到的是一个字节数组 。

‘\xc9′, ‘\xcf’, ‘\xba’, ‘\xa3′, ‘\xca’, ‘\xd0′, ‘\xb5′, ‘\xda’, ‘\xd2′, ‘\xbb’, ‘\xd6′, ‘\xd0′, ‘\xbc’, ‘\xb6′, ‘\xc8′, ‘\xcb’, ‘\xc3′, ‘\xf1′, ‘\xb7′, ‘\xa8′, ‘\xd4′, ‘\xba’, ‘\xd0′, ‘\xcc’, ‘\xca’, ‘\xc2′, ‘\xc5′, ‘\xd0′, ‘\xbe’, ‘\xf6′, ‘\xca’, ‘\xe9′, ‘\n’

不明白其中的原理,但是实现了这个目的,请高手帮忙解释。

Share and Enjoy:
  • Print
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google Bookmarks
  • Blogplay

No related posts.

分类: python 标签: ,
  1. 本文目前尚无任何评论.
  1. 本文目前尚无任何 trackbacks 和 pingbacks.