Python中将中文字符串拆分为中文字符数组
line 是一个从中文文件(gbk)中读取的行,值为: 上海市第一中级人民法院刑事判决书 。
将中文字符串转换为中文 :
def __line2characters(self, line):
return list(line.decode(”gbk”))
打印显示代码:
characters = self.__line2characters(line)
for ch in characters:
print ch.decode(”gbk”),
显示结果:
上 海 市 第 一 中 级 人 民 法 院 刑 事 判 决 书
如果不采用这种方式,直接list(line)的话,得到的是一个字节数组 。
‘\xc9′, ‘\xcf’, ‘\xba’, ‘\xa3′, ‘\xca’, ‘\xd0′, ‘\xb5′, ‘\xda’, ‘\xd2′, ‘\xbb’, ‘\xd6′, ‘\xd0′, ‘\xbc’, ‘\xb6′, ‘\xc8′, ‘\xcb’, ‘\xc3′, ‘\xf1′, ‘\xb7′, ‘\xa8′, ‘\xd4′, ‘\xba’, ‘\xd0′, ‘\xcc’, ‘\xca’, ‘\xc2′, ‘\xc5′, ‘\xd0′, ‘\xbe’, ‘\xf6′, ‘\xca’, ‘\xe9′, ‘\n’
不明白其中的原理,但是实现了这个目的,请高手帮忙解释。
No related posts.
最近评论