12 / 2 页

论坛徽章:: 0

11楼 [报告]

发表于 2006-03-08 14:59 |显示全部楼层

不是已经说了嘛，使用unicode呀。因为unicode的一个字符就表示一个完整的汉字。而gbk汉字的话两个字符是一个汉字。如果使用gbk来处理的话，那么你要两个字符两个字符来处理，这样才是完整的。　

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

limodou

家境小康

论坛徽章:: 0

12楼 [报告]

发表于 2006-03-08 17:19 |显示全部楼层

#coding=gbk
a = u'【牴牾】ｄǐｗǔ 抵牾 contradiction; conflict 【牴牾】ｄǐｗǔ 抵牾 contradiction; conflict'
FLAG_WORD = 1
FLAG_PINYIN = 2
FLAG_ZH = 3
FLAG_EN = 4
tags = {
FLAG_WORD:('<w>', '</w>'),
FLAG_PINYIN:('<p>', '</p>'),
FLAG_ZH:('<zh>', '</zh>'),
FLAG_EN:('<en>', '</en>')
}
flag = -1
i = 0
s = [] #结果
buf = [] #缓冲区
pinyin = u'ｄǐｗǔ' + ' '
last_begin_tag = ''
last_flag = flag
while i<len(a):
if a[i] == u'【': #开始处理单词
#判断buf是否有内容，有则输出，同时注意结束tag
if buf:
b, e = tags[last_flag]
buf.append(e)
s.append(''.join(buf))
buf = []
flag = FLAG_WORD
buf.append(a[i])
i += 1
while i < len(a) and a[i] != u'】':
buf.append(a[i])
i += 1
#将】也加到缓冲区中
buf.append(a[i])
i += 1
b, e = tags[flag]
s.append(b + ''.join(buf) + e)
#开始处理拼音
flag = FLAG_PINYIN
buf = []
while i<a[i] and a[i] in pinyin:
buf.append(a[i])
i += 1
b, e = tags[flag]
s.append(b + ''.join(buf).strip() + e) #使用strip去掉多余的首尾空格
last_flag = flag
buf = []
continue
else:
if ord(a[i]) < 127: #英文
flag = FLAG_EN
else:
flag = FLAG_ZH
if last_flag != flag:
#判断是否上一个标志是否是中或英文，如果不是表示第一次进入则输出开始tag，
#否则先输出上一个的结束tag，然后是一个开始tag
if last_flag in (FLAG_ZH, FLAG_EN):
b, e = tags[last_flag]
buf.append(e)
b, e = tags[flag]
buf.append(b)
buf.append(a[i])
last_flag = flag
else:
buf.append(a[i])
i += 1
if buf:
b, e = tags[last_flag]
buf.append(e)
s.append(''.join(buf))
print ''.join([x.encode('gbk') for x in s])

复制代码

这里我没有从文件中读出文本，直接使用了一个unicode串来处理的。而且可以处理多个汉语词组。因此最开始可以：

text = file('a.txt').read() #这样把文本全部读出来
然后转化为unicode

a = unicode(text, 'gbk')

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

limodou

家境小康

论坛徽章:: 0

13楼 [报告]

发表于 2006-03-08 17:47 |显示全部楼层

有可能是你的文件有无法识别的汉字。可以考虑把示例的文本写入一个文件，用它先试一下。如果没有问题，那就考虑文件中的汉字有非法的。那可以考虑使用utf-8来处理了。但代码中有一处要转为gbk编码的也要转为utf-8才行。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

limodou

家境小康

论坛徽章:: 0

14楼 [报告]

发表于 2006-03-09 12:12 |显示全部楼层

存成文本的编码要与你转码的编码要一致。比如使用utf-8转码，那文本就需要是utf-8的。如果是gbk转码，那文本就需要是gbk的。不是简单地存一下就行的。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

limodou

家境小康

论坛徽章:: 0

15楼 [报告]

发表于 2006-03-09 16:09 |显示全部楼层

希望你的python能更上一层楼。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页

返回列表

Chinaunix › 论坛 › 程序设计 › Python › 大侠请进：如何在英文和中文之间加入分隔符

大侠请进：如何在英文和中文之间加入分隔符 [复制链接]