12 3 4 / 4 页下一页

论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2006-02-27 17:49 |只看该作者 |正序浏览

小弟目前在用python处理一份txt文件，中英文夹杂，目前一个关键问题是想在中文和英文之间加上标记，最好能变成xml的格式，例如：

【地板】ｄìｂǎｎ ? 室内铺在地面上的木板，有时也指木质楼板flooring; wooden board laid
on the floor; wooden floor ?
我的目标是变成：
<w>【地板】</w> ｄìｂǎｎ<chexp>室内铺在地面上的木板，有时也指木质楼板</chexp><enexp>flooring; wooden board laid
on the floor; wooden floor </enexp>

复制代码

哪位大侠给点提示，不胜感激！

[ 本帖最后由 wolfg 于 2006-2-27 21:27 编辑 ]

文库|博客

limodou

家境小康

论坛徽章:: 0

34楼 [报告]

发表于 2006-03-09 16:09 |只看该作者

希望你的python能更上一层楼。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

tikico

白手起家

论坛徽章:: 0

33楼 [报告]

发表于 2006-03-09 14:49 |只看该作者

回复 32楼 limodou 的帖子

基本搞定了，感谢limodou大侠这么久以来的耐心的教授。
明年央视《感动中国》我题名您上，再次感谢！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

limodou

家境小康

论坛徽章:: 0

32楼 [报告]

发表于 2006-03-09 12:12 |只看该作者

存成文本的编码要与你转码的编码要一致。比如使用utf-8转码，那文本就需要是utf-8的。如果是gbk转码，那文本就需要是gbk的。不是简单地存一下就行的。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

tikico

白手起家

论坛徽章:: 0

31楼 [报告]

发表于 2006-03-09 10:26 |只看该作者

原帖由 limodou 于 2006-3-8 17:47 发表
有可能是你的文件有无法识别的汉字。可以考虑把示例的文本写入一个文件，用它先试一下。如果没有问题，那就考虑文件中的汉字有非法的。那可以考虑使用utf-8来处理了。但代码中有一处要转为gbk编码的也要转为utf-8 ...

我就把
【牴牾】ｄǐｗǔ 抵牾 contradiction; conflict
存成文本也不行，错误一样，应该不是修改编码能解决的，因为直接处理上面一行没问题。
还是试一下，改成了utf8，cp936,果然还是不行，报错：

Traceback (most recent call last):
File "C:\Python24\limodou.py", line 5, in -toplevel-
a = unicode(test,'utf8')
File "C:\Python24\lib\encodings\utf_8.py", line 16, in decode
return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xa0 in position 0: unexpected code byte

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

tikico

白手起家

论坛徽章:: 0

30楼 [报告]

发表于 2006-03-08 18:45 |只看该作者

回复 29楼 limodou 的帖子

好的，我再试试！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

limodou

家境小康

论坛徽章:: 0

29楼 [报告]

发表于 2006-03-08 17:47 |只看该作者

有可能是你的文件有无法识别的汉字。可以考虑把示例的文本写入一个文件，用它先试一下。如果没有问题，那就考虑文件中的汉字有非法的。那可以考虑使用utf-8来处理了。但代码中有一处要转为gbk编码的也要转为utf-8才行。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

tikico

白手起家

论坛徽章:: 0

28楼 [报告]

发表于 2006-03-08 17:45 |只看该作者

limodou大侠真是热心，

好感动！您的代码已经超出我的要求，呵呵，谢谢先！
您的代码肯定是没问题的，但我按您的提示，修改a：

text=file('outputfile.txt').read()
a= unicode(text,'gbk')

复制代码

结果报错：

Traceback (most recent call last):
File "C:/Python24/limodou.py", line 5, in -toplevel-
a= unicode(text,'gbk')
UnicodeDecodeError: 'gbk' codec can't decode bytes in position 266-267: illegal multibyte sequence

复制代码

这也是我一直郁闷的，我原来一直用的是直接定义字符串，调试unicode没问题，但是一旦读文件，再转unicode就报错，是不是我的编译环境问题啊？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

limodou

家境小康

论坛徽章:: 0

27楼 [报告]

发表于 2006-03-08 17:19 |只看该作者

#coding=gbk
a = u'【牴牾】ｄǐｗǔ 抵牾 contradiction; conflict 【牴牾】ｄǐｗǔ 抵牾 contradiction; conflict'
FLAG_WORD = 1
FLAG_PINYIN = 2
FLAG_ZH = 3
FLAG_EN = 4
tags = {
FLAG_WORD:('<w>', '</w>'),
FLAG_PINYIN:('', ''),
FLAG_ZH:('<zh>', '</zh>'),
FLAG_EN:('<en>', '</en>')
}
flag = -1
i = 0
s = [] #结果
buf = [] #缓冲区
pinyin = u'ｄǐｗǔ' + ' '
last_begin_tag = ''
last_flag = flag
while i<len(a):
if a[i] == u'【': #开始处理单词
#判断buf是否有内容，有则输出，同时注意结束tag
if buf:
b, e = tags[last_flag]
buf.append(e)
s.append(''.join(buf))
buf = []
flag = FLAG_WORD
buf.append(a[i])
i += 1
while i < len(a) and a[i] != u'】':
buf.append(a[i])
i += 1
#将】也加到缓冲区中
buf.append(a[i])
i += 1
b, e = tags[flag]
s.append(b + ''.join(buf) + e)
#开始处理拼音
flag = FLAG_PINYIN
buf = []
while i<a[i] and a[i] in pinyin:
buf.append(a[i])
i += 1
b, e = tags[flag]
s.append(b + ''.join(buf).strip() + e) #使用strip去掉多余的首尾空格
last_flag = flag
buf = []
continue
else:
if ord(a[i]) < 127: #英文
flag = FLAG_EN
else:
flag = FLAG_ZH
if last_flag != flag:
#判断是否上一个标志是否是中或英文，如果不是表示第一次进入则输出开始tag，
#否则先输出上一个的结束tag，然后是一个开始tag
if last_flag in (FLAG_ZH, FLAG_EN):
b, e = tags[last_flag]
buf.append(e)
b, e = tags[flag]
buf.append(b)
buf.append(a[i])
last_flag = flag
else:
buf.append(a[i])
i += 1
if buf:
b, e = tags[last_flag]
buf.append(e)
s.append(''.join(buf))
print ''.join([x.encode('gbk') for x in s])

复制代码

这里我没有从文件中读出文本，直接使用了一个unicode串来处理的。而且可以处理多个汉语词组。因此最开始可以：

text = file('a.txt').read() #这样把文本全部读出来
然后转化为unicode

a = unicode(text, 'gbk')

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

tikico

白手起家

论坛徽章:: 0

26楼 [报告]

发表于 2006-03-08 16:08 |只看该作者

原帖由 limodou 于 2006-3-8 14:59 发表
不是已经说了嘛，使用unicode呀。因为unicode的一个字符就表示一个完整的汉字。而gbk汉字的话两个字符是一个汉字。如果使用gbk来处理的话，那么你要两个字符两个字符来处理，这样才是完整的。　

估计您也烦躁了，我自以为不是太笨，找了一些python中unicode的资料，还是不得要领。简单直接点问您吧，我有一行文本：
【牴牾】ｄǐｗǔ 抵牾 contradiction; conflict
保存在test.txt中，请问您要如何读取，然后如何操作（能把汉字和拼音像abcd一样处理），最好您就直接写段代码，将test.txt中的文本变成:
【牴牾】 ｄǐｗǔ 抵牾 contradiction; conflict
我菜不是问题，问题是菜了还不承认。您也不要再教导了，如果我看不懂代码再来请教，谢谢！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 3 4 / 4 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Python › 大侠请进：如何在英文和中文之间加入分隔符

大侠请进：如何在英文和中文之间加入分隔符 [复制链接]

回复 32楼 limodou 的帖子

回复 29楼 limodou 的帖子

浏览过的版块