- 论坛徽章:
- 0
|
原帖由 limodou 于 2006-3-2 12:01 发表
看了你的文本,其实这里面不仅有汉字与英文的判断,还有一些格式的判断.比如说: <w>如何判断,可以通过判断【作为开始,】作为结束.汉语拼音如何判断,一种方法是将所有的汉语拼音字符列成一个list,然后判断是否 ...
汉语拼音我想利用正则表达式处理,可编译器老报错“error: bad character range”,汉语拼音的编码是这样的,
- 252 A3E0 ` a b c d e f g h i j k l m n o
- 268 A3F0 p q r s t u v w x y z { | }
复制代码
有什么办法让编译通过吗?我的正则式为:'[a-z]+'。
另外试了一下List:
- >>>list_py=['a','b', 'c' ,'d', 'e', 'f', 'g', 'h', 'i' ,'j', 'k' ,'l' ,'m', 'n', 'o','p' ,'q', 'r', 's',
- 't', 'u' ,'v', 'w', 'x', 'y', 'z']
- >>>line='<w>【骶骨】</w> dǐɡǔ 腰椎下部五块椎骨合成的一块骨,呈三角形,上宽下窄,'
- >>> line.find('d',0,len(line))
- 16
复制代码
但是
- >>> line.find(list_py[3],0,str(line))
- Traceback (most recent call last):
- File "<pyshell#8>", line 1, in -toplevel-
- line.find(list_py[3],0,str(line))
- TypeError: slice indices must be integers
- >>> list_py[3]
- '\xa3\xe4'
复制代码
这些编码问题,弄得我郁闷不已,望哪位大侠帮忙解决!
[ 本帖最后由 tikico 于 2006-3-3 10:07 编辑 ] |
|