论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2006-03-21 23:51 |只看该作者 |倒序浏览

a ='吖 ā [吖嗪] (āｑíｎ) '
a是类似以上的字符串，我要把其中 [吖嗪] 变成 [吖嗪]
我的思路是：找出a中所有的[....]生成一个列表，然后去掉里面的html标记得到一个列表，然后将a中所有的[...]
替换成没有html的列表，得到的两个列表都没问题，就是替换中出来毛病，请高手指点！

#将所有[]里面的内容读到s1里面
s1 = re.compile('\[[^\]]*\]',re.S|re.M).findall(a)
dd = []
for x in s1:
x1 = re.compile('\<[^\>]*\>',re.S|re.M).sub('',x) #将[]内的html标记（<>里面的内容）去掉
dd.append(x1)

复制代码

这样得到了两个列表，其中s1是含有html标记的，dd是没有html标记的，我想把a里面所有的x1替换成dd

ff = re.sub(s1[0],dd[0],a)
while i<len(s1):
ff = re.sub(s1[i],dd[i],ff)
print s1[i]
print dd[i]
i +=1
print ff

复制代码

这种做法循环多次，不能达到目的，不知道这里该怎么替换？

文库|博客

limodou

家境小康

论坛徽章:: 0

2楼 [报告]

发表于 2006-03-22 09:47 |只看该作者

因为s1, 和 dd 都是解析出来后的结果，那么它们应该不用再解析了。可以简单的使用replace

for i in range(len(s1)):
a = a.replace(s1[i], dd[i])
print a

复制代码

或使用re.sub也可以，但要使用re.escape将特殊字符作一个处理，这样不会认为是正则表达式规则了，如：

for i in range(len(s1)):
a = re.sub(re.escape(s1[i]), dd[i], a)
print a

复制代码

还可以在更简化，一次就做完：

#coding=cp936
import re
a ='吖 ā [吖嗪] (āｑíｎ) '
def do_sub(m):
return re.sub(r'<.*?>', '', m.group())
a = re.sub(r'\[.*?\]', do_sub, a)
print a

复制代码

只不过你的要求好象有问题。象[这个是与前一个对应的。你把它去掉的话，就对应不上了。后面那个也是。

另外可以通过 .*? 这种方式来处理，使用r可以简化字符串的书写。下面是在python文档中的一段话，关于?的，可以参考一下：

*?, +?, ??

The "*", "+", and "?" qualifiers are all greedy; they match as much text as possible. Sometimes this behaviour isn't desired; if the RE <.*> is matched against '<H1>title</H1>', it will match the entire string, and not just '<H1>'. Adding "?" after the qualifier makes it perform the match in non-greedy or minimal fashion; as few characters as possible will be matched. Using .*? in the previous expression will match only '<H1>'.