- 论坛徽章:
- 0
|
本帖最后由 wqjwftcaqr 于 2010-03-08 14:17 编辑
非得执着的replace么?cont=cont.split('>')[-1:][0]不一样么?
luffy.deng 发表于 2010-03-08 14:11
是的啊,替换和删除都可以,就是不方便变成序列
因为我整个自定义函数是这样的
def fetch(url):
while True:
try:
temp=[]
outtemp=[]
i=1
page=urllib.urlopen(url).read()
pat=re.compile('listmain(.*)<td onclick',flags=16)
cont=pat.search(page).group(0)
cont=cont.replace('<br>',' ')
cont=cont.replace('</td>',' </td>')
cont=cont.replace('\n',' ')
cont=cont.replace('\r',' ')
cont=cont.replace('</a>',' ')
contfinal=cont.replace('null);">','null);">width=83%>')
tmp=contfinal.split('width=83%>')
for i in range(1,len(tmp)):
temp=tmp.split('</td></tr>')
outtemp.append(temp[0])
i=i+2
return (outtemp)
except:
print 'A,O'
time.sleep(random.choice(range(5,15))) |
|