免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 5024 | 回复: 18
打印 上一主题 下一主题

我这里想替换或者删除字符串里的信息,但是信息里面有变量怎么弄? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-03-07 11:48 |只看该作者 |倒序浏览
a='<a href="?stypes=通用名&key=妥洛特罗贴剂">妥洛特罗贴剂 '
如果我想替换(replace)或者删除  <a href="?stypes=通用名&key=妥洛特罗贴剂">,让它变成 '妥洛特罗贴剂 '
可是里面有变量<a href="?stypes=通用名&key=*">,    *代表变量,正则或者其它方法怎么删除?

论坛徽章:
0
2 [报告]
发表于 2010-03-07 12:03 |只看该作者
a='<a href="?stypes=通用名&key=妥洛特罗贴剂">妥洛特罗贴剂 '
print a.split('>')[-1:][0]

论坛徽章:
0
3 [报告]
发表于 2010-03-07 16:21 |只看该作者
a='妥洛特罗贴剂 '
print a.split('>')[-1:][0]
luffy.deng 发表于 2010-03-07 12:03



    我已经作了好了程序,上面的信息都在 cont 里,所以我不方便把它们分成各元素,最好是使用replace或者删除之句的语言像下面一样
def fetch(url):#采集的函数
    while True:
        try:   
            temp=[]
            outtemp=[]
            i=1
            page=urllib.urlopen(url).read()
            pat=re.compile('<td valign="top">(.*)</table>',flags=16)
            cont=pat.search(page).group(0)
            cont=cont.replace('<br>',' ')
            cont=cont.replace('</td>',' </td>')
            cont=cont.replace('\n',' ')
            cont=cont.replace('\r',' ')
            cont=cont.replace('</a>',' ')

论坛徽章:
0
4 [报告]
发表于 2010-03-08 13:45 |只看该作者
语句cont=cont.replace('<a 变量>','')变量怎么表示呀?


这样的语句
变量是不是能在里面用?,用像excel里面删除东西一下<a *>

论坛徽章:
0
5 [报告]
发表于 2010-03-08 14:11 |只看该作者
非得执着的replace么?cont=cont.split('>')[-1:][0]不一样么?

论坛徽章:
0
6 [报告]
发表于 2010-03-08 14:15 |只看该作者
本帖最后由 wqjwftcaqr 于 2010-03-08 14:17 编辑
非得执着的replace么?cont=cont.split('>')[-1:][0]不一样么?
luffy.deng 发表于 2010-03-08 14:11



    是的啊,替换和删除都可以,就是不方便变成序列

因为我整个自定义函数是这样的



def fetch(url):
    while True:
        try:   
            temp=[]
            outtemp=[]
            i=1
            page=urllib.urlopen(url).read()
            pat=re.compile('listmain(.*)<td onclick',flags=16)
            cont=pat.search(page).group(0)
            cont=cont.replace('<br>',' ')
            cont=cont.replace('</td>',' </td>')
            cont=cont.replace('\n',' ')
            cont=cont.replace('\r',' ')
            cont=cont.replace('</a>',' ')
            contfinal=cont.replace('null);">','null);">width=83%>')

            tmp=contfinal.split('width=83%>')
            for i in range(1,len(tmp)):
                temp=tmp.split('</td></tr>')
                outtemp.append(temp[0])
                i=i+2            
            return (outtemp)
        except:
            print 'A,O'
            time.sleep(random.choice(range(5,15)))

论坛徽章:
0
7 [报告]
发表于 2010-03-08 14:17 |只看该作者
cont=cont.split('>')[-1:]这不就是个序列?

论坛徽章:
0
8 [报告]
发表于 2010-03-08 14:18 |只看该作者
cont=cont.split('>')[-1:]这不就是个序列?
luffy.deng 发表于 2010-03-08 14:17

上面的话,我说错了,是不想变成序列

    因为我整个自定义函数是这样的



def fetch(url):
    while True:
        try:   
            temp=[]
            outtemp=[]
            i=1
            page=urllib.urlopen(url).read()
            pat=re.compile('listmain(.*)<td onclick',flags=16)
            cont=pat.search(page).group(0)
            cont=cont.replace('<br>',' ')
            cont=cont.replace('</td>',' </td>')
            cont=cont.replace('\n',' ')
            cont=cont.replace('\r',' ')
            cont=cont.replace('</a>',' ')
            contfinal=cont.replace('null);">','null);">width=83%>')

            tmp=contfinal.split('width=83%>')
            for i in range(1,len(tmp)):
                temp=tmp.split('</td></tr>')
                outtemp.append(temp[0])
                i=i+2            
            return (outtemp)
        except:
            print 'A,O'
            time.sleep(random.choice(range(5,15)))

论坛徽章:
0
9 [报告]
发表于 2010-03-08 14:20 |只看该作者
cont=cont.split('>')[-1:][0]这不取了序列里第一个字符串了么?

论坛徽章:
0
10 [报告]
发表于 2010-03-08 14:26 |只看该作者
本帖最后由 wqjwftcaqr 于 2010-03-08 14:28 编辑
cont=cont.split('>')[-1:][0]这不取了序列里第一个字符串了么?
luffy.deng 发表于 2010-03-08 14:20

  
我这个是自定义的采集的函数,cont是整个网页的信息,所以那个方法不怎么好用
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP