论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2010-03-07 11:48 |只看该作者 |倒序浏览

a='<a href="?stypes=通用名&key=妥洛特罗贴剂">妥洛特罗贴剂 '
如果我想替换（replace）或者删除 <a href="?stypes=通用名&key=妥洛特罗贴剂">，让它变成 '妥洛特罗贴剂 '
可是里面有变量<a href="?stypes=通用名&key=*">, *代表变量，正则或者其它方法怎么删除？

文库|博客

luffy.deng

腰缠万贯

论坛徽章:: 0

2楼 [报告]

发表于 2010-03-07 12:03 |只看该作者

a='<a href="?stypes=通用名&key=妥洛特罗贴剂">妥洛特罗贴剂 '
print a.split('>')[-1:][0]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wqjwftcaqr

小富即安

论坛徽章:: 0

3楼 [报告]

发表于 2010-03-07 16:21 |只看该作者

a='妥洛特罗贴剂 '
print a.split('>')[-1:][0]
luffy.deng 发表于 2010-03-07 12:03

我已经作了好了程序，上面的信息都在 cont 里，所以我不方便把它们分成各元素，最好是使用replace或者删除之句的语言像下面一样
def fetch(url):#采集的函数
while True:
      try:
         temp=[]
         outtemp=[]
         i=1
         page=urllib.urlopen(url).read()
         pat=re.compile('<td valign="top">(.*)</table>',flags=16)
         cont=pat.search(page).group(0)
         cont=cont.replace('<br>',' ')
         cont=cont.replace('</td>',' </td>')
         cont=cont.replace('\n',' ')
         cont=cont.replace('\r',' ')
         cont=cont.replace('</a>',' ')

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wqjwftcaqr

小富即安

论坛徽章:: 0

4楼 [报告]

发表于 2010-03-08 13:45 |只看该作者

语句cont=cont.replace('<a 变量>','')变量怎么表示呀？

这样的语句
变量是不是能在里面用？，用像excel里面删除东西一下<a *>

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

luffy.deng

腰缠万贯

论坛徽章:: 0

5楼 [报告]

发表于 2010-03-08 14:11 |只看该作者

非得执着的replace么？cont=cont.split('>')[-1:][0]不一样么？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wqjwftcaqr

小富即安

论坛徽章:: 0

6楼 [报告]

发表于 2010-03-08 14:15 |只看该作者

本帖最后由 wqjwftcaqr 于 2010-03-08 14:17 编辑

非得执着的replace么？cont=cont.split('>')[-1:][0]不一样么？
luffy.deng 发表于 2010-03-08 14:11

是的啊，替换和删除都可以，就是不方便变成序列

因为我整个自定义函数是这样的

def fetch(url):
while True:
      try:
         temp=[]
         outtemp=[]
         i=1
         page=urllib.urlopen(url).read()
         pat=re.compile('listmain(.*)<td onclick',flags=16)
         cont=pat.search(page).group(0)
         cont=cont.replace('<br>',' ')
         cont=cont.replace('</td>',' </td>')
         cont=cont.replace('\n',' ')
         cont=cont.replace('\r',' ')
         cont=cont.replace('</a>',' ')
         contfinal=cont.replace('null);">','null);">width=83%>')

         tmp=contfinal.split('width=83%>')
         for i in range(1,len(tmp)):
            temp=tmp.split('</td></tr>')
            outtemp.append(temp[0])
            i=i+2
         return (outtemp)
      except:
         print 'A,O'
         time.sleep(random.choice(range(5,15)))

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

luffy.deng

腰缠万贯

论坛徽章:: 0

7楼 [报告]

发表于 2010-03-08 14:17 |只看该作者

cont=cont.split('>')[-1:]这不就是个序列？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wqjwftcaqr

小富即安

论坛徽章:: 0

8楼 [报告]

发表于 2010-03-08 14:18 |只看该作者

cont=cont.split('>')[-1:]这不就是个序列？
luffy.deng 发表于 2010-03-08 14:17

上面的话，我说错了，是不想变成序列

因为我整个自定义函数是这样的

def fetch(url):
while True:
      try:
         temp=[]
         outtemp=[]
         i=1
         page=urllib.urlopen(url).read()
         pat=re.compile('listmain(.*)<td onclick',flags=16)
         cont=pat.search(page).group(0)
         cont=cont.replace('<br>',' ')
         cont=cont.replace('</td>',' </td>')
         cont=cont.replace('\n',' ')
         cont=cont.replace('\r',' ')
         cont=cont.replace('</a>',' ')
         contfinal=cont.replace('null);">','null);">width=83%>')

         tmp=contfinal.split('width=83%>')
         for i in range(1,len(tmp)):
            temp=tmp.split('</td></tr>')
            outtemp.append(temp[0])
            i=i+2
         return (outtemp)
      except:
         print 'A,O'
         time.sleep(random.choice(range(5,15)))