论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2013-05-20 21:39 |只看该作者 |倒序浏览

是这样的，需要匹配出不带rel="nofollow"的链接，因为一带nofollow链接就没意思了。下面是例子：
<a href="www.baidu.com">
<a rel="nofollow" href="www.baidu.com">
<a href="www.baidu.com" rel="nofollow">
我想通过正则过滤掉第2，3种，只保留不带rel="nofollow"的第一种。我在网上搜了下是用?!，但这个确实不会写。
求高手帮忙，现在这里谢过了！

文库|博客

GhostFromHeaven

家境小康

论坛徽章:: 0

2楼 [报告]

发表于 2013-05-20 23:14 |只看该作者

回复 1# alexkh

#-*- coding:utf-8 -*-
import re
def filter_nofollow(urls):
pattern = re.compile('.*rel="nofollow".*')
follow = lambda x: not pattern.match(x)
return filter(follow, urls)
if __name__ == "__main__":
urls = [ \
'<a href="www.baidu.com">',
'<a rel="nofollow" href="www.baidu.com">',
'<a href="www.baidu.com" rel="nofollow">']
print filter_nofollow(urls)

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

alexkh

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2013-05-21 16:46 |只看该作者

回复 2# GhostFromHeaven

先谢谢了。不知道能不能实现一个正则就将那个链接过滤出来的。因为我想查询一批网页，看这些网页中是否有不带nofollow的某网站链接。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

dddouxin999

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2013-05-22 11:29 |只看该作者

针对你这个例子的：

import re
a = '''<a rel="nofollow" href="www.baidu.com"><a href="www.baidu.com"><a href="www.baidu.com" rel="nofollow">'''
print re.search('''<a\s(?!rel="nofollow").*?(?<!rel="nofollow")>''', a).group()

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

GhostFromHeaven

家境小康

论坛徽章:: 0

5楼 [报告]

发表于 2013-05-22 21:13 |只看该作者

LS正解

参考：http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Python › 求匹配不带nofollow链接的正则

求匹配不带nofollow链接的正则 [复制链接]