免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3005 | 回复: 10
打印 上一主题 下一主题

筛选出连接 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-06-20 19:21 |只看该作者 |倒序浏览
这样的一个文本

1http://baidu.com
2http://sohoo.com
3http://sina.com



300http://xx.com.cn
怎样把前面的数字去掉?只存地址?

论坛徽章:
0
2 [报告]
发表于 2012-06-20 19:22 |只看该作者
先谢过大神~~~~

论坛徽章:
0
3 [报告]
发表于 2012-06-20 20:48 |只看该作者
用正则过滤下,比如

s = '''
1http://baidu.com
2http://souhu.com
3http://sina.com
'''
m = re.compile(r'http.*')
print m.findall(s)

把内容从文件读出来,再写到另外一个文件中

论坛徽章:
2
CU大牛徽章
日期:2013-04-17 11:46:28CU大牛徽章
日期:2013-04-17 11:46:39
4 [报告]
发表于 2012-06-20 20:56 |只看该作者
  1. pat = re.compile('(http:.*), re.I | re.M)
  2. res = pat.findall(s)
复制代码

论坛徽章:
2
CU大牛徽章
日期:2013-04-17 11:46:28CU大牛徽章
日期:2013-04-17 11:46:39
5 [报告]
发表于 2012-06-20 20:57 |只看该作者
pat = re.compile('(http:.*)$', re.I | re.M)
res = pat.findall(s)

论坛徽章:
0
6 [报告]
发表于 2012-06-21 11:32 |只看该作者
有https的网址怎么办?
回复 5# cdtits

论坛徽章:
0
7 [报告]
发表于 2012-06-21 11:46 |只看该作者
本帖最后由 ljwsy 于 2012-06-21 11:47 编辑
  1. >>> "123https://lkasdf.com".split('http')
  2. ['123', 's://lkasdf.com']
  3. >>> 'http'+"123https://lkasdf.com".split('http')[1]
  4. 'https://lkasdf.com'
  5. >>>
复制代码

论坛徽章:
0
8 [报告]
发表于 2012-06-21 11:58 |只看该作者
上面的方法如果碰到地址中有http串会有麻烦的。再不行就霸王硬上弓:
  1. >>> readline='2345https://somehttp.where.and.com'
  2. >>> while readline[0].isdigit():
  3.         readline=readline[1:]

  4.        
  5. >>> print readline
  6. https://somehttp.where.and.com
  7. >>>
复制代码

论坛徽章:
2
CU大牛徽章
日期:2013-04-17 11:46:28CU大牛徽章
日期:2013-04-17 11:46:39
9 [报告]
发表于 2012-06-21 12:15 |只看该作者
回复 6# zyd320
  1.     pat = re.compile('(https?:.*), re.I | re.M)
  2.     res = pat.findall(s)
复制代码

论坛徽章:
0
10 [报告]
发表于 2012-06-21 20:49 |只看该作者
  1. >>> a="300http://baidu.com"
  2. >>> re.split('\d+',a)[1]
  3. 'http://baidu.com'
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP