免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 6343 | 回复: 16

python:正则表达式提取信息 [复制链接]

论坛徽章:
1
子鼠
日期:2014-08-28 13:27:13
发表于 2014-08-27 17:52 |显示全部楼层
[14/Jul/2014:15:45:00 CST] [1939478272] 10.6.99.163 test1 "" ACLDENY - - - (10.6.99.163:62691 -> 210.75.65.219:80) (Pre authorization failed)
有这样一个文本,内容如上(几千行),想用正则表达式把后边的端口号提出来,
ip_port = re.findall(????????)[0].strip()求问括号里怎么写?小白第一次接触正则

论坛徽章:
4
金牛座
日期:2013-10-11 16:12:50卯兔
日期:2014-07-31 09:17:19辰龙
日期:2014-08-08 09:28:02狮子座
日期:2014-09-14 20:32:05
发表于 2014-08-27 18:01 |显示全部楼层
  1. re.findall('\d+\.\d+\.\d+\.\d+:\d+', s)
复制代码

论坛徽章:
9
2015亚冠之阿尔纳斯尔
日期:2015-09-10 16:21:162015亚冠之塔什干火车头
日期:2015-07-01 16:23:022015年亚洲杯之巴勒斯坦
日期:2015-04-20 17:19:46子鼠
日期:2014-11-13 09:51:26未羊
日期:2014-08-28 18:13:36技术图书徽章
日期:2014-02-21 09:30:15酉鸡
日期:2014-01-14 11:12:49天蝎座
日期:2013-12-09 17:56:53平安夜徽章
日期:2015-12-26 00:06:30
发表于 2014-08-27 18:07 |显示全部楼层
本帖最后由 HH106 于 2014-08-27 18:07 编辑

后面的80端口吗?
  1. re.compile('\.\d+:(\d+?)\)')
复制代码

论坛徽章:
1
子鼠
日期:2014-08-28 13:27:13
发表于 2014-08-27 18:13 |显示全部楼层
ssfjhh 发表于 2014-08-27 18:01

谢谢,不过只想要端口号,不要ip

论坛徽章:
1
子鼠
日期:2014-08-28 13:27:13
发表于 2014-08-27 18:14 |显示全部楼层
HH106 发表于 2014-08-27 18:07
后面的80端口吗?

是的 只要端口号

论坛徽章:
1
子鼠
日期:2014-08-28 13:27:13
发表于 2014-08-27 18:24 |显示全部楼层
本帖最后由 chosen86 于 2014-08-27 18:27 编辑
HH106 发表于 2014-08-27 18:07
后面的80端口吗?

times = re.findall(r'(?<=\[).*?(?= CST\])', text)[0]
             sourIp = re.findall(r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}', text)[0]
             test = re.findall(r'(?<={}).*?(?="'.format(ips),text)[0].strip()
             destIp = re.findall(r'(?<=->.*?(?=', text)[0].strip()
             port = re.findall(????????????????????).strip()
             infos = ' '.join([times, ips, test, ip_port]) + '\n'
想这样写,请问port= re.findall(??????).strip(),?????????这块怎么配?上边的是请教同事写的

论坛徽章:
9
2015亚冠之阿尔纳斯尔
日期:2015-09-10 16:21:162015亚冠之塔什干火车头
日期:2015-07-01 16:23:022015年亚洲杯之巴勒斯坦
日期:2015-04-20 17:19:46子鼠
日期:2014-11-13 09:51:26未羊
日期:2014-08-28 18:13:36技术图书徽章
日期:2014-02-21 09:30:15酉鸡
日期:2014-01-14 11:12:49天蝎座
日期:2013-12-09 17:56:53平安夜徽章
日期:2015-12-26 00:06:30
发表于 2014-08-27 18:27 |显示全部楼层
回复 6# chosen86
  1. port=re.findall('\.\d+:(\d+?)\)', a)[0].strip()
复制代码

论坛徽章:
1
子鼠
日期:2014-08-28 13:27:13
发表于 2014-08-27 18:30 |显示全部楼层
HH106 发表于 2014-08-27 18:27
回复 6# chosen86

thx,刚才漏了最后的text

论坛徽章:
1
子鼠
日期:2014-08-28 13:27:13
发表于 2014-08-27 19:11 |显示全部楼层
HH106 发表于 2014-08-27 18:27
回复 6# chosen86


[14/Jul/2014:15:45:00 CST] [1939478272] 10.6.99.163 test1 "" ACLDENY - - - (10.6.99.163:62691 -> www.baidu.com:80) (Pre authorization failed)
文本里也有像上边的这样的行,如果端口号前边是URL,这个还适用吗?好像有点问题

论坛徽章:
0
发表于 2014-08-28 01:42 |显示全部楼层
本帖最后由 tianzhizhengdao 于 2014-08-28 01:57 编辑

回复 9# chosen86

可以用这个:
     port = re.findall(':(\d+)\)', s)
这个跟前面是IP Address 还是URL没关系,只要端口前面有‘:’, 后面有‘)’就都能匹配到,无论端口是几位几位也都可以。

PS: 个人感觉你这个完全可以考虑直接按照特征split每一行然后简单replace或切片得到所有想要的值啊。

   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP