chosen86 发表于 2014-08-27 17:52

python:正则表达式提取信息

10.6.99.163 test1 "" ACLDENY - - - (10.6.99.163:62691 -> 210.75.65.219:80) (Pre authorization failed)
有这样一个文本,内容如上(几千行),想用正则表达式把后边的端口号提出来,
ip_port = re.findall(????????).strip()求问括号里怎么写?小白第一次接触正则

ssfjhh 发表于 2014-08-27 18:01

re.findall('\d+\.\d+\.\d+\.\d+:\d+', s)

HH106 发表于 2014-08-27 18:07

本帖最后由 HH106 于 2014-08-27 18:07 编辑

后面的80端口吗?re.compile('\.\d+:(\d+?)\)')

chosen86 发表于 2014-08-27 18:13

ssfjhh 发表于 2014-08-27 18:01 static/image/common/back.gif

谢谢,不过只想要端口号,不要ip

chosen86 发表于 2014-08-27 18:14

HH106 发表于 2014-08-27 18:07 static/image/common/back.gif
后面的80端口吗?
是的 只要端口号

chosen86 发表于 2014-08-27 18:24

本帖最后由 chosen86 于 2014-08-27 18:27 编辑

HH106 发表于 2014-08-27 18:07 static/image/common/back.gif
后面的80端口吗?
times = re.findall(r'(?<=\[).*?(?= CST\])', text)
             sourIp = re.findall(r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}', text)
             test = re.findall(r'(?<={}).*?(?=")'.format(ips),text).strip()
             destIp = re.findall(r'(?<=->).*?(?=:)', text).strip()
             port = re.findall(????????????????????).strip()
             infos = ' '.join() + '\n'
想这样写,请问port= re.findall(??????).strip(),?????????这块怎么配?上边的是请教同事写的

HH106 发表于 2014-08-27 18:27

回复 6# chosen86 port=re.findall('\.\d+:(\d+?)\)', a).strip()

chosen86 发表于 2014-08-27 18:30

HH106 发表于 2014-08-27 18:27 static/image/common/back.gif
回复 6# chosen86
thx,刚才漏了最后的text

chosen86 发表于 2014-08-27 19:11

HH106 发表于 2014-08-27 18:27 static/image/common/back.gif
回复 6# chosen86

10.6.99.163 test1 "" ACLDENY - - - (10.6.99.163:62691 -> www.baidu.com:80) (Pre authorization failed)
文本里也有像上边的这样的行,如果端口号前边是URL,这个还适用吗?好像有点问题

tianzhizhengdao 发表于 2014-08-28 01:42

本帖最后由 tianzhizhengdao 于 2014-08-28 01:57 编辑

回复 9# chosen86

可以用这个:
   port = re.findall(':(\d+)\)', s)
这个跟前面是IP Address 还是URL没关系,只要端口前面有‘:’, 后面有‘)’就都能匹配到,无论端口是几位几位也都可以。

PS: 个人感觉你这个完全可以考虑直接按照特征split每一行然后简单replace或切片得到所有想要的值啊。

   
页: [1] 2
查看完整版本: python:正则表达式提取信息