免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: zerix
打印 上一主题 下一主题

求一正则。。。thx!! [复制链接]

论坛徽章:
0
11 [报告]
发表于 2008-12-31 09:27 |只看该作者
如果都是这样的字符的话,直接删掉最后九个字符就好了

论坛徽章:
1
2015年亚洲杯之韩国
日期:2015-04-24 09:07:02
12 [报告]
发表于 2008-12-31 09:43 |只看该作者

回复 #11 战雨灾 的帖子

不会是那么理想化的

论坛徽章:
0
13 [报告]
发表于 2009-01-04 13:57 |只看该作者
是在报文中找URL的,

用的是PCRE的正则库。

URL和HTTP之间是空格连接的,所以也把HTTP匹配了,如果过滤掉空格应该是正常的。

还有,我的正则表达式当URL中有汉字的话也不能匹配,如何修改?

thx!!

论坛徽章:
3
戌狗
日期:2014-09-10 17:07:162015年辞旧岁徽章
日期:2015-03-03 16:54:15wusuopu
日期:2016-06-17 17:43:45
14 [报告]
发表于 2009-01-04 13:59 |只看该作者
原帖由 zerix 于 2009-1-4 13:57 发表
是在报文中找URL的,

用的是PCRE的正则库。

URL和HTTP之间是空格连接的,所以也把HTTP匹配了,如果过滤掉空格应该是正常的。

还有,我的正则表达式当URL中有汉字的话也不能匹配,如何修改?

thx!!

举个具体例子吧

论坛徽章:
0
15 [报告]
发表于 2009-01-04 14:21 |只看该作者

  1. GET /nwshp?hl=en&tab=in HTTP/1.1^M
  2. User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/525.19 (KHTML, like Gecko) Chrome/1.0.154.36 Safari/525.19^M
  3. Referer: [url]http://images.google.com/imghp?hl=en&tab=ni[/url]^M
  4. Cache-Control: max-age=0^M
  5. Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5^MAccept-Encoding: gzip,deflate,bzip2,sdch^M
  6. Cookie: PREF=ID=4ce304d1d9e7588d:LD=en:NW=1:CR=2:TM=1230087642:LM=1230168860:S=K2jP3ibjhfeYUt1X; NID=18=YTVaGb63qwTY_LBnSA84EYLK_GhfoF-xgV8LQIbcn7w9rBSOJv3MEUIp56xAP1Cy24pLIfp37my9FlM5fr9KXBtmwxoSwW0C8BPIhCtx772tdZR_2KX4z1A4s8iFdeUx^M
  7. Accept-Language: zh-CN,zh^M
  8. Accept-Charset: gb18030,*,utf-8^M
  9. Host: news.google.com^M
  10. Connection: Keep-Alive^M
复制代码


比如上面的报文中,用我的正则表达式是可以匹配到referer:之后的URL,并且很正常。

但是当GET和HTTP/1.1直接也有一个正常的HTTP的URL时候,就会匹配出错,将HTTP/1.1也匹配进去了。

而这种情况是很多的。

论坛徽章:
0
16 [报告]
发表于 2009-01-04 14:29 |只看该作者
https?://([0-9a-zA-Z]+\.)+[0-9a-zA-Z]+(/[0-9a-zA-Z./?%+&=-]*)?

s从哪里来的?

你的意思是说这个正则也能匹配GET 和 HTTP/1.1之间的url?

论坛徽章:
0
17 [报告]
发表于 2009-01-04 15:09 |只看该作者
原帖由 smallstar001 于 2009-1-4 14:29 发表
https?://([0-9a-zA-Z]+\.)+[0-9a-zA-Z]+(/[0-9a-zA-Z./?%+&=-]*)?

s从哪里来的?

你的意思是说这个正则也能匹配GET 和 HTTP/1.1之间的url?



s是当访问加密的http时候的URL

现在https?://([0-9a-zA-Z]+\.)+[0-9a-zA-Z]+(/[0-9a-zA-Z./?%+&=-]*)?会匹配URL+空格+HTTP/1.1的情况。

而我是想他在碰到空格的时候就完成匹配了,不要后面的HTTP/1.1

论坛徽章:
1
丑牛
日期:2014-08-07 17:07:05
18 [报告]
发表于 2009-01-04 15:17 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
19 [报告]
发表于 2009-01-04 15:18 |只看该作者
GET /config/set_popfwd?.src="/blog/ym&";.done=http://us.f93.mail.yahoo.com/ym/Options?YY=22797 HTTP/1.1^M
User-Agent: Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_2; en) AppleWebKit/525.9 (KHTML, like Gecko) Version/3.1 Safari/525.9^M
Accept: */*^M
Referer: http://rd.yahoo.com/mail_us/opti ... ig/set_popfwd?.src="/blog/ym&";.done=http://us.f93.mail.yahoo.com/ym/Options?YY=22797^M
Cookie:  B=0enmiep4m0nqu&b=4&s=9d; Y=v=1&n=40ddfast26f5t&l=m87c4rzyvqz/o&p=m2lvvcn012000000&iz=&r=j8&lg=en-US&intl=us; PH=fn=NTL8rxgWNcfJ0bEO&l=en-US; F=a=tGImGb8MvTG2ZFvMD8gCgGV_v8q5SlyoC8DGibAJlqrZnQIgko5z4SGWWTB3L5XOuqKk3Uo-&b=XG.9; YLS=v=1&p=1&n=1; T=z=h9FYJBhRtcJB/.CyfJilrnKNjI1BjQ0NDYxTjIxMzU-&a=YAE&sk=DAABB6IVT5AO7l&ks=EAA1i9m0utqn0g0Gns8VKG7bw--~C&d=c2wBTVRVeUFUTXpNekUyT1RVMk5ESS0BYQFZQUUBZwFCWERCNVZFWTNBUVEzTFRFUEo2SVhGM0YyQQFvawFaVzAtAXRpcAE2QURqSkQBenoBaDlGWUpCQTdF^M

比如这个报文,他就会把HTTP/1.1给匹配进去。。

论坛徽章:
0
20 [报告]
发表于 2009-01-04 15:20 |只看该作者
原帖由 zerix 于 2009-1-4 15:09 发表



s是当访问加密的http时候的URL

现在https?://([0-9a-zA-Z]+\.)+[0-9a-zA-Z]+(/[0-9a-zA-Z./?%+&=-]*)?会匹配URL+空格+HTTP/1.1的情况。

而我是想他在碰到空格的时候就完成匹配了,不要后面的HTTP/1.1


https?://([0-9a-zA-Z]+\.)+[0-9a-zA-Z]+(/[0-9a-zA-Z./?%+&=-]*)

你看看是不是这个.匹配了空格的情况
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP