免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: send_linux
打印 上一主题 下一主题

正则表达进阶大讨论!欢迎参与讨论!(获奖名单已公布-2012-7-6) [复制链接]

论坛徽章:
27
CU大牛徽章
日期:2013-03-13 15:15:08CU大牛徽章
日期:2013-05-20 10:46:38CU大牛徽章
日期:2013-05-20 10:46:44CU大牛徽章
日期:2013-09-18 15:24:09CU大牛徽章
日期:2013-09-18 15:24:20CU大牛徽章
日期:2013-09-18 15:24:25CU大牛徽章
日期:2013-09-18 15:24:31CU大牛徽章
日期:2013-09-18 15:24:36CU大牛徽章
日期:2013-09-18 15:24:41CU大牛徽章
日期:2013-09-18 15:24:48CU大牛徽章
日期:2013-09-18 15:24:52处女座
日期:2013-09-27 17:45:43
21 [报告]
发表于 2012-06-01 00:40 |只看该作者
本帖最后由 yifangyou 于 2012-06-01 00:51 编辑

1、在你的日常工作中会使用正则表达式解决什么样的问题?
答:我在日常工作使用正则表达式主要解决
1) 日志分析或者查找或者替换文字,例如用perl进行统计apache中某个页面的访问量,在vi里替换
2)查找处理文件, ls a[1-5].log  ,find,或者egrep ,  用sed 替换或者删除文件内容。
3) 在开发网站时,用javascript验证表单,在php或者java验证参数格式是否正确
4)做lucene的网络蜘蛛时,用正则进行对网页url进行过滤,或者提取网页中的部分代码。
5)用php中的正则进行解析http协议
6)在apache和nginx中用url重写实现伪静态


2、正则表达式的用法在各个语言、脚本里面略有不同,你有什么学习经验可以分享给初学者?
答:
1)perl的正则表达式是最纯正的,perl的最强项就是处理文本,我个人第一次接触正则也是从perl的学习开始。
2)php作为最接近perl的一门语言,优点是没有perl语法那么晦涩难懂,把perl的灵活多变的正则表达式给继承过来,但是使用起来没有perl那么好用,而且没有perl效率高
3)javascript使用正则时和perl比较接近,个人感觉比php的正则更好用,主要用于验证用户输入,提醒输入错误,提供用户体验,没有支持perl中的translate。
下面是我一些常用的正则表达式
javascript:
  1. function checkIp(tmpstr)
  2. {
  3.                 var patrn=/^(\d{1,3})\.(\d{1,3})\.(\d{1,3})\.(\d{1,3})$/;
  4.                 var r=patrn.exec(tmpstr)
  5.                 if(!r)
  6.                 {
  7.                         return false;
  8.                 }
  9.                 if(r[1]<=255 && r[2]<=255 &&r[3]<=255 && r[4]<=255 )
  10.                         return true;
  11.                 else
  12.                         return false;
  13. }
  14. function is_numeric(tmpstr)
  15. {
  16.                 var patrn=/^\d+$/;
  17.                 var r=patrn.exec(tmpstr)
  18.                 if(!r)
  19.                 {
  20.                         return false;
  21.                 }
  22.                 return true;
  23. }
  24.        
  25. String.prototype.trim = function()
  26. {
  27.         return this.replace(/(^\s*)|(\s*$)/g, "");
  28. }
  29. /*
  30. * 只能输入英文数字.-下划线
  31. * @param str input的value
  32. * @use <input onkeyup="value=filterchar(value)" onafterpaste="value=filterchar(value)" />
  33. * */
  34. function filterchar(str){
  35.         var p=/[^\w\-\.]/g
  36.         return str.replace(p,'');
  37. }

  38. /*
  39. * 过滤特殊字符
  40. * @param str input的value
  41. * @use <input onkeyup="value=filterschar(value)" onafterpaste="value=filterschar(value)" />
  42. * */
  43. function filterschar(str){
  44.                 var p=/[\'\"#,;&%^\$!\+=\|\\\/ ]/g
  45.                 return str.replace(p,'');
  46. }
复制代码
php:
  1. /*
  2.         年 $matches[0]
  3.         月 $matches[1]
  4.         日 $matches[2]
  5.         时 $matches[3]
  6.         分 $matches[4]
  7.         秒 $matches[5]
  8.        
  9.   解析Y-m-d H:i:s YmdHis  Y/m/d H:i:s等等
  10. */
  11. function analytime($adate)
  12. {
  13.         if(preg_match("/^(\d{4})\D{0,3}(\d{2})\D{0,3}(\d{2})\D{0,3}(\d{2})\D{0,3}(\d{2})\D{0,3}(\d{2})$/i",$adate,$matches))
  14.         {
  15.                 array_shift($matches);
  16.                 return $matches;       
  17.         }
  18.         return 0;
  19. }
  20. //判断md5
  21.         function isMd5str($str)
  22.         {
  23.                 return preg_match("/\w{32}/i",$str);
  24.         }
复制代码
perl:
  1. #本程序的功能为判断一个字符串是不是ip,是ipv4还是ipv6
  2. #  以下是用来将 IPv6 地址表示为文本字符串的三种常规形式:
  3. #冒号十六进制形式
  4. #  这是首选形式 n:n:n:n:n:n:n:n。每个 n 都表示八个 16 位地址元素之一的十六进制值。例如:
  5. #  3FFE:FFFF:7654:FEDA:1245:BA98:3210:4562.
  6. #压缩形式
  7. #  由于地址长度要求,地址包含由零组成的长字符串的情况十分常见。为了简化对这些地址的写入,
  8. #     可以使用压缩形式,在这一压缩形式中,多个 0 块的单个连续序列由双冒号符号 (::) 表示。此符号只能在地址中出现一
  9. #
  10. #次。例如,多路广播地址 FFED:0:0:0:0:BA98:3210:4562 的压缩形式为 FFED::BA98:3210:4562。
  11. #单播地址
  12. #3FFE:FFFF:0:0:8:800:20C4:0 的压缩形式为 3FFE:FFFF::8:800:20C4:0。
  13. #环回地址 0:0:0:0:0:0:0:1 的压缩形式为 ::1。
  14. #未指定的地址 0:0:0:0:0:0:0:0 的压缩形式为 ::。
  15. #混合形式
  16. #  此形式组合 IPv4 和 IPv6 地址。在此情况下,地址格式为 n:n:n:n:n:n:d.d.d.d,
  17. #其中每个 n 都表示六个 IPv6 高序位 16 位地址元素之一的十六进制值,每个 d 都表示 IPv4 地址的十进制值。
  18. #@author yifangyou
  19. #@version gslb 2011-03-23

  20. @testIP=("1.1.1.1","255.255.255.255","1.-2.3.4","a.b.c.d","CDCD:910A:2222:5498:8475:1111:3900:2020","::","::g","F:F:F::1:1","F:F:10F::","::F:F:10F","F:E:E:A:B:C:10.0.0.1","F:E:E:A:B:C:10.0.a.1","F::10.0.0.1","F:::10.0.0.1","::10.0.0.1");
  21. for my $ip (@testIP) {
  22.         my $result=isIP($ip);
  23.         if($result){
  24.                 print "[$ip] is ipv$result\n";
  25.         }else{
  26.                 print "[$ip] is not ip\n";
  27.         }
  28. }

  29. #计算CDCD:或者:2222的个数
  30. #@author yifangyou
  31. #@version gslb 2011-03-23
  32. #@return 0:表示没有找到,>0表示替换了多少个
  33. sub cLength{
  34.         my $s= shift;
  35.   return  $s=~ s/([0-9a-f]{1,4}:)|(:[0-9a-f]{1,4})/ /gi;
  36. }

  37. #判断ipv4格式
  38. #@author yifangyou
  39. #@version gslb 2011-03-23
  40. #@return 0:表示不是ip,4:表示ipv4,6:表示ipv6
  41. sub isIP{
  42.         my $tmpstr=shift;
  43.         if(isIPv4($tmpstr)){
  44.                 return 4;
  45.         }
  46.         if(isIPv6($tmpstr)){
  47.                 return 6;       
  48.         }
  49.         return 0;
  50. }

  51. #判断ipv4格式
  52. #@author yifangyou
  53. #@version gslb 2011-03-23
  54. #@return 0:表示不是ipv4,1:表示ipv4
  55. sub isIPv4
  56. {
  57.         my $tmpstr=shift;
  58.         if(@matches=$tmpstr=~/^(\d{1,3})\.(\d{1,3})\.(\d{1,3})\.(\d{1,3})$/i)
  59.   {
  60.             if($matches[0]<=255 && $matches[1]<=255 &&$matches[2]<=255 && $matches[3]<=255){
  61.                                 return 1;
  62.                         }
  63.   }
  64.   return 0;
  65. }

  66. #判断ipv6格式
  67. #@author yifangyou
  68. #@version gslb 2011-03-23        
  69. #@return 0:表示不是ipv6,1:表示ipv6
  70. sub isIPv6
  71. {
  72.           my $tmpstr=shift;
  73.           
  74. #                判断CDCD:910A:2222:5498:8475:1111:3900:2020
  75.     if($tmpstr=~/^([0-9a-f]{1,4}:){7}[0-9a-f]{1,4}$/i){
  76.             return 1;
  77.     }
  78. #                判断::
  79.     if($tmpstr=~/^::$/i){
  80.                     return 1;
  81.     }
  82. #                F:F:F::1:1  F:F:F:F:F::1  F::F:F:F:F:1格式   
  83.     if($tmpstr=~/^(([0-9a-f]{1,4}:){1,6})((:[0-9a-f]{1,4}){1,6})$/i){
  84.             my $c=cLength($tmpstr);
  85.             if($c>0 && $c<=7){
  86.                     return 1;
  87.             }
  88.     }
  89.                                                
  90. #                F:F:10F::
  91.     if($tmpstr=~/^([0-9a-f]{1,4}:){1,7}:$/i){
  92.             return 1;
  93.     }
  94.    
  95. #                ::F:F:10F
  96.     if($tmpstr=~/^:(:[0-9a-f]{1,4}){1,7}$/i){
  97.             return 1;
  98.     }
  99.                
  100. #                F:E:E:A:B:C:10.0.0.1格式
  101.                 if(@matches=$tmpstr=~/^([0-9a-f]{1,4}:){6}(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})$/i){
  102.             if(isIPv4($matches[1])){
  103.                                 return 1;
  104.                         }
  105.     }

  106. #   F::10.0.0.1格式
  107.                 if(@matches=$tmpstr=~/^([0-9a-f]{1,4}:){1,5}:(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})$/i){
  108.             if(isIPv4($matches[1])){
  109.                                 return 1;
  110.                         }
  111.     }               
  112. #                ::10.0.0.1格式
  113.                 if(@matches=$tmpstr=~/^::(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})$/i){
  114.             if(isIPv4($matches[0])){
  115.                                 return 1;
  116.                         }
  117.     }
  118.                 return 0;
  119. }
复制代码

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
22 [报告]
发表于 2012-06-01 06:58 |只看该作者
回复 14# zooyo


牛的一B
话说当年我的毕业设计也是一个IDS,其实就是从网上找个C源码,然后在自己机器上调通,嘿嘿。

论坛徽章:
0
23 [报告]
发表于 2012-06-01 08:10 |只看该作者
回复 1# send_linux


1、在你的日常工作中会使用正则表达式解决什么样的问题?
主要是处理日志这块的,取出需要的数据,再进行后续处理的

2、正则表达式的用法在各个语言、脚本里面略有不同,你有什么学习经验可以分享给初学者?
目前只会写shell,perl学习中,所以也没什么可比较性,grep,sed,awk 的正则也略有不同,有时会写混淆,这个有点纠结,关键还是需要在工作中多运用,只看书是没有用的,不运用的话看完书就忘记了

论坛徽章:
6
金牛座
日期:2013-10-08 10:19:10技术图书徽章
日期:2013-10-14 16:24:09CU十二周年纪念徽章
日期:2013-10-24 15:41:34狮子座
日期:2013-11-24 19:26:19未羊
日期:2014-01-23 15:50:002015年亚洲杯之阿联酋
日期:2015-05-09 14:36:15
24 [报告]
发表于 2012-06-01 09:33 |只看该作者
回复 1# send_linux
顶!

正则表达式的优劣,直接影响一个脚本语言的好坏

   

论坛徽章:
0
25 [报告]
发表于 2012-06-01 09:43 |只看该作者

随着对bash sed awk  vim使用的熟悉
linux 的强大和 DIY乐趣 一步步 胜于学习的痛苦
昨天我把一个单词文本格式化成了自己想要的样式
这项工作拖拉了好久
完成时 有种厚积薄发的快感
正则表达式啊 像美酒 得慢慢品~

论坛徽章:
5
亥猪
日期:2013-10-15 13:41:04CU十二周年纪念徽章
日期:2013-10-24 15:41:34申猴
日期:2013-10-28 10:55:45辰龙
日期:2013-10-31 13:29:29丑牛
日期:2014-02-14 11:25:54
26 [报告]
发表于 2012-06-01 10:19 |只看该作者
回复 16# xbokx


    算法还是用 普通的语言实现吧  C python 神马的都行 用sed awk 搞太费劲了 且没有必要

论坛徽章:
78
双子座
日期:2013-10-15 08:50:09天秤座
日期:2013-10-16 18:02:08白羊座
日期:2013-10-18 13:35:33天蝎座
日期:2013-10-18 13:37:06狮子座
日期:2013-10-18 13:40:31双子座
日期:2013-10-22 13:58:42戌狗
日期:2013-10-22 18:50:04CU十二周年纪念徽章
日期:2013-10-24 15:41:34巨蟹座
日期:2013-10-24 17:14:56处女座
日期:2013-10-24 17:15:30双子座
日期:2013-10-25 13:49:39午马
日期:2013-10-28 15:02:15
27 [报告]
发表于 2012-06-01 11:32 |只看该作者
1、在你的日常工作中会使用正则表达式解决什么样的问题?

处理各种数据格式问题

2、正则表达式的用法在各个语言、脚本里面略有不同,你有什么学习经验可以分享给初学者?

对perl的正则熟悉,其他如awk,grep等比较别扭,而且不同sh下规则也不大一样。解决方法是复杂的尽量用perl来实现,也很方便。

论坛徽章:
0
28 [报告]
发表于 2012-06-01 12:24 |只看该作者
1、在你的日常工作中会使用正则表达式解决什么样的问题?
过滤日志,爬取网页上的数据,数据校验等
2、正则表达式的用法在各个语言、脚本里面略有不同,你有什么学习经验可以分享给初学者?
不同的语言对正则的实现不一样,这个比较纠结,而且部分语言正则引擎,例如java存在性能问题,对于大量文本的处理,建议不要使用

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
29 [报告]
发表于 2012-06-01 14:11 |只看该作者
1、在你的日常工作中会使用正则表达式解决什么样的问题?

主要用awk,sed和perl,进行数据的提取,文本格式调整等,使用也相对比较简单,很少会用太复杂的正则,主要考虑到效率问题,还要考虑代码维护和可读性。

2、正则表达式的用法在各个语言、脚本里面略有不同,你有什么学习经验可以分享给初学者?

只接触过shell,awk,sed和perl的正则,别的语言不了解,个人比较推崇perl的正则,可以说”无所不能“,除了可以解决实际问题,更可以锻炼一种正则思维。
个人觉得,awk和sed的组合基本上可以解决日常的工作需要,建议初学者可以先了解这两种语言的正则,入门后再深入学习。

论坛徽章:
59
2015七夕节徽章
日期:2015-08-24 11:17:25ChinaUnix专家徽章
日期:2015-07-20 09:19:30每周论坛发贴之星
日期:2015-07-20 09:19:42ChinaUnix元老
日期:2015-07-20 11:04:38荣誉版主
日期:2015-07-20 11:05:19巳蛇
日期:2015-07-20 11:05:26CU十二周年纪念徽章
日期:2015-07-20 11:05:27IT运维版块每日发帖之星
日期:2015-07-20 11:05:34操作系统版块每日发帖之星
日期:2015-07-20 11:05:36程序设计版块每日发帖之星
日期:2015-07-20 11:05:40数据库技术版块每日发帖之星
日期:2015-07-20 11:05:432015年辞旧岁徽章
日期:2015-07-20 11:05:44
30 [报告]
发表于 2012-06-01 14:18 |只看该作者
回复 15# zooyo


    不知道啊。反正我是正式提出不干版主的啊。没什么意思,处理不讨好啊。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP