平台论坛博客文库

论坛徽章:: 49

电梯直达

1楼 [收藏(0)] [报告]

发表于 2012-05-31 16:34 |只看该作者 |倒序浏览

获奖名单已公布，详情请看：http://bbs.chinaunix.net/thread-3757480-1-1.html

在计算机科学中，是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里，正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。例如，在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件（例如sed和grep）普及开的。

随着互联网的迅速发展，几乎所有工具软件和程序语言都支持的正则表达式也变得越来越强大和易于使用。正则表达式在Perl、Java、.NET、PHP中的用法有的时候也略有不同，许多用户在正则表达式的学习和使用中也有着各种不同的疑问和困惑。

本次我们特邀《正则指引》图书作者余晟和ChinaUnix论坛Perl版版主flw、zhlong8、Shell版版主waker、Shell_HAT、zooyo、参与讨论，大家有什么问题也尽管问吧：）

本期话题：
1、在你的日常工作中会使用正则表达式解决什么样的问题？
2、正则表达式的用法在各个语言、脚本里面略有不同，你有什么学习经验可以分享给初学者？

活动时间：
2012年6月1日-6月20日

话题要求：
1、要言之有物，不能低于20个字
2、本次话题主要关注shell、perl、Python等相关语言的正则表达式技术讨论，其他问题可能不做重点。

奖项设置：
最佳交流奖：1名，奖励ChinaUnix背包一个。
积极交流奖：3名，奖励《正则指引》图书一本
参与奖：所有有效参与的用户奖励ChinaUnix社区积分20分

奖品简介：

作者：余晟
出版社：电子工业出版社
ISBN：9787121165511
上架时间：2012-5-2
出版日期：2012 年5月
开本：16开

图书简介：
《正则指引》针对作者在开发中遇到的实际问题，以及其他开发人员咨询的问题，总结出一套使用正则表达式解题的办法，并通过具体的例子指导读者拆解、分析问题。全书分为三大部分：第一部分主要讲解正则表达式的基础知识，涵盖了常见正则表达式中的各种功能和结构；第二部分主要讲解关于正则表达式的更深入的知识，详细探讨了编码问题、匹配原理、解题思路；第三部分将之前介绍的各种知识落实到6种常用语言.net、java、javascript、php、python、ruby中，不但详细介绍了语言中正则表达式的用法，更点明了版本之间的细微差异，既可以作为专门学习的教材，也可以作为有用的参考手册。

样章阅读：
http://wenku.it168.com/d_000271891.shtml

正则, perl, shell, python, php

文库|博客

lkk_super

稍有积蓄

论坛徽章:: 5

31楼 [报告]

发表于 2012-06-01 18:05 |只看该作者

正则在工作中都是用于日志文件的分析，提取，替换一些文本处理的操作还有一块就是前端js 校验用户填写信息。支持正则的有很多常用的grep awk sed perl py都行但是有些小的地方不一样，比如awk 就不能用\d只能用[0-9]，sed用+需要加-r参数等等，确实比较讨厌。这其中咱一般都是统一成用perl这样对正则支持比较全面的，而且能够写得比较简单比如一行搞定的去处理。如果正则比较简单的话就好办了，随便用哪个都行。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

to407

小富即安

论坛徽章:: 2

78楼 [报告]

发表于 2012-06-11 15:41 |只看该作者

回复 83# chenjintao_ii

两个问题，

1. “Binary file ./usr/bin/dbus-launch matches”
这个问题你应该考虑，为什么你要从一个binary file里去grep一行文字，是否有这个需求？
请参阅grep -I 选项

   -I    Process a binary file as if it did not contain matching data; this is equivalent to the --binary-files=without-match option.

   --binary-files=TYPE
            If the first few bytes of a file indicate that the file contains binary data, assume that the file is of type TYPE.  By default, TYPE  is  binary,  and
            grep  normally outputs either a one-line message saying that a binary file matches, or no message if there is no match.  If TYPE is without-match, grep
            assumes that a binary file does not match; this is equivalent to the -I option.  If TYPE is text, grep processes a binary file as if it were text; this
            is  equivalent  to  the -a option.  Warning: grep --binary-files=text might output binary garbage, which can have nasty side effects if the output is a
            terminal and if the terminal driver interprets some of it as commands.

2. 用grep -v "No such file or directory"不能屏蔽。。。
这两个问题有一点，你似乎没有分清 stdout和stderr ？
如果这个分不清的话。。。那还是去打打基本功吧先。

blackold

大富大贵

论坛徽章:: 5

85楼 [报告]

发表于 2012-06-12 12:19 |只看该作者

以前用过 dos 的 glob 匹配，觉得那个功能很好用，后来使用 word 时，觉得它的查找替
换功能也十分便利，还支持“弱智的正则”(这是现在的看法了，当时觉得很“高级”很NB)。
随着自己对查找(匹配)的要求越来越高，就想，要是有一种更加“聪明”更加“智能”的
搜索方法该多好啊。直到有一天偶然碰上了正则表达式，“这正是自己苦苦寻找的好东西
啊”，真是相见恨晚！

正则无处不在，完全可以这样说。它是一种搜索模式，它存在于我们每天的生活中，存在
于世界的各个角落，无时无刻。

时刻离不开正则：使用 shell 命令(如 grep, sed, awk……等等)时，编辑文本时，搜索
数据时……UNIX 下的各种工具几乎到处都可见正则的倩影，一旦了解了正则的基本知识，
就会大幅度地提高效率——操作的效率和代码的效率。甚至是当你寻找某个人的时候,其实你
也是在使用正则。

比如，你曾经编辑一个文件，现在忘了存放在哪个目录了，如何快速从千万个文件中找到它？
grep! 指定恰当的正则，grep 就会快速地帮你找到你要的文件。

你想把代码中多次出现的某个函数名修改为另一个更加合适的名字，不要愚蠢地手动修改，
编辑器都有(如果没有，你还用它干吗？)支持正则的全局替换命令，一个命令就好了。

我正在用vim写这个贴子，把中文的句号(“。”)全部误写成“.”。不用担心，不用管它，
最后用一个命令:%s/\./。/g全部替换就好了。(我的文本里不需要“.”,除非用来举例的
这几个。)

应用的例子举不胜举，但万变不离其宗，本质就是匹配(查找)。

不同的工具所支持的正则(正则引擎)也有所不同。大体上说，大同小异。

最好先易后难，从学习比较简单的 POSIX BRE 和 POSIX ERE 开始, 通过grep学习基本的
正则，对正则有一个基本的感性认识。

掌握了正则的基础后，再学习其它工具的正则就显得简单容易多了。不过，碰到问题时你
还是要参考相应工具的手册，也许该工具有本身的正则扩展或比较特殊的功能。要精通正
则，还需要不断地努力。

Perl 应该是正则之王。如果你喜欢正则，想体验正则的强悍，那你不能不了解 Perl。

青蛙咕啦咕啦

白手起家

论坛徽章:: 0

92楼 [报告]

发表于 2012-06-13 22:32 |只看该作者

1、在你的日常工作中会使用正则表达式解决什么样的问题？
我用到的都是在实际场景下，正则只是其中的一点。
a) 以前公司的产品在处理日志时，需要匹配日志，解析日志中的变量，这个是最简单的，用到的正则匹配工具Regular.exe、RegexBuddy.exe、Regex Match Tracer

IDS事件：
<82>IDSName:msensorgiga3;EventName:snmp_uservars:bad_commname;Count:1;SIP:10.28.3.99;1052;DIP:10.28.47.17;161;Time:2005-03-18 03:50:51;Type:^ce^b4^d6^aa;Severity:^d6^d0^b7^e7^cf^d5;Bad SNMP community name from 10.28.3.99 to 10.28.47.17
<82>IDSName:msensorgiga3;EventName:dns_labels:binary;Count:1;SIP:10.28.8.100;15000;DIP:210.22.14.9;53;Time:2005-03-18 03:50:31;Type:^b9^a5^bb^f7;Severity:^d6^d0^b7^e7^cf^d5;10.28.8.100 -> 210.22.14.9 id 14080 DNS label contains binary data
<82>IDSName:msensorgiga3;EventName:www2_uservars:unsafe_method;Count:1;SIP:10.28.70.7;4862;DIP:10.0.241.102;80;Time:2005-03-18 03:50:22;Type:^b9^a5^bb^f7;Severity:^d6^d0^b7^e7^cf^d5;10.28.70.7 -> 10.0.241.102: Unsafe method seen: POLL
<82>IDSName:msensorgiga3;EventName:tftp_opcode;Count:1;SIP:10.28.7.96;15000;DIP:221.214.148.244;69;Time:2005-03-21 17:26:40;Type:探测;Severity:中风险;10.28.7.96 -> 221.214.148.244: Suspicious opcode in TFTP transfer
<82>IDSName:msensorgiga3-4507;EventName:tftp_opcode;Count:1;SIP:10.28.4.154;57777;DIP:211.244.33.95;69;Time:2005-04-03 20:22:02;Type:探测;Severity:中风险;10.28.4.154 -> 211.244.33.95: Suspicious opcode in TFTP transfer
<82>IDSName:Sensor-B;EventName:snmp_uservars:bad_commname;Count:1;SIP:132.194.68.102;60856;DIP:10.28.68.121;161;Time:2007-03-21 18:44:14;Type:未知;Severity:中风险;Bad SNMP community name from 132.194.68.102 to 10.28.68.121
判别规则：
<\d+>IDSName:([^;]+);EventName:([^:]+):([^;]+);Count:(\d+);SIP:([^;]+);(\d+);DIP:([^;]+);(\d+);Time:([^;]+);Type:([^;]+);Severity:([^;]+);([^;]+)
<\d+>IDSName:([^;]+);EventName:([^;]+);Count:(\d+);SIP:([^;]+);(\d+);DIP:([^;]+);(\d+);Time:([^;]+);Type:([^;]+);Severity:([^;]+);([^;]+)

复制代码

b) 自定义unix系统登录日志，其中需要获取登录用户名、IP等信息时，也只是简单的使用cut、grep、awk等。嘿嘿，不过以下代码的完整文档可是我的心血。感兴趣的兄弟自行研究。

# Add content in /etc/profile
# Log "bash sh ksh" user login and command history
up_client_ip=`(who am i|cut -d$ -f2|cut -d$ -f1)`
if ( test -z "`echo $up_client_ip|awk '($1 ~/[0-9]+.[0-9]+.[0-9]+.[0-9]+/)'`" )
then
up_client_ip=`awk '/'$up_client_ip'/ {print $1}' /etc/hosts`
fi
up_nowtime=`(date +"%Y-%m-%d %T")`
logger -p user.notice -- class=\"HOST_LOGIN\" type=\"2\" time=\"$up_nowtime\" src_ip=\"$up_client_ip\" dst_ip=\"192.168.100.90\" primary_user=\"\" secondary_user=\"`id|cut -d$ -f2|cut -d$ -f1`\" operation=\"\" content=\"login successful\" authen_status=\"Success\" log_level=\"1\" session_id=\"$$\" 2>/dev/null
case "$0" in
-bash)
export PROMPT_COMMAND='logger -p user.notice -- class=\"HOST_COMMAND\" type=\"3\" time=\"`date +"%Y-%m-%d %T"`\" src_ip=\"$up_client_ip\" dst_ip=\"192.168.100.90\" primary_user=\"\" secondary_user=\"`id|cut -d$ -f2|cut -d$ -f1`\" operation=\"$(history 1 | { read x y; echo $y; })\" content=\"command\" authen_status=\"\" log_level=\"1\" session_id=\"$$\" 2>/dev/null;'
;;
-ksh)
function log2syslog
{
logger -p user.notice -- class=\"HOST_COMMAND\" type=\"3\" time=\"`date +"%Y-%m-%d %T"`\" src_ip=\"$up_client_ip\" dst_ip=\"192.168.100.90\" primary_user=\"\" secondary_user=\"`id|cut -d$ -f2|cut -d$ -f1`\" operation=\"`fc -ln -0`\" content=\"command\" authen_status=\"\" log_level=\"1\" session_id=\"$$\" 2>/dev/null;
}
trap log2syslog DEBUG;
;;
esac
readonly up_client_ip
readonly up_nowtime
readonly PROMPT_COMMAND

复制代码

c) 公司要分析统计WEB日志中一些攻击行为，然后就有了这么一个脚本。说明下，WEB日志是以IP为目录，目录下存放日志文件，日志文件名中包含日期。keywords文件定义关键字，server_ip定义要分析的WEB日志IP。

logdir=/var/log/netscaler
analysedir=/var/www/html/seclog
yesterday=`(date -d yesterday +"%Y-%m-%d")`
today=`(date +"%Y-%m-%d")`
function LOG_ANALYSE
{
cd $analysedir
echo $SERVER_IP
if [ ! -d $SERVER_IP ];
then mkdir $SERVER_IP;
fi
if [ ! -d $SERVER_IP/$yesterday ];
then mkdir $SERVER_IP/$yesterday;
else rm -rf $SERVER_IP/$yesterday/*;
fi
for VALUE in `cat keywords |egrep -v "^$|^#"|awk -F"=" '{print $2}'`;
do
KEY=`grep "=$VALUE" keywords|egrep -v "^$|^#"|cut -d\= -f1`;
grep -i "$VALUE" $logdir/$SERVER_IP/*$yesterday.log* >>$SERVER_IP/$yesterday/"$SERVER_IP"_"$KEY".result;
done
cd $SERVER_IP/$yesterday/
awk '{print $3"\t"$9}' *.result >>analyse_"$yesterday"
#sed -r 's/.* (\S+) \S+ HTTP \S+ \S+ \S+ (\S+) .*/\1 \2/'*.result >>analyse_"$yesterday"
echo "url 独立IP数 pv">>count_"$yesterday"
echo "--------------------------------------------------------------------">>count_"$yesterday"
awk '{a[$2]++;if(!b[$2"_"$1]){b[$2"_"$1]=1;n[$2]++}}END{for(i in a) printf "%-45s %-20s %s\n",i,n[i],a[i]}' analyse_"$yesterday" | sort -k3n >>count_"$yesterday"
echo "IP 访问URL数次数">>count_"$yesterday"
echo "--------------------------------------------------------------------">>count_"$yesterday"
awk '{a[$1]++;if(!b[$1"_"$2]){b[$1"_"$2]=1;n[$1]++}}END{for(i in a) printf "%-45s %-20s %s\n",i,n[i],a[i]}' analyse_"$yesterday" | sort -k3n >>count_"$yesterday"
cd $analysedir
}
for SERVER_IP in `cat $analysedir/server_ip|egrep -v "^$|^#"`;
do LOG_ANALYSE;
done
cd $analysedir
cat /dev/null >$analysedir/analyse_"$yesterday"_all
cat /dev/null >$analysedir/count_"$yesterday"_all
for SERVER_IP in `cat $analysedir/server_ip|egrep -v "^$|^#"`;
do cat $analysedir/$SERVER_IP/$yesterday/analyse_"$yesterday" >>$analysedir/analyse_"$yesterday"_all;
done
echo "url 独立IP数 pv">>$analysedir/count_"$yesterday"_all
echo "--------------------------------------------------------------------">>$analysedir/count_"$yesterday"_all
awk '{a[$2]++;if(!b[$2"_"$1]){b[$2"_"$1]=1;n[$2]++}}END{for(i in a) printf "%-45s %-20s %s\n",i,n[i],a[i]}' analyse_"$yesterday"_all | sort -k3n >>$analysedir/count_"$yesterday"_all
echo "IP 访问URL数次数">>$analysedir/count_"$yesterday"_all
echo "--------------------------------------------------------------------">>count_"$yesterday"_all
awk '{a[$1]++;if(!b[$1"_"$2]){b[$1"_"$2]=1;n[$1]++}}END{for(i in a) printf "%-45s %-20s %s\n",i,n[i],a[i]}' analyse_"$yesterday"_all | sort -k3n >>$analysedir/count_"$yesterday"_all

复制代码

d) 检查日志中是否包括敏感信息，如信用卡号、身份证号等，写了个简单的脚本，就用grep、egrep。

####################################################
echo "log contain ID Number:"
echo "-------------------------------------------"
egrep -a "\b[0-9]{6}[1|2][8|9|0][0-9]{2}0[1-9][0-3][0-9][0-9]{3}[0-9x]\b|\b[0-9]{6}[1|2][8|9|0][0-9]{2}1[0-2][0-3][0-9][0-9]{3}[0-9x]\b|\b[0-9]{6}[0-9]{2}0[1-9][0-9]{5}\b|\b[0-9]{6}[0-9]{2}1[0-2][0-9]{5}\b|持卡人证件号" */*
echo
echo
####################################################
echo "log contain Credit card number:"
echo "-------------------------------------------"
#egrep "4[0-9]{15}|4[0-9]{12}|5[1-5][0-9]{14}|6011[0-9]{12}|65[0-9]{14}|3[47][0-9]{13}|30[0-5][0-9]{11}|3[68][0-9]{12}|2131[0-9]{11}|1800[0-9]{11}|35[0-9]{3}[0-9]{11}" */*
egrep -a "\b4[0-9]{15}\b|\b4[0-9]{12}\b|\b5[1-5][0-9]{14}\b|\b6011[0-9]{12}\b|\b65[0-9]{14}\b|\b3[47][0-9]{13}\b|\b30[0-5][0-9]{11}\b|\b3[68][0-9]{12}\b|\b2131[0-9]{11}\b|\b1800[0-9]{11}\b|\b35[0-9]{3}[0-9]{11}\b|BankCardNumber" */*
echo
echo
####################################################

复制代码

e) 检查后门，这个用的网上现成的代码。

#!/usr/bin/python
#-*- encoding:UTF-8 -*-
###
## @package
##
## @author CFC4N <cfc4nphp@gmail.com>
## @copyright copyright (c) Www.cnxct.Com
## @Version $Id: check_php_shell.py 37 2010-07-22 09:56:28Z cfc4n $
###
import os
import sys
import re
import time
def listdir(dirs,liston='0'):
flog = open(os.getcwd()+"/check_php_shell.log","a+")
if not os.path.isdir(dirs):
print "directory %s is not exist"% (dirs)
return
lists = os.listdir(dirs)
for list in lists:
filepath = os.path.join(dirs,list)
if os.path.isdir(filepath):
if liston == '1':
listdir(filepath,'1')
elif os.path.isfile(filepath):
filename = os.path.basename(filepath)
if re.search(r"\.(?:php|inc|html?)$", filename, re.IGNORECASE):
i = 0
iname = 0
f = open(filepath)
while f:
file_contents = f.readline()
if not file_contents:
break
i += 1
match = re.search(r'''(?P<function>\b(?:include|require)(?:_once)?\b)\s*$?\s*["'](?P<filename>[^;]*(?<!\.(?:php|inc)))["']$?\s*''', file_contents, re.IGNORECASE| re.MULTILINE)
if match:
function = match.group("function")
filename = match.group("filename")
if iname == 0:
info = '\n[%s] :\n'% (filepath)
else:
info = ''
info += '\t|-- [%s] - [%s] line [%d] \n'% (function,filename,i)
flog.write(info)
print info
iname += 1
match = re.search(r'\b(?P<function>eval|proc_open|popen|shell_exec|exec|passthru|system)\b\s*\(', file_contents, re.IGNORECASE| re.MULTILINE)
if match:
function = match.group("function")
if iname == 0:
info = '\n[%s] :\n'% (filepath)
else:
info = ''
info += '\t|-- [%s] line [%d] \n'% (function,i)
flog.write(info)
print info
iname += 1
match = re.search(r'(^|(?<=;|=))\s*`(?P<shell>[^`]+)`\s*;', file_contents, re.IGNORECASE)
if match:
shell = match.group("shell")
if iname == 0:
info = '\n[%s] :\n'% (filepath)
else:
info = ''
info += '\t|-- [``] command is [%s] in line [%d] \n'% (shell,i)
flog.write(info)
print info
iname += 1
f.close()
flog.close()
if '__main__' == __name__:
argvnum = len(sys.argv)
liston = '0'
if argvnum == 1:
action = os.path.basename(sys.argv[0])
print "Command is like:\n %s D:\wwwroot\ \n %s D:\wwwroot\ 1 -- recurse subfolders"% (action,action)
quit()
elif argvnum == 2:
path = os.path.realpath(sys.argv[1])
listdir(path,liston)
else:
liston = sys.argv[2]
path = os.path.realpath(sys.argv[1])
listdir(path,liston)
flog = open(os.getcwd()+"/check_php_shell.log","a+")
ISOTIMEFORMAT='%Y-%m-%d %X'
now_time = time.strftime(ISOTIMEFORMAT,time.localtime())
flog.write("\n----------------------%s checked ---------------------\n"% (now_time))
flog.close()

复制代码

2、正则表达式的用法在各个语言、脚本里面略有不同，你有什么学习经验可以分享给初学者？
a) 入门看《正则表达式30分钟入门教程》，看完基本的就会了，然后用我上面说的那几个工具试试，很容易上手；
b) 要想了解的深，就得有相应的场景使你可以去不断的研究那些语法。比如在上面提到的日志匹配，在实际过程中用到比较多的有界定（通过什么来界定位置，比如\b）、零宽断言、捕获、单行、多行、不匹配大小写等，这里就不详细说了，大家用不到。
c) 不同语言中的正则表达式会有所不同，比如java、perl、shell中可以使用的都会有不同，这个看相应的说明就行了。
d) 单纯的学习正则表达式不难，更多的是结合其他语言来完成特定的任务。
e) 测试正则表达式的效率可以使用RegexBuddy.exe看详细的匹配过程，匹配次数。一般来讲能明确的就明确，比如改用\d{1,3}就不用.*等；能限定的就限定，比如\w{1,3}就不用\w+，等等。网上也有一些资料。
f) 最好有实际场景来解答，这样才学得快。