Chinaunix

标题: 请教一个正则表达式匹配问题 [打印本页]

作者: xinglu1983 时间: 2015-01-06 11:14
标题: 请教一个正则表达式匹配问题
写个采集工具，采集网页，发现网页里有些混淆用的字符，想用正则过滤掉，无奈正则太差，不知道如何匹配，特来请教下各位大虾~

内容类似于：
正文正文正文＊ ＷwＷ.ＷxＷＸ.cＯＭ正文正文
其中标红处为混淆字符。

规律大概是一个全角或半角的特殊字符＊+零个或多个空格+全角或半角或大小写的www.wxwx.com，其中www.wxwx.com中间可能混入 

类似的混淆字符有：
＊ ＷwＷ.ＷxＷＸ.cＯＭ
+ Ｗww.wXwＸ.Ｃom
／ www.ＷxwＸ.ＣＯＭ
(ＷＷＷ.wxＷＸ. ＣＯＭ
* wＷw.ＷxＷx.com

求助~~~

作者: yinyuemi 时间: 2015-01-06 11:55
回复 1# xinglu1983

试试吧，

echo '正文正文正文＊ ＷwＷ.ＷxＷＸ.cＯＭ正文正文' |grep --color -Pi '＊.*?(Ｍ|m)'
正文正文正文＊ ＷwＷ.ＷxＷＸ.cＯＭ正文正文

复制代码

作者: Looiml 时间: 2015-01-06 15:03
本帖最后由 Looiml 于 2015-01-06 15:05 编辑

回复 1# xinglu1983
用PCRE还好点儿，用BRE或ERE就略显蛋疼了，不过看起来还是晕晕的，这里用只是用grep -oP作一举例，建议用支持PCRE的文本处理工具来处理。

$>cat a
正文正文正文＊ ＷwＷ.ＷxＷＸ.cＯＭ正文正文
正文正文正文＊ ＷwＷ.ＷxＷＸ.cＯＭ 正文正文
正文正文正文+ Ｗww.wXwＸ.Ｃom正文正文
正文正文正文／ www.Ｗ xwＸ.ＣＯＭ正文正文
正文正文正文(ＷＷＷ.wxＷＸ.  ＣＯＭ正文正文
正文正文正文* wＷw.ＷxＷx.com正文正文
正文正文正文＊ ＷwＷ.Ｗx ＷＸ.cＯ Ｍ正文正文
$>grep -oP '(*UTF8).(( )*)([wWＷｗ](?1)){3}\.(?1)((?3)([xXｘＸ](?1))){2}\.(?1)[cCＣｃ](?1)[oOＯｏ](?1)[mMＭｍ](?1)' a
＊ ＷwＷ.ＷxＷＸ.cＯＭ
＊ ＷwＷ.ＷxＷＸ.cＯＭ 
+ Ｗww.wXwＸ.Ｃom
／ www.Ｗ xwＸ.ＣＯＭ
(ＷＷＷ.wxＷＸ.  ＣＯＭ
* wＷw.ＷxＷx.com
＊ ＷwＷ.Ｗx ＷＸ.cＯ Ｍ

复制代码

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)

Powered by Discuz! X3.2