免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
1234下一页
最近访问板块 发新帖
查看: 11083 | 回复: 37
打印 上一主题 下一主题

自学perl日记 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-04-28 22:35 |只看该作者 |倒序浏览
今天本来想找个软件实现网页更新的自动检查,发现网上目前有的也就几种软件,分别是check&get WebSite-Watcher UpdatePatrol
另外还有两个浏览器的插件,Firefox扩展Update Scanner和chrome 扩展Page Monitor。这些东西是我能找到的流行的自动检网页和对较网页更新的软件了。但是仍然没有我所需要的功能。
我需要下面的功能:
1,自定义监控网页的范围。
2,自动检查间隔时间小于5秒。
3,自定义监控范围内的关键词,包括白名单和黑名单。
两个插件就不多说了,功能太少了。
三个软件中,UpdatePatrol和check&get不能实现自动检查间隔时间小于5秒。而WebSite-Watcher是目前功能比较强大的软件了,但是不能用黑名单,我发现它的黑名单功能是全网页范围内的,也就是说如果在整个网页范围内找到任何一个黑名单上面的词都不报告,而我需要的功能是一定范围内的黑名单功能。
另外一个就是对这个软件破解不是太好。
本来是有别的事情的,可是不愿意去做。就当闲来无事吧。开始自学perl,看看自已能不能编个差不多的软件。实验上述功能。几乎是零起点了。教材就看小骆驼吧。windows系统上装active perl,刚看到hello world!还好,第一节的内容不算太难,课后的三道题都会做了。就是看第三题的那个代码太乱了。不知道能不能坚持到书的最后。
开始自学。

论坛徽章:
0
2 [报告]
发表于 2011-04-29 01:40 |只看该作者
刚才又看了一下WebSite-Watcher里面的blacklist模式,是支持正规表达式的。也许我学会了正规表达式以后就可以不用自已编写软件了。
不知道这个怎么用正规表达式表达。
一个特定的词AAAAA后10到20回车行(这些行里面可以有文字)后是否出现另外一个特定的词BBBBB。
看来重点要学正规表达式那章了。

论坛徽章:
0
3 [报告]
发表于 2011-04-29 02:44 |只看该作者
直接跳到正规表达式章节看了一圈,原来很强大的。
regex(AAAAA.{200,500}BBBBB)
regex(AAAAA.{200,500}CCCCC)
就把功能实现了,后来试了试文本里面那个不是回车行,直接按字符.就可以了。
后面的任务就是如何把B和C写到一个表达式里面去。看书上写是用|,可是和小括号和中括号是什么关系呢?以后再试吧。

论坛徽章:
46
15-16赛季CBA联赛之四川
日期:2018-03-27 11:59:132015年亚洲杯之沙特阿拉伯
日期:2015-04-11 17:31:45天蝎座
日期:2015-03-25 16:56:49双鱼座
日期:2015-03-25 16:56:30摩羯座
日期:2015-03-25 16:56:09巳蛇
日期:2015-03-25 16:55:30卯兔
日期:2015-03-25 16:54:29子鼠
日期:2015-03-25 16:53:59申猴
日期:2015-03-25 16:53:29寅虎
日期:2015-03-25 16:52:29羊年新春福章
日期:2015-03-25 16:51:212015亚冠之布里斯班狮吼
日期:2015-07-13 10:44:56
4 [报告]
发表于 2011-04-29 10:28 |只看该作者
好奇楼主搞这个是做什么用的,人工过滤敏感词?

论坛徽章:
0
5 [报告]
发表于 2011-04-29 13:17 |只看该作者
有点乱。

论坛徽章:
0
6 [报告]
发表于 2011-04-29 15:48 |只看该作者
regex(AAAAA.{200,500}BBBBB)
regex(AAAAA.{200,500}CCCCC)
这个表达式看起来还是不太好,因为200到500之间数字差得太多,还是比较爱出错的,因为网页上面不定有多少重复的呢。刚才又找到一种好方法:
AAAAA到BBBBB之间有一个XXXXX,这个特定的字符距BBBBB比较近了,才几个字符而已,只是不会写表达式了。今天下雨,还跑到外面买打印纸去了。

论坛徽章:
1
摩羯座
日期:2014-12-29 15:59:36
7 [报告]
发表于 2011-04-29 16:03 |只看该作者
微博?直播?我这里也下雨

论坛徽章:
0
8 [报告]
发表于 2011-04-29 16:19 |只看该作者
还是搞不明白,具体的表达式怎么写才算最正规的呢?
比如网页上写了下面的字符
AAAAAppyiiopwpeipppppwsaXXXXX2324557BBBBBlksjflzjosflawejfosjlfwjfowieflsXXXXX2324k3BBBBB
我想写符合下面规则的AAAAA到第一个XXXXX以及XXXXX后面10到15个左右字符就出现的BBBBB的表达式该怎么写呢?
书上没写第一个出现的是用什么呢,还是我看的不仔,也许时间太短,没基础,我想perl一定能实现这个表达式的。

论坛徽章:
0
9 [报告]
发表于 2011-04-29 16:21 |只看该作者
也就是要这一段
AAAAAppyiiopwpeipppppwsaXXXXX2324557BBBBB
后面的就不要了。

论坛徽章:
0
10 [报告]
发表于 2011-04-29 18:57 |只看该作者
我想这么写看看对不对,也许不对,因为刚入门,不对就再找找。
RegexToRegex(RegexToRegex(AAAAA,XXXXX).{18,32}BBBBB)
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP