免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: dongh
打印 上一主题 下一主题

shell高效提取页面信息 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2009-07-10 12:22 |只看该作者

回复 #1 dongh 的帖子

你说的</span> </div>之间包括从</div>到</span>这种形式吗?
还是指的从任意一个</span>到随后最近的一个</div>之间的内容?

论坛徽章:
0
12 [报告]
发表于 2009-07-10 14:32 |只看该作者
谢谢各位, 你们都很棒 ,  特别感谢9楼的黑哥, 你的表达式很好用,谢谢!

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
13 [报告]
发表于 2009-07-10 14:55 |只看该作者

回复 #12 dongh 的帖子

“好用”不管用啊,不见分?

论坛徽章:
0
14 [报告]
发表于 2009-07-10 15:14 |只看该作者
不好意思 ,刚才忘了,呵呵

论坛徽章:
0
15 [报告]
发表于 2009-07-10 15:46 |只看该作者
楼主要的其实是">"和"<"之间的东西,拿出来处理一下就成了。那句"</span>和</div>之间"好多余啊~ T_T

  1. curl ... | awk -v RS="[><]" 'NR%2==1&&!/^ *$/{gsub("&nbsp;",""); printf (T||/^: *$/?"":"\n")$0; T=/^: *$/?1:0}END{print ""}'
复制代码

论坛徽章:
0
16 [报告]
发表于 2009-07-10 17:43 |只看该作者
[^<]

请教,这个事什么意思?不匹配"<"吗?为什么加这个呢?我着把这个去掉..结果grep: nothing to repeat

我感觉不加"[^<]"怎么也得有些东西输出啊..~

论坛徽章:
0
17 [报告]
发表于 2009-07-10 18:14 |只看该作者

回复 #16 从未被和谐 的帖子

你是说那个grep -Po的处理?用[^<]*是表示匹配连续非字符'<'的字符串。如果用.*,'<'也会被这个匹配到,因为后面还有一个(?=</div>)做限制,所以处理就成了匹配到'>'后,.*匹配了直到EOF的所有字符,而(?=</div>)条件没有达成,所以没有匹配结果。

论坛徽章:
0
18 [报告]
发表于 2009-07-10 18:31 |只看该作者
原帖由 kwokcn 于 2009-7-10 18:14 发表
你是说那个grep -Po的处理?用[^



谢谢..我今天正则表达式刚看到前后查找..还是有点迷糊..

我wget www.youku.com做了一下练习

grep -P -o "(?<=alt=\")*(?=\"\stitle)" index.html   
grep: nothing to repeat


grep -P -o "(?<=alt=\")[^\<]*(?=\"\stitle)" index.html
则会过滤出一些结果..

还是有些不明白
在这里没有关于"<"的过滤条件....所以有些搞不懂[^<]的作用..

脑袋有些浆糊了..可能说的不太明白..

论坛徽章:
0
19 [报告]
发表于 2009-08-06 21:05 |只看该作者

使用MetaSeeker工具包,很强大,免费使用

MetaSeeker是一个Web页面信息提取工具包,能够按照用户的指导,从Web页面上筛选出需要的信息,将噪音信息过滤掉,将提取到的内容存储成XML文件,最适合做垂直搜索和推荐引擎。是一个通用的信息提取工具包,为一个网站定制提取规则时不用编程,只需要操作图形界面,自动生成提取规则。

该工具包有三个工具:

1,MetaStudio,用于定制目标网页内容提取规则,完全免除编程和调试的麻烦,全图形界面,定制一个新网站的提取规则只需要几分钟

2,DataScraper,用于连续且高效得从目标网站上提取内容,并滤除不需要的内容,存成XML文件

3,SliceSearch,将提取到的内容存储到搜索引擎中,提供强大的搜索功能和内容管理功能,用于快速部署垂直搜索和商业推荐引擎。

目标客户是建立下述在线服务的个人和企业:

*垂直搜索
*商品比价
*商业情报采集和分析
*数据挖掘
*手机/移动/电视搜索
*混搭(mashup)服务

下载地址:http://www.gooseeker.com

用这个工具包做的垂直搜索:威客任务搜索:http://www.metaseeker.cn/projectsearch/home.htm
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP