免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 5118 | 回复: 11
打印 上一主题 下一主题

在线求助SHELL实现网页内容提取问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-01-05 22:15 |只看该作者 |倒序浏览
10可用积分
http://www.nessus.org/plugins/index.php?view=single&id=11137  (举例,后面的11137或者为22222等)
如上网页,我想提取网页中的下面内容里面的"High"这个字段(这个也有可能为Medium),做一个风险等级内容的提取.
Risk factor :
High / CVSS Base Score : 7.5

请教如何实现,谢谢啦!

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
2 [报告]
发表于 2010-01-05 22:15 |只看该作者

  1. wget -q 'http://www.nessus.org/plugins/index.php?view=single&id=11137' -O - | sed -n '/Risk factor/{N;N;s/<br \/>//g;p}'
复制代码

论坛徽章:
0
3 [报告]
发表于 2010-01-05 22:50 |只看该作者
你想做在百度google crawler !

论坛徽章:
0
4 [报告]
发表于 2010-01-06 00:42 |只看该作者

我在windows下下了个wget,结果运行出错,如下

D:\wget>wget http://www.nessus.org/plugins/in ... e&id=11137.html
--2010-01-06 00:39:29--  http://www.nessus.org/plugins/index.php?view=single
Resolving www.nessus.org... 66.240.11.101
Connecting to www.nessus.org|66.240.11.101|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: `index.php@view=single'

    [   <=>                                 ] 12,675      12.9K/s   in 1.0s

2010-01-06 00:39:33 (12.9 KB/s) - `index.php@view=single' saved [12675]

'id' 不是内部或外部命令,也不是可运行的程序
或批处理文件。

论坛徽章:
0
5 [报告]
发表于 2010-01-06 00:56 |只看该作者
'/Risk factor/{N;N;s/<br \/>//g;p}'
能帮忙解释下sed后面的这段吗?  非常感谢啦.

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
6 [报告]
发表于 2010-01-06 01:29 |只看该作者

回复 #4 xu520jing 的帖子

GNU for Windows 的命令行工具必须使用双引号:

  1. wget -q "http://www.nessus.org/plugins/index.php?view=single&id=11137" -O - | sed -n "/Risk factor/{N;N;s/<br \/>//g;p}"
复制代码

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
7 [报告]
发表于 2010-01-06 01:32 |只看该作者

回复 #5 xu520jing 的帖子

把Risk factor这行以及它下面的两行读入模式空间,然后删除HTML标签<br \/>

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
8 [报告]
发表于 2010-01-06 09:12 |只看该作者
windows下用手工吧,或者安装相应的工具。

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
9 [报告]
发表于 2010-01-06 12:19 |只看该作者

回复 #8 blackold 的帖子

Windows下可以用VBS来搞定,不多要写那么一段代码,还是wget+sed来的方便些

论坛徽章:
0
10 [报告]
发表于 2010-01-07 23:18 |只看该作者

回复 #3 Shell_HAT 的帖子

-O - 这是什么用法,第一次看到
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP