免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3447 | 回复: 4

[网络相关] 如何将大量的网页下载为纯文本文件? [复制链接]

论坛徽章:
3
天蝎座
日期:2013-11-11 10:18:392015年亚洲杯之沙特阿拉伯
日期:2015-04-06 15:51:08CU十四周年纪念徽章
日期:2017-01-07 22:56:29
发表于 2013-11-12 11:28 |显示全部楼层
本帖最后由 aqbssh 于 2013-11-12 11:58 编辑

现在的网络信息量真是大,但想要找一点自己真正想要的信息却太难了。我有一个设想,把我想要关注的关键词做成一个列表文件 key-list.txt ,然后用工具自动把这些关键词的搜索结果前100项自动下载为纯文本文件,这样我们就不用面对各种弹窗和那些闪动的网页了(都是分散我们注意力的)有同感的请围观!有能力的请帮忙把它变成现实!谢谢。

[h@localhost w文档]$ cat key-lixt.txt   # key-lixt.txt 是每个关键字为一行的想要关注的东西。
唐山  钢材
天津  钢材
西安  螺纹钢

论坛徽章:
766
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
发表于 2013-11-12 11:38 |显示全部楼层
依稀想起了我打酱油的毕业设计 Web信息抽取,
话说能在浏览器里做一些设置限制各种弹窗吧,
大量txt的可读性也不见得好到哪里去。

论坛徽章:
3
天蝎座
日期:2013-11-11 10:18:392015年亚洲杯之沙特阿拉伯
日期:2015-04-06 15:51:08CU十四周年纪念徽章
日期:2017-01-07 22:56:29
发表于 2013-11-12 11:46 |显示全部楼层
回复 2# Herowinter


    纯文本文件还可以在命令行下用各种工具来分析嘛。有时候,我们如果分析大量的网页,就在可能掌握某种商品的价格趋势。比如说,我现在接触的 钢材。

论坛徽章:
766
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
发表于 2013-11-12 11:51 |显示全部楼层
回复 3# aqbssh
所以说这属于Web信息抽取的范围,现在已经有了一些
工具来做类似的关键词搜索 价格比较等功能。
比如说全文搜索的lucence  google的MetaSeeker等。




   

论坛徽章:
3
天蝎座
日期:2013-11-11 10:18:392015年亚洲杯之沙特阿拉伯
日期:2015-04-06 15:51:08CU十四周年纪念徽章
日期:2017-01-07 22:56:29
发表于 2013-11-12 11:56 |显示全部楼层
回复 4# Herowinter


    对,只是如果我们自己能实现的话,我们就能把它放到后台去执行,当我们想看选定时间段的信息,直接找到那个时候下载的文件就行了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP