免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3554 | 回复: 2
打印 上一主题 下一主题

请问实现对网页信息进行抓取的方法都有些什么?分别用什么语言实现? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-03-24 07:35 |只看该作者 |倒序浏览
例如:
1.对某个特定网页每天更新的链接;
2.以及对网页的表格进行抓取;
3.另外对需要输入用户名跟密码之后进入的界面,当被用户授权后,该如何进行抓取;
4.再就是对不同网页内核是否有实现方式上的区分(如IE与webkit)

论坛徽章:
26
CU十二周年纪念徽章
日期:2013-10-24 15:41:34技术图书徽章
日期:2014-07-11 16:27:52辰龙
日期:2014-09-04 13:40:43白羊座
日期:2014-09-09 12:51:55双子座
日期:2014-09-26 11:00:042014年中国系统架构师大会
日期:2014-10-14 15:59:00子鼠
日期:2014-10-23 16:48:23巨蟹座
日期:2014-10-27 08:21:10申猴
日期:2014-12-08 10:16:282015年辞旧岁徽章
日期:2015-03-03 16:54:15NBA常规赛纪念章
日期:2015-05-04 22:32:03IT运维版块每日发帖之星
日期:2016-01-29 06:20:00
2 [报告]
发表于 2014-03-27 10:04 |只看该作者
你要写“网络爬虫”
到网上搜一下“网络爬虫”了解一下。

论坛徽章:
0
3 [报告]
发表于 2014-04-01 09:55 |只看该作者
python或者go写起来都很快。perl我不会,但是应该也可以。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP