免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1916 | 回复: 8
打印 上一主题 下一主题

欢迎讨论,各抒己见,有没有好一些的module来完成html的抓取 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-08-25 10:28 |只看该作者 |倒序浏览
本帖最后由 L_WC 于 2016-08-26 16:00 编辑

目的: 抓html菜单和url,菜单有一级二级标题分类
现在每次都用正则抓的,不同的网站要重新分析重新抓,有没有好一些的module来完成这件事情,提高复用性,减少重新编码。

PS:只讨论解析就好了,不需要关心怎么抓。

论坛徽章:
6
15-16赛季CBA联赛之新疆
日期:2016-03-22 22:34:5915-16赛季CBA联赛之山东
日期:2016-04-11 09:08:41程序设计版块每日发帖之星
日期:2016-06-28 06:20:00程序设计版块每日发帖之星
日期:2016-07-19 06:20:00每日论坛发贴之星
日期:2016-07-19 06:20:0015-16赛季CBA联赛之青岛
日期:2016-07-20 22:44:17
2 [报告]
发表于 2016-08-25 12:10 |只看该作者
同感,尤其是js 做的,更要命

求职 : 软件工程师
论坛徽章:
3
程序设计版块每日发帖之星
日期:2015-10-07 06:20:00程序设计版块每日发帖之星
日期:2015-12-13 06:20:00程序设计版块每日发帖之星
日期:2016-05-05 06:20:00
3 [报告]
发表于 2016-08-25 13:22 |只看该作者
Perl 解析 html 的大都是用 Hash 做数据容器, 而 Hash 又没有顺序, 于是为了恢复抓取时的顺序, 相关的代码和模块又增加了另外的排序参数, 比较复杂.

用带顺序的数组来解析, 就没有这个问题. 建议自己写一个解析 html 数据结构的函数吧.

论坛徽章:
6
丑牛
日期:2014-03-21 15:42:04子鼠
日期:2014-04-12 11:50:17处女座
日期:2014-09-01 09:25:1115-16赛季CBA联赛之吉林
日期:2015-12-22 14:01:5215-16赛季CBA联赛之广东
日期:2016-03-08 18:49:422016科比退役纪念章
日期:2016-07-06 12:19:55
4 [报告]
发表于 2016-08-25 13:41 |只看该作者
Mojo::UserAgent可以像css选择器一样操作html,你还要怎样
  1. use Mojo::UserAgent;
  2. my $ua = Mojo::UserAgent->new;
  3. say $ua->get('blogs.perl.org')
  4.   ->res->dom->find('h2 > a')->map('text')->join("\n");
复制代码

论坛徽章:
0
5 [报告]
发表于 2016-08-25 18:39 |只看该作者
WWW::Mechanize

论坛徽章:
0
6 [报告]
发表于 2016-08-25 23:00 |只看该作者
web::scraper

不过折腾到最后,还是Mojo**好

论坛徽章:
0
7 [报告]
发表于 2016-08-26 11:37 |只看该作者
stanley_tam 发表于 2016-08-25 13:41
Mojo::UserAgent可以像css选择器一样操作html,你还要怎样

请教一下,我在win10下用ActivePerl,想安装Mojo::UserAgent,但ppm中只找到Mojo-UserAgent_t,不知该文件为什么后面有个t,是否就是Mojo::UserAgent?,还是要安装其它包。


Mojo-UserAgent_t,
        Version:       
        Released:        2016-03-04
        Author:        Chen Ci <744891290@qq.com>
        CPAN:        search.cpan.org/dist/Mojo-UserAgent_t-

论坛徽章:
6
丑牛
日期:2014-03-21 15:42:04子鼠
日期:2014-04-12 11:50:17处女座
日期:2014-09-01 09:25:1115-16赛季CBA联赛之吉林
日期:2015-12-22 14:01:5215-16赛季CBA联赛之广东
日期:2016-03-08 18:49:422016科比退役纪念章
日期:2016-07-06 12:19:55
8 [报告]
发表于 2016-08-26 13:33 |只看该作者
如果是activeperl的话,在模块介绍页貌似有cpan链接的吧。打开看下是不是一样的吧。
回复 7# hztj2005


论坛徽章:
0
9 [报告]
发表于 2016-08-26 15:58 |只看该作者
回复 4# stanley_tam

只有用mojo抓的时候才试用,很多时候用phantomjs,最后就一个html content, 想讨论一种 常规下的 html页面的解析通用办法。


您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP