免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3123 | 回复: 6
打印 上一主题 下一主题

如何对web::scraper抓取回来的内容进行分行 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-07-22 11:32 |只看该作者 |倒序浏览
如题,最近喜欢上了Web::Scraper,这个东西用熟了,抓页面任何内容简直如探囊取物(吹点小牛 呵呵),只是现在遇到点小问题,比如说我已经匹配好了把CU论坛里每个主题贴,每层楼的用户回复都抓下来,现在内容是抓下来了,唯一问题是,抓回来的内容只有文字,且没有换行。暂时还没找到解决办法,所以先在这发个贴,有知道解决办法的兄弟麻烦点拔一下,我再去找找看是否有其他解决办法,回来再跟大家学习。

论坛徽章:
0
2 [报告]
发表于 2010-07-22 11:37 |只看该作者
lwp就满足要求了

你代码不放出来,怎么帮你?

换行在网页里是 <br> 把<br>替换成\n 不就得了,这种事情还需要问么?不要偷懒阿
多思考比直接拿别人的东西进步更快

论坛徽章:
0
3 [报告]
发表于 2010-07-22 11:42 |只看该作者
我倒,问题是Web::Scraper抓回来的东西它不包含html代码,要包含了我就这样去过滤了。

比如类似:

process '//.......   ',"contents[]"=>"TEXT";

这样数组每个元素里的东西就只有文字 ,没有html代码的。

论坛徽章:
0
4 [报告]
发表于 2010-07-22 13:23 |只看该作者
难不成要我换别的方式来抓?

论坛徽章:
0
5 [报告]
发表于 2010-07-23 20:34 |只看该作者
周未了,继续研究下。顺便来顶下。

论坛徽章:
0
6 [报告]
发表于 2010-07-23 20:46 |只看该作者
貌似没有办法了,非得硬着头皮看源码?

论坛徽章:
0
7 [报告]
发表于 2010-07-27 23:12 |只看该作者
自已动手,丰衣足食,呵呵,花了点时间,好好看了下HTML::TokeParser,哈哈,问题解决了,同时发现,嘿,又是个好玩艺。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP