免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4294 | 回复: 12
打印 上一主题 下一主题

[求助]网页内容解析实现方法? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-03-01 21:17 |只看该作者 |倒序浏览
对网页中的信息进行采集,
如对cu首页的“论坛热点讨论”的新闻进行采集。
需要对整个cu首页进行分析,去掉无用的信息,将“论坛热点讨论”下的内容采集,并存入数据库。
我的想法是,采用preg_match 或 用js进行xml解析。
向各位高手请教下基本的思路及实现方法,感谢。

论坛徽章:
0
2 [报告]
发表于 2008-03-02 01:32 |只看该作者
采集不懂,帮你顶

论坛徽章:
0
3 [报告]
发表于 2008-03-02 01:51 |只看该作者
好象用正则表达式做

论坛徽章:
0
4 [报告]
发表于 2008-03-02 09:16 |只看该作者
呵呵 我也不懂 .帮你顶

论坛徽章:
0
5 [报告]
发表于 2008-03-03 00:20 |只看该作者
要做垃圾站?

论坛徽章:
0
6 [报告]
发表于 2008-03-03 09:13 |只看该作者
用正则可以实现

论坛徽章:
0
7 [报告]
发表于 2008-03-03 13:29 |只看该作者
原帖由 ashchen 于 2008-3-3 00:20 发表
要做垃圾站?


论坛徽章:
0
8 [报告]
发表于 2008-03-03 20:36 |只看该作者

回复 #1 yb0312 的帖子

最好用socket,bind 80获取数据比较OK

论坛徽章:
0
9 [报告]
发表于 2008-03-04 00:21 |只看该作者
谢谢大家这么热心。
我做这个的目的,主要是想实时采集某些网站发布的数据(绝非垃圾网站 ),
自己一行一行的输入是很浪费时间跟精力的。
目标数据是采用表格结构发布,需要分析<table>并截取数据,
现在的问题是目标网页中<table>太多,
正则是一件很恼火的工作,
哪位有现成的代码或给个示例?
谢谢

论坛徽章:
0
10 [报告]
发表于 2008-03-04 09:08 |只看该作者
如果table是嵌套的就麻烦了,
可以不用限定于一种技术,
例如,先过滤掉无关信息,而且不要破坏格式,
然后在客户端,浏览器解析成dom结构,
就可以用js取得table的内容了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP