免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2458 | 回复: 6
打印 上一主题 下一主题

[C++] 解析HTML的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-07-21 17:16 |只看该作者 |倒序浏览
刚刚用了一个KHTML解析,可是这个东西不能远程启动,因为要在本机上启动一个窗口。

所以,只好换个方式,发现使用firefox里面解析HTML的模块可以用。

但是,看了几天代码后,感觉实在是无从下手,而且在使用parser模块里面,htmlparser

的TestParser.cpp这个测试示例的时候,运行不起来,因为无法创建一个Sink对象。

直接输入是:Unable to create a Sink!

在此,希望哪位高手可以指点一二!~

万分感谢!

论坛徽章:
0
2 [报告]
发表于 2008-07-21 17:28 |只看该作者
如果你解析目的不是主要用来显示的话。libxml还是可以的。
http://xmlsoft.org/

论坛徽章:
0
3 [报告]
发表于 2008-07-21 18:58 |只看该作者
谢谢你的建议,libxml我也考虑过的,但是

那个不符合要求啊。。。现在需要一个功能比较强大一点的。。。

因为需要解析JavaScript。。呵呵。。。

而且还涉及到W3C里面的一些规则的问题。。。

论坛徽章:
0
4 [报告]
发表于 2008-07-21 19:53 |只看该作者
不要交互的话,JavaScript解析意义大吗

另外,楼主做的东西貌似很邪恶

论坛徽章:
0
5 [报告]
发表于 2008-07-22 11:46 |只看该作者
现在可能不需要JavaScript显示的内容,但是以后是肯定要的。

因为有些网站全是JavaScript代码组成,没有实质的文本信息,而是动态加载的。

所以需要解析啊。

我做的东西不邪恶的啊,我只是为了能够得到网页的主要内容。

这个是要通过一定的算法,将不是主要的内容去除。

但是这个算法首先要将网页解析成DOM树。

论坛徽章:
0
6 [报告]
发表于 2008-07-23 13:52 |只看该作者
感觉无法创建Sink对象可能是和自己的系统环境有关系。

不过,就是有关系也不知道到底是什么地方,而且源代码里面跟踪起来也很麻烦。

很难跟踪到里面。

唉。。。。郁闷啊~

论坛徽章:
0
7 [报告]
发表于 2008-07-24 17:08 |只看该作者
还是自己顶上。。。

终于知道为什么不能创建Sink了:
     因为这样的错误  NS_ERROR_FACTORY_NOT_REGISTERED

估计是生产的工厂对象没有在组件里面注册。

郁闷啊~~~~

又是一个难题!~~~~
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP