免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: MayerCN
打印 上一主题 下一主题

发布PHP下的基于SAX模式的XML文档解析器及使用手册 [XmlParser v1.0] [复制链接]

论坛徽章:
0
21 [报告]
发表于 2006-09-21 09:24 |只看该作者
没听懂achun.shx在说什么。跟xml有关系吗?

论坛徽章:
0
22 [报告]
发表于 2006-09-21 10:10 |只看该作者
xml和xhtml是有本质区别,
我关心的是,xhtml符合xml的结构
就要这一点,所有基于xml分析处理的程序,都可以用在xhtml了,
html又可以用Tidy简单转换,
那就是说html的分析处理就搞定了呀!
一个可以分析html的程序,呵呵正好是网页信息的采集/整理/提取的基础呀!
逻辑关系就是这样!

论坛徽章:
0
23 [报告]
发表于 2006-09-21 18:25 |只看该作者
原帖由 achun.shx 于 2006-9-21 10:10 发表
xml和xhtml是有本质区别,
我关心的是,xhtml符合xml的结构
就要这一点,所有基于xml分析处理的程序,都可以用在xhtml了,
html又可以用Tidy简单转换,
那就是说html的分析处理就搞定了呀!
一个可以分析htm ...


现在有几个网页的源代码能够100%转换成 xml 啊,想当然。

论坛徽章:
0
24 [报告]
发表于 2006-09-21 21:18 |只看该作者
有道理,回头我测试一下,再讨论这个!

论坛徽章:
0
25 [报告]
发表于 2006-09-21 22:18 |只看该作者
to achun.shx 你在思考“网页信息的采集/整理/提取”,,对吧。。

这个你可以看看Lucene in Action,,,html解析不是这样做的。

html可以通过程序转化成xml,,但是转化过程不是你想得那样。

[ 本帖最后由 james.liu 于 2006-9-21 22:20 编辑 ]

论坛徽章:
0
26 [报告]
发表于 2006-09-21 22:39 |只看该作者
我提个问题,,,我要把a机的xml传到b机,,,该xml大小不确定,,如何快捷准确传送。。。

如果该xml文件很大,zip后可能小点,我没做过测试,所以不知道能小多少,但是发过去,还要解,挺耗时的。

如果我采用多点读取xml的方式,,就是通过内存上做个表记录xml传送情况,,,比如xml内有100万条记录,每次发送1万条,,分100次。。

b机做开两个线程,一个接受一个解析。

这样发送方要机械xml,接受方也要解析。。。

用你的解析器该如何操作?比如设定直接读取1万条?然后记录取值范围。

因为只是解析了传送,,所以多余的解析就不需要了。

论坛徽章:
0
27 [报告]
发表于 2006-09-22 00:37 |只看该作者
既然有那么大的xml,那就不应该用xml了吧。超过5万性能是极其惨不忍睹的

论坛徽章:
0
28 [报告]
发表于 2006-09-22 02:05 |只看该作者
100 万...

XML...

论坛徽章:
0
29 [报告]
发表于 2006-09-22 08:59 |只看该作者
原帖由 geel 于 2006-9-22 00:37 发表
既然有那么大的xml,那就不应该用xml了吧。超过5万性能是极其惨不忍睹的



是吗?你测试过?

论坛徽章:
0
30 [报告]
发表于 2006-09-22 09:09 |只看该作者
弄个试试看呗,比如5w entries的rss feed
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP