免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1314 | 回复: 4
打印 上一主题 下一主题

CU RSS 解析的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2006-08-22 09:22 |只看该作者 |倒序浏览
CU 里许多RSS中 description 元素中的最后一个中文字符被切开了

造成 用PHP(SAX) 解析到此处的时候发生错误

比如解析
http://bbs.chinaunix.net/rss/46.xml
中title为 美国《时代》周刊:最前沿的深圳痛苦转型 的 description 元素时

http://bbs.chinaunix.net/rss/all_jh.xml 中解析到 title 为 >[快乐数码摄影] -图- 轨迹 的description 元素时

都会发生错误停止解析

请教各位是否有解决的办法

[ 本帖最后由 MayerCN 于 2006-8-22 09:25 编辑 ]

论坛徽章:
0
2 [报告]
发表于 2006-08-22 09:29 |只看该作者
mbstring
iconv

论坛徽章:
0
3 [报告]
发表于 2006-08-22 09:58 |只看该作者
原帖由 axgle 于 2006-8-22 09:29 发表
mbstring
iconv



我是说针对已经被切乱了的字符进行解析的问题, 比如如何过滤这些非正常的字符, 或者让解析器解析的时候不会产生错误而终止等等


并不是问如何截取多字节字符的问题?

[ 本帖最后由 MayerCN 于 2006-8-22 09:59 编辑 ]

论坛徽章:
1
技术图书徽章
日期:2013-12-05 23:25:45
4 [报告]
发表于 2006-08-22 13:35 |只看该作者
这个你可以参考中文字符串截断函数。

找出被截断的字符替换掉

论坛徽章:
0
5 [报告]
发表于 2006-08-23 22:18 |只看该作者
问题解决了

起先我写下个正则替换, 将被截断的字符替换掉 , 就可以正常进行解析了

后来我发现直接用 iconv('UTF-8','UTF-8',$xml_code);  这样居然也可以过滤掉被截断的字符!

不过 iconv 对 GBK 繁体中文, 生批僻字感觉不完全支持,容易把原文的某些字给过滤掉...
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP