免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1660 | 回复: 6
打印 上一主题 下一主题

[C] iconv转网页 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-08-11 10:56 |只看该作者 |倒序浏览
iconv将网页由gbk转成utf-8,当包含utf-8和gbk两种编码的时候,提示转码失败这中情况怎么处理?难道有将网页中提示哪段是什么编码分离出来单独转,然后再整合么?

论坛徽章:
2
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:11
2 [报告]
发表于 2014-08-11 11:02 |只看该作者
正常的网页如何同时包含2种编码。编辑器也不支持啊。
一般都是由meta属性指定。若没有指定,则使用浏览器的默认设置。
若显示乱码,用户不会自己改浏览器设置吗?
因为不管utf-8还是gbk都是ansi兼容的编码。因此可以正常获取meta属性。
对于不能正常获取meta属性的编码,只能自己试了。

论坛徽章:
0
3 [报告]
发表于 2014-08-11 11:10 |只看该作者
回复 2# cobras


    meta属性是gbk,获取的header头部显示的编码也是gbk,我的目的就是gbk转utf8,但是网页里面包含了script,他的编码在属性中给的是utf-8,是穿插在网页中间的,而且是多出。我想知道是iconv支不支持这种混编转码,至少我的程序在转码的时候出错,inputlen出错时显示的是1千多个字节,而实际输入应该是7千。

论坛徽章:
2
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:11
4 [报告]
发表于 2014-08-11 11:13 |只看该作者
如果是这种奇葩的应用,你就只有自己分析网页,分段截取并转码,然后再合并。
我就很好奇,用的什么编辑器,同个文件可以分段存储为不同的编码。

论坛徽章:
0
5 [报告]
发表于 2014-08-11 11:16 |只看该作者
回复 4# cobras


    不是编辑器是在内存中直接处理的。要是分段处理那就麻烦了

论坛徽章:
2
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:11
6 [报告]
发表于 2014-08-11 11:17 来自手机 |只看该作者
了解了。是服务器脚本的问题。

论坛徽章:
0
7 [报告]
发表于 2014-08-11 11:37 |只看该作者
回复 6# cobras


    不好意思,我是理解错了,script给出了不同编码,对网页是没有影响的,因为里面没有什么字符。是程序员的问题,他给网页代码函数写注释的时候采用了utf8编码,导致了混编失败。同时谢谢你的解答!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP