免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1499 | 回复: 6

[C] iconv转网页 [复制链接]

论坛徽章:
0
发表于 2014-08-11 10:56 |显示全部楼层
iconv将网页由gbk转成utf-8,当包含utf-8和gbk两种编码的时候,提示转码失败这中情况怎么处理?难道有将网页中提示哪段是什么编码分离出来单独转,然后再整合么?

论坛徽章:
2
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:11
发表于 2014-08-11 11:02 |显示全部楼层
正常的网页如何同时包含2种编码。编辑器也不支持啊。
一般都是由meta属性指定。若没有指定,则使用浏览器的默认设置。
若显示乱码,用户不会自己改浏览器设置吗?
因为不管utf-8还是gbk都是ansi兼容的编码。因此可以正常获取meta属性。
对于不能正常获取meta属性的编码,只能自己试了。

论坛徽章:
0
发表于 2014-08-11 11:10 |显示全部楼层
回复 2# cobras


    meta属性是gbk,获取的header头部显示的编码也是gbk,我的目的就是gbk转utf8,但是网页里面包含了script,他的编码在属性中给的是utf-8,是穿插在网页中间的,而且是多出。我想知道是iconv支不支持这种混编转码,至少我的程序在转码的时候出错,inputlen出错时显示的是1千多个字节,而实际输入应该是7千。

论坛徽章:
2
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:11
发表于 2014-08-11 11:13 |显示全部楼层
如果是这种奇葩的应用,你就只有自己分析网页,分段截取并转码,然后再合并。
我就很好奇,用的什么编辑器,同个文件可以分段存储为不同的编码。

论坛徽章:
0
发表于 2014-08-11 11:16 |显示全部楼层
回复 4# cobras


    不是编辑器是在内存中直接处理的。要是分段处理那就麻烦了

论坛徽章:
2
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:11
发表于 2014-08-11 11:17 来自手机 |显示全部楼层
了解了。是服务器脚本的问题。

论坛徽章:
0
发表于 2014-08-11 11:37 |显示全部楼层
回复 6# cobras


    不好意思,我是理解错了,script给出了不同编码,对网页是没有影响的,因为里面没有什么字符。是程序员的问题,他给网页代码函数写注释的时候采用了utf8编码,导致了混编失败。同时谢谢你的解答!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

SACC2021中国系统架构师大会

【数字转型 架构重塑】2021年5月20日-22日第十三届中国系统架构师大会将在云端进行网络直播。

大会为期3天的议程,涉及20+专场,近120个主题,完整迁移到线上进行网络直播对会议组织来说绝非易事;但考虑到云端会议的直播形式可以实现全国各地技术爱好者的参与,也使ITPUB作为技术共享交流平台得到更好的普及,我们决定迎难而上。
http://sacc.it168.com/


大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP