免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3821 | 回复: 8
打印 上一主题 下一主题

gbk utf8 unicode [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-10-13 09:46 |只看该作者 |倒序浏览
谁能给我解释下这几个的关系,困惑很久,google也没发现什么建设性的东西。
     假如我这有一组数据(文件路径吧),人家告诉我一个编码,可能是gbk,也可能是utf8,我都想转成unicode,那么我该怎么解析它?
      
   (我这个问题问的可能也有点不太对,我对这些东西是在模糊)

论坛徽章:
0
2 [报告]
发表于 2007-10-13 10:05 |只看该作者
看看iconv函数 或者 glib的相关内容

论坛徽章:
0
3 [报告]
发表于 2007-10-13 10:39 |只看该作者
unicode是一种字符与数值的对应关系表
UTF-XX 是unicode的表现形式,关注的是如何储存与字符对应的数值。
其中广泛应用的utf-8编码 避免了null字符的出现,能兼容老系统及C字串操作函数,成为最流行的unicode表现方式。
gb2312 -> gbk -> gb18030 主要是国内的标准
gb2312只含几千简体字,gbk与gb18030都扩展了两个字节的取值范围,包含了大多数简繁体汉字及中日韩字体,其中gb18030有四字节编码。

编码间的转换只能通过映射表解决,在汉字三大系列编码(gb, big5, unicode)中都没有一一对应排列关系。

个人认识,错误风险自担

[ 本帖最后由 nully 于 2007-10-13 10:40 编辑 ]

论坛徽章:
0
4 [报告]
发表于 2007-10-13 10:51 |只看该作者
gb2312 -> gbk -> gb18030 主要是国内的标准


请问,gb2312 也能靠string来保存么?

论坛徽章:
0
5 [报告]
发表于 2007-10-13 10:56 |只看该作者
可以吧,虽然是多字节的。只是用几(两)个char来表示一个汉字,当用进行编码转换的时候,指定源文字编码,iconv就会自动识别(个人是这么觉得)

论坛徽章:
0
6 [报告]
发表于 2007-10-13 12:43 |只看该作者
Font 1-> code point ->map to font 2.

论坛徽章:
0
7 [报告]
发表于 2007-10-13 13:25 |只看该作者
那GBK这类东西和什么有关呢?
例如我本地locale是阿拉伯的,我在
printf("中国\n");还能输出么?

论坛徽章:
0
8 [报告]
发表于 2007-10-13 13:37 |只看该作者
张孝祥的java教程中有一章节对这个讲得很详细. 不过我平时也很少用到.

论坛徽章:
0
9 [报告]
发表于 2007-10-13 18:17 |只看该作者
好的我看看,多谢楼上各位兄台
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP