免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: iCoding
打印 上一主题 下一主题

C和汉字编码(两章,欢迎高人指正) [复制链接]

论坛徽章:
0
11 [报告]
发表于 2011-09-20 13:26 |只看该作者
在哪个区?
pmerofc 发表于 2011-09-20 12:38

哦,看错了的说。。。
只能说是兼容吧,而不是包括。

论坛徽章:
2
程序设计版块每日发帖之星
日期:2015-06-17 22:20:00每日论坛发贴之星
日期:2015-06-17 22:20:00
12 [报告]
发表于 2011-09-20 13:28 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
13 [报告]
发表于 2011-09-20 15:53 |只看该作者
我觉得还不错的吧

论坛徽章:
15
射手座
日期:2014-11-29 19:22:4915-16赛季CBA联赛之青岛
日期:2017-11-17 13:20:09黑曼巴
日期:2017-07-13 19:13:4715-16赛季CBA联赛之四川
日期:2017-02-07 21:08:572015年亚冠纪念徽章
日期:2015-11-06 12:31:58每日论坛发贴之星
日期:2015-08-04 06:20:00程序设计版块每日发帖之星
日期:2015-08-04 06:20:00程序设计版块每日发帖之星
日期:2015-07-12 22:20:002015亚冠之浦和红钻
日期:2015-07-08 10:10:132015亚冠之大阪钢巴
日期:2015-06-29 11:21:122015亚冠之广州恒大
日期:2015-05-22 21:55:412015年亚洲杯之伊朗
日期:2015-04-10 16:28:25
14 [报告]
发表于 2011-09-20 16:50 |只看该作者
汉字的编码分为三类:中国的GB系列,台湾的big5码,unicode。

扩充字符个数的难度在于要扩大字节数,那么GBK还是两个字节的大小吗?)
iCoding 发表于 2011-09-20 11:40

GBK还是两个字节的大小.第二个字节高位可以为0。0X41-0X7E。

论坛徽章:
0
15 [报告]
发表于 2011-09-20 17:43 |只看该作者
本帖最后由 iCoding 于 2011-09-20 18:54 编辑

回复 14# yulihua49


    表示不理解,GBK为了和ASCII兼容,用了2个标志位,将数据表示范围减少到1万多个,GBK没有使用标志位么?

   看明白了,第二个字节的高位不再表示,那么实际上GBK就有2^15=32768个状态

论坛徽章:
15
射手座
日期:2014-11-29 19:22:4915-16赛季CBA联赛之青岛
日期:2017-11-17 13:20:09黑曼巴
日期:2017-07-13 19:13:4715-16赛季CBA联赛之四川
日期:2017-02-07 21:08:572015年亚冠纪念徽章
日期:2015-11-06 12:31:58每日论坛发贴之星
日期:2015-08-04 06:20:00程序设计版块每日发帖之星
日期:2015-08-04 06:20:00程序设计版块每日发帖之星
日期:2015-07-12 22:20:002015亚冠之浦和红钻
日期:2015-07-08 10:10:132015亚冠之大阪钢巴
日期:2015-06-29 11:21:122015亚冠之广州恒大
日期:2015-05-22 21:55:412015年亚洲杯之伊朗
日期:2015-04-10 16:28:25
16 [报告]
发表于 2011-09-21 11:09 |只看该作者
本帖最后由 yulihua49 于 2011-09-21 11:16 编辑
回复  yulihua49


    表示不理解,GBK为了和ASCII兼容,用了2个标志位,将数据表示范围减少到1万多个 ...
iCoding 发表于 2011-09-20 17:43



    只扩充了0X41-0X7E。再大,就是18030了,‘0’-‘9’,后边再+2字节。
第一个字节,0X81-0XFE。GB2312-80是0XA1-0XFE。

纠正你一点:字符集与C没关系,其他语言一样。

论坛徽章:
0
17 [报告]
发表于 2011-09-21 11:36 |只看该作者
既然说GB“系列”那最好提一下GB18030吧,好歹是算现行的强制性标准。
另外1~6字节的UTF-8被X了,新的RFC3629里面弄回1~4字节了,对应UCS编码区间上限是U+10FFFF。

论坛徽章:
0
18 [报告]
发表于 2011-09-21 16:26 |只看该作者
对应UCS编码区间上限是U+10FFFF

-----------------------------------------
U是啥含义,一直看不懂,所有的资料都这么说

论坛徽章:
0
19 [报告]
发表于 2011-09-21 17:30 |只看该作者
回复 18# iCoding

标记Unicode code point的前缀。

http://en.wikipedia.org/wiki/Mapping_of_Unicode_characters

The Unicode code point is a number also permanently assigned along with the "Name" property and included in the companion UCS. The usual custom is to represent the code point as hexadecimal number with the prefix "U+" in front.

论坛徽章:
0
20 [报告]
发表于 2011-09-21 18:13 |只看该作者
纠正你一点:字符集与C没关系,其他语言一样。

======================

感谢,嗯,我的意思是,C里是怎么处理字符集的,例如setlocale怎么调用,调用以后会影响哪些函数
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP