123 / 3 页下一页

C和汉字编码（两章，欢迎高人指正） [复制链接]

davelv

大富大贵

论坛徽章:: 0

11楼 [报告]

发表于 2011-09-20 13:26 |只看该作者

在哪个区？
pmerofc 发表于 2011-09-20 12:38

哦，看错了的说。。。
只能说是兼容吧，而不是包括。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pmerofc pmerofc 当前离线禁止发言好友博客消息论坛徽章: 2	12楼 [报告] 发表于 2011-09-20 13:28 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
pmerofc pmerofc 当前离线禁止发言好友博客消息论坛徽章: 2	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

嘟猫猫

稍有积蓄

论坛徽章:: 0

13楼 [报告]

发表于 2011-09-20 15:53 |只看该作者

我觉得还不错的吧

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yulihua49

巨富豪门

论坛徽章:: 15

14楼 [报告]

发表于 2011-09-20 16:50 |只看该作者

汉字的编码分为三类：中国的GB系列，台湾的big5码，unicode。

扩充字符个数的难度在于要扩大字节数，那么GBK还是两个字节的大小吗？）
iCoding 发表于 2011-09-20 11:40

GBK还是两个字节的大小.第二个字节高位可以为0。0X41-0X7E。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

iCoding

白手起家

论坛徽章:: 0

15楼 [报告]

发表于 2011-09-20 17:43 |只看该作者

本帖最后由 iCoding 于 2011-09-20 18:54 编辑

回复 14# yulihua49

表示不理解，GBK为了和ASCII兼容，用了2个标志位，将数据表示范围减少到1万多个，GBK没有使用标志位么？

看明白了，第二个字节的高位不再表示，那么实际上GBK就有2^15=32768个状态

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yulihua49

巨富豪门

论坛徽章:: 15

16楼 [报告]

发表于 2011-09-21 11:09 |只看该作者

本帖最后由 yulihua49 于 2011-09-21 11:16 编辑

回复 yulihua49

表示不理解，GBK为了和ASCII兼容，用了2个标志位，将数据表示范围减少到1万多个 ...
iCoding 发表于 2011-09-20 17:43

只扩充了0X41-0X7E。再大，就是18030了，‘0’-‘9’，后边再+2字节。
第一个字节，0X81-0XFE。GB2312-80是0XA1-0XFE。

纠正你一点：字符集与C没关系，其他语言一样。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

幻の上帝

富足长乐

论坛徽章:: 0

17楼 [报告]

发表于 2011-09-21 11:36 |只看该作者

既然说GB“系列”那最好提一下GB18030吧，好歹是算现行的强制性标准。
另外1~6字节的UTF-8被X了，新的RFC3629里面弄回1~4字节了，对应UCS编码区间上限是U+10FFFF。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

iCoding

白手起家

论坛徽章:: 0

18楼 [报告]

发表于 2011-09-21 16:26 |只看该作者

对应UCS编码区间上限是U+10FFFF

-----------------------------------------
U是啥含义，一直看不懂，所有的资料都这么说

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

幻の上帝

富足长乐

论坛徽章:: 0

19楼 [报告]

发表于 2011-09-21 17:30 |只看该作者

回复 18# iCoding

标记Unicode code point的前缀。

http://en.wikipedia.org/wiki/Mapping_of_Unicode_characters

The Unicode code point is a number also permanently assigned along with the "Name" property and included in the companion UCS. The usual custom is to represent the code point as hexadecimal number with the prefix "U+" in front.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

iCoding

白手起家

论坛徽章:: 0

20楼 [报告]

发表于 2011-09-21 18:13 |只看该作者

纠正你一点：字符集与C没关系，其他语言一样。

======================

感谢，嗯，我的意思是，C里是怎么处理字符集的，例如setlocale怎么调用，调用以后会影响哪些函数

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

123 / 3 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › C/C++ › C和汉字编码（两章，欢迎高人指正）

pmerofc pmerofc 当前离线禁止发言好友博客消息论坛徽章: 2	12楼 [报告] 发表于 2011-09-20 13:28 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
pmerofc pmerofc 当前离线禁止发言好友博客消息论坛徽章: 2	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

C和汉字编码（两章，欢迎高人指正） [复制链接]

浏览过的版块