1 23 / 3 页

论坛徽章:: 6

21楼 [报告]

发表于 2015-10-17 07:59 |只看该作者

在utf8与unicode的转换时，还是有类似字节序的问题的。之所以说是类似，是因为unicode码并不是按字节拆分到utf8编码中的。

如一个实16位中文字符，分成4位，6位，6位拆到3个字节中，如何安排这4位，6位，6位数据，就是类似字节序的问题。

实际规定从高位开始取，即顺序先取高4位，再取中6位，最后低6位（类似大端处理）。

取完再加上前缀凑足字节长度，就可号称无字节序问题了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

windoze

版主

论坛徽章:: 44

22楼 [报告]

发表于 2015-10-17 13:55 |只看该作者

电脑中存储的基本单元就是字节，所以UTF-8、GBK这些“字节编码”没有字节序问题。
UTF-16的编码单元是word，也就是双字节，编码单元之间没的顺序是确定的，但编码单元内部就会有那个字节放前面的的问题，这就是所谓的字节序问题。

补充一句，UTF-8没有字节序“问题”，但UTF-8里真的有字节序“相关的概念”。
UTF-8字节流的最开始可以加入三个字节\xEF\xBB\xBF的BOM，也就是byte-order-mark，你们都看见byte order这两个单词了……

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

爻易

家境小康

论坛徽章:: 6

23楼 [报告]

发表于 2015-10-17 19:14 |只看该作者

utf8存储时没字节序问题，但转换时就有了。只不过它固定使用了大端处理方式，实际上也可小端处理，一样编成字节码。只要编码与解码保持一致即可。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

爻易

家境小康

论坛徽章:: 6

24楼 [报告]

发表于 2015-10-17 19:18 |只看该作者

也就是utf8把如何解释字节序推到了编解码阶段。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

爻易

家境小康

论坛徽章:: 6

25楼 [报告]

发表于 2015-10-17 19:50 |只看该作者

orclover 发表于 2010-03-23 17:38
在网上还看到一种说法“在 UTF-8 中总是可以知道所处的位置，就是说给定一个字节，马上就能确定它是一个单字节字符、双字节字符的第一个字节、双字节字符的第二个字节，或者三字节/四字节字符的第二个、第三个或第四个字节”，这个是如何做到的？

比如三字节编码一般格式如下：
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx

第二个和第三个字节的格式一样，任意取出一个，怎么知道哪个是第二个，哪个是第三个？

只有看第1个字节才能判断长度，后面的跟随字节是看不出来的（前缀都是10）。

单字节编码前缀: 0
两字节编码前缀: 110
三字节编码前缀: 1110
四字节编码前缀: 11110
五字节编码前缀: 111110
六字节编码前缀: 1111110

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 23 / 3 页

返回列表

Chinaunix › 论坛 › 程序设计 › C/C++ › 为什么utf-8没有字节序问题？

为什么utf-8没有字节序问题？ [复制链接]

浏览过的版块