免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3352 | 回复: 1

[算法] 从Big52Unicode和GBK2Unicode说起。 [复制链接]

论坛徽章:
0
发表于 2009-11-20 21:42 |显示全部楼层
从Big52Unicode和GBK2Unicode说起。

本人一直在想,MultiByteToWideChar和WideCharToMultiByte,微软的这两个接口是如何组织映射表的?
有知道的朋友么?

GBK对应的Unicode编码区域:

GB2312兼容区       
        GBK/1:字符区        A1A1-A9FE
        GBK/2:汉字区        B0A1-F7FE
GBK扩充       
        GBK/5:字符区        A840-A9A0
        GBK/3:汉字区        8140-A0FE
        GBK/4:汉字区        AA40-FEA0

光问问题不好意思。顺便说一下吧。我知道的基本上有两种处理方式。
1.对照表简单按编码排序组织,然后用二分查找进行编码转换。
2.虽然编码是离散的,但局部是连续。于是又有,先定位在哪个离散区,然后直接定位。

想问一下,以上我说的这两种方法哪个好一些?1.省空间(貌似省不了多少),耗时长(不过二分也慢不了多少,一共大约22000个字,15次左右)  2.为了局部连续,会比方法一多存些无效映射。还要额外定义离散区的索引结构。

恩,其实我是想说:
1。这两种算法有没有流行的代码?给出链接?
2。除了这两种外,还有其他通用的做法么?
3。嗯,其实我是想知道微软是怎么实现的。

论坛徽章:
59
2015年亚洲杯之约旦
日期:2015-01-27 21:27:392015年亚洲杯之日本
日期:2015-02-06 22:09:41拜羊年徽章
日期:2015-03-03 16:15:432015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015元宵节徽章
日期:2015-03-06 15:50:392015年亚洲杯之阿联酋
日期:2015-03-19 17:39:302015年亚洲杯之中国
日期:2015-03-23 18:52:23巳蛇
日期:2014-12-14 22:44:03双子座
日期:2014-12-10 21:39:16处女座
日期:2014-12-02 08:03:17天蝎座
日期:2014-07-21 19:08:47
发表于 2009-11-22 11:53 |显示全部楼层
原帖由 hitraistlin 于 2009-11-20 21:42 发表
从Big52Unicode和GBK2Unicode说起。

本人一直在想,MultiByteToWideChar和WideCharToMultiByte,微软的这两个接口是如何组织映射表的?
有知道的朋友么?

GBK对应的Unicode编码区域:

GB2312兼容区       
...



直接做的表,用查表大法~~

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP