免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1056 | 回复: 0
打印 上一主题 下一主题

关于汉字编码 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2006-01-04 17:23 |只看该作者 |倒序浏览
关于汉字编码

                       
[color="#336699"]关于汉字编码
    所谓编码,是以固定的顺序排列字符,并以此做为记录、存贮、传递、交换的统一内部特征,这个字符排列顺序被称为“编码”。
    字库的编码是字库组织的依据,也是文字处理的基础。不同国家和地区有不同的编码标准,和中文字库有关的常见编码有:
[color="#1f38c9"]单字节编码

[color="#1f38c9"]GB2312-80

[color="#1f38c9"]GB12345-90

[color="#1f38c9"]GBK

[color="#1f38c9"]Unicode编码

[color="#1f38c9"]ISO10646 / Unicode字符集

[color="#1f38c9"]GB18030-2000

[color="#1f38c9"]BIG5编码
,下面简要介绍一下:

    [color="#336699"]单字节编码
      • MS Windows:Windows Latin 1(ANSI)
      • MS-DOS:MS-DOS Latin US
      • Macintosh:Macintosh Roman


[color="#336699"]GB2312-80
   
全称是GB2312-80《信息交换用汉字编码字符集
基本集》,1980年发布,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。P-
Windows3.2和苹果OS就是以GB2312为基本汉字编码, Windows 95/98则以GBK为基本汉字编码、但兼容支持GB2312。

      • 双字节编码
      • 范围:A1A1~FEFE
      • A1-A9:符号区,包含682个符号
      • B0-F7:汉字区,包含6763个汉字


     GB码共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排序,二级字3008,以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。
[color="#336699"]GB12345-90
   1990
年制定了繁体字的编码标准GB12345-90《信息交换用汉字编码字符集
第一辅助集》,目的在于规范必须使用繁体字的各种场合,以及古籍整理等。该标准共收录6866个汉字(比GB2312多103个字,其它厂商的字库大多不
包括这些字),纯繁体的字大概有2200余个。

      • 双字节编码
      • 范围:A1A1~FEFE
      • A1-A9:符号区,增加竖排符号
      • B0-F9:汉字区,包含6866个汉字


[color="#336699"]Unicode编码(Universal Multiple Octet Coded Character Set)
   
国际标准组织于1984年4月成立ISO/IEC
JTC1/SC2/WG2工作组,针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode
Consortium,并于1991年10月与WG2达成协议,采用同一编码字集。目前Unicode是采用16位编码体系,其字符集内容与
ISO10646的BMP(Basic Multilingual Plane)相同。Unicode于1992年6月通过DIS(Draf
International
Standard),目前版本V2.0于1996公布,内容包含符号6811个,汉字20902个,韩文拼音11172个,造字区6400个,保留
20249个,共计65534个。
[color="#336699"]ISO10646 / Unicode字符集
全球可以共享的编码字符集。

      • UCS-4:组八位 平面八位 行八位 字位八位
      • UCS-2:00组中的00平面是基本多文种平面(BMP),4E00~9FFF 中日韩文字
      • Ext A(CJK):3400~4DB7,共6584字
      • Ext B(CJK):42,807个汉字,在第2平面的0100~A836


[color="#336699"]GBK编码(Chinese Internal Code Specification)

   GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。GBK工作小组于1995年10月,同年
12月完成GBK规范。该编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。
Windows95/98简体中文版的字库表层编码就采用的是GBK,通过GBK与UCS之间一一对应的码表与底层字库联系。

      • 英文名:Chinese Internal Code Specification
      • 中文名:汉字内码扩展规范1.0版
      • 双字节编码,GB2312-80的扩充,在码位上和GB2312-80兼容
      • 范围:8140~FEFE(剔除xx7F)共23940个码位
      • 包含21003个汉字,包含了ISO/IEC 10646-1中的全部中日韩汉字


[color="#336699"]GB18030-2000

      • 英文名:Chinese Internal Code Specification
      • 中文名:信息技术 信息交换用汉字编码字符集
      • 基本集的扩充( 2000-03-17发布和实施)
      • 单字节、双字节、四字节编码
      • 向下与国家标准GB 2312信息处理交换码所对应的事实上的内码标准兼容。
      • 在字汇上支持GB 13000.1的全部中、日、韩(CJK)统一汉字字符和全部CJK统一汉字扩充A的字符。


[color="#336699"]BIG5编码
    是目前台湾、香港地区普遍使用的一种繁体汉字的编码标准,包括440个符号,一级汉字5401个、二级汉字7652个,共计13060个汉字。
               
               
               

本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u/12695/showart_65315.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP