免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1205 | 回复: 0

计算机编码学习总结 [复制链接]

论坛徽章:
0
发表于 2008-10-06 20:29 |显示全部楼层
1、编码:根据一定的协议或格式把模拟信息转换成比特流的过程。
2、常见的汉字编码体系:
   a、ASCII码:ASCII是“美国标准信息交换编码”的英文字头缩写,用从0到127的128个数字来代表信息的规范编码,其中包括33个控制码,一个空格码,和94个形象码。计算机中的文件分文本文件和二进制文件两种。
   b、区位码:国标表(基本表)把七千余汉字、以及标点符号、外文字母等,排成一个94行、94列的方阵。方阵中每一横行叫一个“区”,每个区有九十四个“位”。一个汉字在方阵中的坐标,称为该字的“区位码”。
   c、国标码:由于美标形象符的编码是从33到126,汉字区、位码如果各加上32,就会与美标形象码的范围重合。这两个数字(区+32,位+32)的十六进制放在一起称为该字的“国标码”,而与其相对应的两个美标符号称为国标符。
   d、GBK:扩展国标码(GBK为拼音首字母)。对多达2万多的简繁汉字进行了编码,简体版的Win95和Win98都是使用GBK作系统内码。GBK向下与GB-2312编码兼容,向上支持ISO 10646.1国际标准,是前者向后者过渡的一个承启标准。
   e、BIG5:BIG5码是针对繁体汉字的汉字编码,目前在台湾、香港的电脑系统中得到普遍应用。
   f、HZ:是在Internet上广泛使用的一种汉字编码。“HZ”方案的特点,是以“纯国标”的中文与美标码混用。当一串美标码中间插入一段国标码的时候,我们便在国标码的前面加上~,后面加上~。和大部分英文文本处理软件兼容。
3、常见国际编码:
   a、ISO 10646:定义了一个 31 位的字符集。 然而, 在这巨大的编码空间中, 迄今为止只分配了前 65534 个码位。这个UCS的16位子集称为基本多语言面 (Basic Multilingual Plane, BMP)。 将被编码在16位BMP以外的字符都属于非常特殊的字符(比如象形文字), 且只有专家在历史和科学领域里才会用到它们。
   b、Unicode其实就是宽字节字符集,它对每个字符都固定使用两个字节即16位表示,于是当处理字符时,不必担心只处理半个字符。 目前,Unicode在网络、Windows系统和很多大型软件中得到应用。
4、Linux下利用iconv命令进行编码转换。
   iconv [选项] [文件名]
   选项:-f(--from-code) 原始编码名称
        -t(--to-code) 输出编码名称
        -l(--list) 列出所有已知字符集
        -c  从输出中忽略无效的字符
        -o(--output) Filename 输出到文件
        -s(--silent) 关闭警告
        --verbose 打印进度信息
        -?(--help)
        --usage 给出简要的用法信息
        -v(--version) 版本信息

本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u2/75431/showart_1274128.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP