对字符编码与unicode,ISO 10646,UCS,utf8,utf16,GBK,GB2312的理解 unicode: unicode.org制定的编码机制, 要将全世界常用文字都函括进去. 在1.0中是16位编码, 由U+0000到U+FFFF. 每个2byte码对应一个字符; 在2.0开始抛弃了16位限制, 原来的16位作为基本位平面, 另外增加了16个位平面, 相当于20位编码, 编码范围0到0x10FFFF. UCS: ISO制定的ISO10646标准所定义的 Universal Character Set, 采用4byte编码. unicode与UCS的关系: IS...
by gslsok - 网络技术文档中心 - 2008-04-19 15:18:53 阅读(1017) 回复(0)
unicode: unicode.org制定的编码机制, 要将全世界常用文字都函括进去. 在1.0中是16位编码, 由U+0000到U+FFFF. 每个2byte码对应一个字符; 在2.0开始抛弃了16位限制, 原来的16位作为基本位平面, 另外增加了16个位平面, 相当于20位编码, 编码范围0到0x10FFFF. UCS: ISO制定的ISO10646标准所定义的 Universal Character Set, 采用4byte编码. unicode与UCS的关系: ISO与unicode.org是两个不同的组织, 因此最初制定了不同的标准; 但自...
转自 Donews Blog [ http://www.donews.net ] ------------------------------- unicode: unicode.org制定的编码机制, 要将全世界常用文字都函括进去. 在1.0中是16位编码, 由U+0000到U+FFFF. 每个2byte码对应一个字符; 在2.0开始抛弃了16位限制, 原来的16位作为基本位平面, 另外增加了16个位平面, 相当于20位编码, 编码范围0到0x10FFFF. UCS: ISO制定的ISO10646标准所定义的 Universal Character Set, 采用4byte编码. unicode与UC...
转自: http://hi.baidu.com/_%E2d_%B7%B3_%DE%B2%C2%D2/blog/item/80ac6b4ed1b7cec1d0c86a3e.html unicode是unicode.org制定的编码标准,目前得到了绝大部分操作系统和编程语言的支持。unicode.org官方对unicode的定义是:unicode provides a unique number for everycharacter。可见,unicode所做的是为每个字符定义了一个相应的数字表示。比如,“a“的unicode值是0x0061, “一”的Unicde值是0x4E00,这是最简单的情况,每个...
gaim的代码里对MSN传输的文件名解码是用这个函数: file_name = g_utf16_to_utf8((const gunichar2 *)(bin + 20), -1,NULL, NULL, NULL); 因为我用不了GTK的库。所以我自己用的系统的如下:但是问题是我的函数解不成! GAIM 里的函数把传入的字符串变成了(const gunichar2 *)(bin + 20)类型gunichar2也就是u_int16。而iconv是char *类型。请问从utf16到utf8不能用char *类型吗?或者我写的不对?各位请帮忙多谢! static in...
gaim的代码里对MSN传输的文件名解码是用这个函数: file_name = g_utf16_to_utf8((const gunichar2 *)(bin + 20), -1,NULL, NULL, NULL); 因为我用不了GTK的库。所以我自己用的系统的如下:但是问题是我的函数解不成! GAIM 里的函数把传入的字符串变成了(const gunichar2 *)(bin + 20)类型gunichar2也就是u_int16。而iconv是char *类型。请问从utf16到utf8不能用char *类型吗?或者我写的不对?各位请帮忙多谢! static in...
我捕获到了MSN传送文件时的文件名字段,用BASE64编码的。但是BASE64解码之后还需要把他从utf16 解码到utf8.我自己写的utf16到utf8的函数解不开。请问各位有没有utf16 到utf8的函数可以给我一份?多谢! 我用的是库函数 iconv() 但是他的 传入字符串是 char*类型的。 而 GAIM源代码中用的GTK的库中g_utf16_to_utf8传入的是u_int16类型的。请问对utf16解码到utf8还与字节大小有关系吗?
参考网上的文章 http://tech.idv2.com/2008/02/21/unicode-intro/ 。 具体就不说了。就说我的经验。 1.对于中文来说utf8通常是3个字节存储。而utf16是2个字节存储,所以如果中文多的话还是utf16比较经济。而英文utf8是一个字节存储,所以如果英文多的话utf8比较经济。 2.java读取utf16比较简单,因为所有的字符都是两个字节的。 3. utf16分为BE和LE,用iconv转换的-t utf-16默认是utf-16BE,java里面转换的时候也是"utf-16"等同于"U...