免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3737 | 回复: 1

IDS11.5采用en_us.utf8,汉字存储占用问题? [复制链接]

论坛徽章:
0
发表于 2009-08-12 11:11 |显示全部楼层
5可用积分
IDS11.5采用en_us.utf8,汉字存储占用问题?
原来采用zh_cn.gb,一个汉字占两个英文字符位。
换成en_us.utf8后,变得有点古怪了。
char(2)的字段,插入一个“啊”或者其它汉字,显示出来是空的,将char(2)改为char(4),插入一个“啊”或者其它汉字,可以显示出来,插入两个“啊我”或者其它汉字,显示第一个汉字。
char(30)的字段,插入10个汉字可以全部显示出来,插入11-15个汉字,只能显示出前面10个汉字。
不明白,有谁碰到过,请指点,谢谢!

最佳答案

查看完整内容

UTF-8(8 位元 Universal Character Set/Unicode Transformation Format)是一种针对 Unicode 的可变长度字符编码。它可以用来表示 Unicode 标准中的任何字符,且其编码中的第一个字节仍与 ASCII 相容,这使得原来处理 ASCII 字符的软件无须或只须做少部份修改,即可继续使用。因此,它逐渐成为电子邮件、网页及其他储存或传送文字的应用中,优先采用的编码。UTF-8 使用一至四个字节为每个字符编码:1.128 个 US-ASCII 字符只需一 ...

论坛徽章:
0
发表于 2009-08-12 11:11 |显示全部楼层
UTF-8(8 位元 Universal Character Set/Unicode Transformation Format)是一种针对 Unicode 的可变长度字符编码。它可以用来表示 Unicode 标准中的任何字符,且其编码中的第一个字节仍与 ASCII 相容,这使得原来处理 ASCII 字符的软件无须或只须做少部份修改,即可继续使用。因此,它逐渐成为电子邮件、网页及其他储存或传送文字的应用中,优先采用的编码。

UTF-8 使用一至四个字节为每个字符编码:

1.128 个 US-ASCII 字符只需一个字节编码(Unicode 范围由 U+0000 至 U+007F)。
2.带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码(Unicode 范围由 U+0080 至 U+07FF)。
3.其他基本多文种平面(BMP)中的字符(这包含了大部分常用字)使用三个字节编码。
4.其他极少使用的 Unicode 辅助平面的字符使用四字节编码。

注意看第三条,汉字就属于第三条!
1个汉字的utf8=char(3)
所以: char(30)只能容纳30/3 10个汉字!

参考: http://zh.wikipedia.org/wiki/UTF-8
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP