免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 5328 | 回复: 4
打印 上一主题 下一主题

编译 UTF8 中文字符串的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-06-10 22:45 |只看该作者 |倒序浏览
如果在 c 字符串中包含 utf8 字符串, 则可能无法编译, 如下文件.

#include <stdio.h>

int main()
{
    char *  p = "开关";
    return 0;
}

如果是 utf8 格式,
则 gcc 编译器会告诉前几个字符错误, 即 UTF8 的文件格式无法识别.
   vc++ 报告 "开关" UTF8 字符串无结束错误,

如果直接用 gb2312 字符串则不会有问题,
不知大家有否直接编译 utf8 字符串的解决方案?

论坛徽章:
0
2 [报告]
发表于 2007-06-10 22:56 |只看该作者
经测试并不会出现你说的错误,不过你这问题我倒是想起一个可能。

因为UTF-8在保存时会有一个“BOM”的问题。也就是说文件开头有三个特殊的字符来标识这是一个UTF-8文件,大部分编辑器会知道并跳过它。但gcc 恐怕就不会了吧

所以只要您把文件开头那三字节清除就可以了。:)

因为 UTF-8 的编码很周到,高低位都能分出来,更不会去和单字节的token冲突了

论坛徽章:
0
3 [报告]
发表于 2007-06-11 09:02 |只看该作者
你不用微软的编辑器就行了。在linux下直接使用vi或者emacs编辑。

论坛徽章:
0
4 [报告]
发表于 2007-06-11 14:21 |只看该作者
给个思路:
用16进制码

论坛徽章:
0
5 [报告]
发表于 2007-06-11 14:47 |只看该作者
原帖由 hightman 于 2007-6-10 22:56 发表
经测试并不会出现你说的错误,不过你这问题我倒是想起一个可能。

因为UTF-8在保存时会有一个“BOM”的问题。也就是说文件开头有三个特殊的字符来标识这是一个UTF-8文件,大部分编辑器会知道并跳过它。但gcc 恐 ...

问一下:你指的“高低位”是什么?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP