免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 15201 | 回复: 9
打印 上一主题 下一主题

[C] c语言中文字符串问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-07-31 18:28 |只看该作者 |倒序浏览

  1. #include <stdio.h>
  2. #include <string.h>

  3. int main(void)
  4. {
  5.     char* b = "斜杠";
  6.     printf("b=%s, sizeof(b)=%d, strlen(b)=%d\n", b, sizeof(b), strlen(b));
  7. }
复制代码
输出结果是:
  1. b=斜杠, sizeof(b)=4, strlen(b)=6
复制代码
我想问char不是一个字节么?打印b的时候能够正常输出“斜杠”,另外为什么sizeof(b)是4,儿strlen(b)是6?
我系统的默认编码格式是utf-8

谢谢

论坛徽章:
0
2 [报告]
发表于 2012-07-31 18:43 |只看该作者
b为字符指针,sizeof(b) 求的是指针的大小。
strlen(b) 得出的是字符串起始处至字符串结束符'\0'(不包括'\0')所占空间大小

论坛徽章:
15
射手座
日期:2014-11-29 19:22:4915-16赛季CBA联赛之青岛
日期:2017-11-17 13:20:09黑曼巴
日期:2017-07-13 19:13:4715-16赛季CBA联赛之四川
日期:2017-02-07 21:08:572015年亚冠纪念徽章
日期:2015-11-06 12:31:58每日论坛发贴之星
日期:2015-08-04 06:20:00程序设计版块每日发帖之星
日期:2015-08-04 06:20:00程序设计版块每日发帖之星
日期:2015-07-12 22:20:002015亚冠之浦和红钻
日期:2015-07-08 10:10:132015亚冠之大阪钢巴
日期:2015-06-29 11:21:122015亚冠之广州恒大
日期:2015-05-22 21:55:412015年亚洲杯之伊朗
日期:2015-04-10 16:28:25
3 [报告]
发表于 2012-07-31 20:49 |只看该作者
回复 2# Moon_Bird


   

他可能是UTF8,所以6字节,如果是GBK应该是4字节。

论坛徽章:
0
4 [报告]
发表于 2012-07-31 21:10 |只看该作者
yulihua49 发表于 2012-07-31 20:49
回复 2# Moon_Bird

恩 应该是编码问题, 没注意到前面那问题,习惯性的以为是问 sizeof strlen值不等的问题

论坛徽章:
0
5 [报告]
发表于 2012-08-01 09:23 |只看该作者
如果char*都能正常显示中文字符串的话,那什么时候用wchar_t*呢?

论坛徽章:
0
6 [报告]
发表于 2012-08-01 11:01 |只看该作者
回复 5# laughing1986

当编码环境为Unicode时候,就必须用宽字符指针wchar*指向一个字符串,同时字符串之前加L

所以为了移植性,一般用宏 _T 以及 定义_T相关的字符处理函数 来区分SBCS (_MBCS) 和 _Unicode 的不同编码方式

论坛徽章:
0
7 [报告]
发表于 2012-08-01 17:23 |只看该作者
我从网络中接收到一段utf8编码的中文,我在我的系统上可以直接打印出来,那是不是因为我系统的默认编码是utf8呢?
如果其他系统默认编码不是utf8,是不是就会显示乱码呢?
另外,如何指定程序只是用utf8编码呢?

谢谢

xuhengshu 发表于 2012-08-01 11:01
回复 5# laughing1986

当编码环境为Unicode时候,就必须用宽字符指针wchar*指向一个字符串,同时字符串 ...

论坛徽章:
0
8 [报告]
发表于 2012-08-02 12:37 |只看该作者
     b是一个指针, 32为系统指针都为4字节。 所以你sizeof一个指针结果当然是4.
     strlen(b),是指求  指针b 所指向的字符串的有效字符长度。其意义就是不算‘\0’, 在utf-8编码中一个中文是3个字节。Linux系统下也是这样。所以你两个汉字自然就是6.
     

论坛徽章:
59
2015年亚洲杯之约旦
日期:2015-01-27 21:27:392015年亚洲杯之日本
日期:2015-02-06 22:09:41拜羊年徽章
日期:2015-03-03 16:15:432015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015元宵节徽章
日期:2015-03-06 15:50:392015年亚洲杯之阿联酋
日期:2015-03-19 17:39:302015年亚洲杯之中国
日期:2015-03-23 18:52:23巳蛇
日期:2014-12-14 22:44:03双子座
日期:2014-12-10 21:39:16处女座
日期:2014-12-02 08:03:17天蝎座
日期:2014-07-21 19:08:47
9 [报告]
发表于 2012-08-02 13:31 |只看该作者
@laughing1986
>> 如果char*都能正常显示中文字符串的话,那什么时候用wchar_t*呢?
<< utf8 is mbcs,not a wide char

>>我从网络中接收到一段utf8编码的中文,我在我的系统上可以直接打印出来,那是不是因为我系统的默认编码是utf8呢?
如果其他系统默认编码不是utf8,是不是就会显示乱码呢?
  << in may case ,yes.
>> 如何指定程序只是用utf8编码呢?
<< you can't. if the program is not provide a way to do that.

@Ace_kream
>>在utf-8编码中一个中文是3个字节
<< i think it is 1~6(?).

论坛徽章:
0
10 [报告]
发表于 2012-08-02 15:44 |只看该作者
明白了,wchar_t是表示一个字符占两个字节,utf-8是一种编码方式,一个中文可能被编成多个字节,是我自己搞混了,用char*来表示中文字符串是可以的。
十分感谢给位的指点。
另外utf8编码下的中文貌似占2~4个字节,不是固定的3个。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP