免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2126 | 回复: 4
打印 上一主题 下一主题

请问下如何判断一半汉字的情况? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-06-04 10:55 |只看该作者 |倒序浏览

网上有一个判断一个字符串中是否有汉字的函数:
  1. int includeChinese(char *str)
  2. {
  3.     char c;
  4.     while(1)
  5.     {
  6.         c = *str++;
  7.         if(c == 0)
  8.             break;
  9.         if(c & 0x80)
  10.             if(*str & 0x80)
  11.                 return 1; // there is hanzi
  12.     }
  13.     return 0; // default: none hanzi
  14. }
复制代码
如果,这时候有个字符串:thisnot差,条件是:现在只能取这个字符串中的8位,用这个函数来判断的时候,返回的就是0了,即判断不出它有汉字了,不好使了。
请问下,怎么能判断这个字符串的最后一个是汉字呢,就是只取了这个汉子中的一个字节?

论坛徽章:
2
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:11
2 [报告]
发表于 2012-06-04 11:10 |只看该作者
请注意,这要看文字的编码。不同的编码,判断过程不同。有的编码跟本不能快速区别,只能查表。

论坛徽章:
0
3 [报告]
发表于 2012-06-04 11:14 |只看该作者
请问下,如何知道系统用的什么编码?回复 2# cobras


   

论坛徽章:
2
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:11
4 [报告]
发表于 2012-06-04 11:18 |只看该作者
系统的编码可以切换。默认编码一般是这样:linux一般是utf-8,windows一般是本地编码。本地编码是根据不同的语言来确定的。如中文版一般是gb,gbk或者gb18060。

论坛徽章:
15
射手座
日期:2014-11-29 19:22:4915-16赛季CBA联赛之青岛
日期:2017-11-17 13:20:09黑曼巴
日期:2017-07-13 19:13:4715-16赛季CBA联赛之四川
日期:2017-02-07 21:08:572015年亚冠纪念徽章
日期:2015-11-06 12:31:58每日论坛发贴之星
日期:2015-08-04 06:20:00程序设计版块每日发帖之星
日期:2015-08-04 06:20:00程序设计版块每日发帖之星
日期:2015-07-12 22:20:002015亚冠之浦和红钻
日期:2015-07-08 10:10:132015亚冠之大阪钢巴
日期:2015-06-29 11:21:122015亚冠之广州恒大
日期:2015-05-22 21:55:412015年亚洲杯之伊朗
日期:2015-04-10 16:28:25
5 [报告]
发表于 2012-06-04 13:14 |只看该作者
十舍七匹狼 发表于 2012-06-04 10:55

网上有一个判断一个字符串中是否有汉字的函数:如果,这时候有个字符串:thisnot差,条件是:现在只能取 ...

如下程序用于判断GBK汉字
  1. /************************************************************************/
  2. #include <ctype.h>
  3. #include <strproc.h>

  4. /*function:iscc 判断是否是汉字*/
  5. int iscc(unsigned char ch)
  6. {
  7.         return (ch >= 0x81 && ch < 0xff);
  8. }
  9. /*function:cc1 取汉字的一个字节*/
  10. static int cc1(unsigned char *bp,unsigned char *bufp)
  11. {
  12.         register unsigned char *p;
  13.         register int i = 0;
  14.         for(p = bufp; iscc(*p); p--)
  15.         {
  16.                 i++;
  17.                 if(p <= bp)
  18.                         break;
  19.         }
  20.         return (i & 1);
  21. }
  22. /*function:firstcc 汉字的第一个字节*/
  23. int firstcc(unsigned char *bp,unsigned char *bufp)
  24. {
  25.         if(!bufp || !(*bufp) || (bufp < bp) || !iscc(*bufp))
  26.                 return 0;
  27.         return (cc1(bp, bufp));
  28. }
  29. /*function:secondcc 汉字的第二个字节*/
  30. int secondcc(unsigned char *bp,unsigned char *bufp)
  31. {
  32.         if(!firstcc(bp, bufp-1))
  33.                 return 0;
  34.         if(*bufp == 0x7f)
  35.                 return 0;
  36.         if((*bufp >= 0x40) && (*bufp <= 0xfe))
  37.                 return 1;
  38.         return 0;
  39. }
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP