免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2741 | 回复: 3
打印 上一主题 下一主题

祝cu里所有使用山寨版百度的同志们牛年大吉!牛气冲天!顺便问个字符编码的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-01-27 11:36 |只看该作者 |倒序浏览
5可用积分
山寨版百度(嘿咻一下,你就知道:http://www.54chen.com/0/%E5%98%BF%E5%92%BB)从开发到广为传播已经过去了一年了,在这一年里,看到越来越多的朋友来到此地,大家的目的都只有一个:充分发扬互联网的DIY精神。

新年到来之际,小弟在此祝大家牛年大吉!牛气冲天!

牛一下,你就知道:http://www.54chen.com/0/%E7%89%9B%E4%BA%BA

还没用过的网友,移步http://www.54chen.com/goingdown查看说明文档。

在这个应用中我遇到一个问题,就是如何判断一个字符串是u码还是gbk码,不知道有没有老手有相关的经验,因为在长句的时候还好说,但是只有一两个字的时候,根本没有办法判断,有没有世外高人指点一下迷津?
1.要是你想告诉我 http://w3.org/International/questions/qa-forms-utf-8.html的正则表达示,那不用了,那个缺很多。
2.要是你想告诉我用php的 http://cn2.php.net/manual/en/function.mb-detect-encoding.php mb_detect_encoding函数,也不用了,也有不少是判断错误的。
3.有个好朋友用u8转u16再转u8来对比,这个方法相对要靠谱了,不过很遗憾的是少数单字也是搞不定的,像“牛”字,他的u和gbk的编码最前面是重复的。
还有什么好招呢???哪位大侠分析分析~~

最佳答案

查看完整内容

广告贴啊....不过我还是说一下编码, 这是无法完全准确区分的, 只能依据特征模糊判断, 原因很简单有重码(也就是有冲突,同样的字节序列在不同的编码约定里代表不同的字符).[ 本帖最后由 hightman 于 2009-1-27 15:06 编辑 ]

论坛徽章:
0
2 [报告]
发表于 2009-01-27 11:36 |只看该作者
广告贴啊....

不过我还是说一下编码, 这是无法完全准确区分的, 只能依据特征模糊判断, 原因很简单有重码(也就是有冲突,同样的字节序列在不同的编码约定里代表不同的字符).

[ 本帖最后由 hightman 于 2009-1-27 15:06 编辑 ]

论坛徽章:
0
3 [报告]
发表于 2009-01-28 00:47 |只看该作者
多谢版主啊,可还是不能解决问题.

论坛徽章:
0
4 [报告]
发表于 2009-02-02 17:41 |只看该作者
没解决,你怎么就标成已解决了?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP