免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4681 | 回复: 12
打印 上一主题 下一主题

匹配汉字问题发现特例 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-06-26 10:48 |只看该作者 |倒序浏览
按以前版主以前的办法是
echo '正常汉字'|LANG=C awk '/^[^[:print:]]+$/'
正常汉字

但发现一个特例
echo '贠'|LANG=C awk '/^[^[:print:]]+$/'

不能匹配!!



echo '贠'|od -tx1
da 4f

第二个字节4f  和字母O相同,所以正则不能匹配。

看来这个办法好像不能全部有效啊,有什么正则可以做到完全匹配汉字不会误判呢

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
2 [报告]
发表于 2009-06-26 10:53 |只看该作者

回复 #1 小渔儿 的帖子

汉字比较复杂,有很多这种“特殊”。应该要字处理才可能解决这个问题吧。试试perl

论坛徽章:
0
3 [报告]
发表于 2009-06-26 10:58 |只看该作者
黑哥有一揽子解决方案吗,perl不会,帮忙写个,感谢

论坛徽章:
9
2015亚冠之阿尔纳斯尔
日期:2015-09-10 16:21:162015亚冠之塔什干火车头
日期:2015-07-01 16:23:022015年亚洲杯之巴勒斯坦
日期:2015-04-20 17:19:46子鼠
日期:2014-11-13 09:51:26未羊
日期:2014-08-28 18:13:36技术图书徽章
日期:2014-02-21 09:30:15酉鸡
日期:2014-01-14 11:12:49天蝎座
日期:2013-12-09 17:56:53平安夜徽章
日期:2015-12-26 00:06:30
4 [报告]
发表于 2009-06-26 11:02 |只看该作者
^[\u2E80-\u9FFF]+$   
  匹配所有东亚区的语言   
  ^[\u4E00-\u9FFF]+$   
  匹配简体和繁体   
  ^[\u4E00-\u9FA5]+$   
  匹配简体

来自google

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
5 [报告]
发表于 2009-06-26 11:10 |只看该作者

回复 #3 小渔儿 的帖子

我不了解perl。Sorry,帮不上你。

我是在vim里面处理。

论坛徽章:
0
6 [报告]
发表于 2009-06-26 11:43 |只看该作者
4楼的那个什么工具支持,awk好像不行啊

黑哥能否告知在vim里面怎么处理,让大家学习一下。

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
7 [报告]
发表于 2009-06-26 11:49 |只看该作者

回复 #6 小渔儿 的帖子

上面是perl正则, 我测试的结果也有误报的情况。

vim中可以正确处理,缺点是——不能自动(至少需要你手动打开文件)处理。要看你具体要求了。

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
8 [报告]
发表于 2009-06-26 11:55 |只看该作者
比如,在vim中你正确执行在命令行上无法正确执行(据说有的环境可以正确执行,我的环境还不行)的命令:s/[贠刼]/O/g

你可以根据你的要求,将常用命令做个映射,要处理时一键完成。

美中不足的还是——它不是全自动的。

[ 本帖最后由 blackold 于 2009-6-26 11:58 编辑 ]

论坛徽章:
0
9 [报告]
发表于 2009-06-26 14:22 |只看该作者
明白感谢黑格的帮助

论坛徽章:
0
10 [报告]
发表于 2009-06-26 15:08 |只看该作者
原帖由 HH106 于 2009-6-26 11:02 发表
^[\u2E80-\u9FFF]+$   
  匹配所有东亚区的语言   
  ^[\u4E00-\u9FFF]+$   
  匹配简体和繁体   
  ^[\u4E00-\u9FA5]+$   
  匹配简体

来自google

什么字符集都一样么?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP