免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 14014 | 回复: 4
打印 上一主题 下一主题

请教匹配中文标点的正则表达式 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-09-30 04:03 |只看该作者 |倒序浏览
请教一个正则表达式:
我要从下面的哈希中删除含有逗号和句号的项,这里的逗号和句号都是中文状态下的.

my %grades = {"%的" =>"599","(S"=>"101",")的"=>"131","/美"=>"147","分钟的"=>"100","分钟,"=>"459","功能"=>"1643","功能。"=>"108",};

即结果是:
my %grades = {"%的" =>"599","(S"=>"101",")的"=>"131","/美"=>"147","分钟的"=>"100","功能"=>"1643",};

先谢谢了!

论坛徽章:
0
2 [报告]
发表于 2007-09-30 16:00 |只看该作者
my %grades = (
    "%的" =>"599",
    "(S"=>"101",
    ")的"=>"131",
    "/美"=>"147",
    "分钟的"=>"100",
    "分钟,"=>"459",
    "功能"=>"1643",
    "功能。"=>"108",
);

foreach (keys %grades) {
    delete $grades{$_} if ($_ =~ /|/);
}

foreach (sort keys %grades) {
    print "$_ => $grades{$_}\n";
};


[ 本帖最后由 Lonki 于 2007-9-30 22:22 编辑 ]

论坛徽章:
0
3 [报告]
发表于 2007-09-30 21:44 |只看该作者

灵啊!多谢!

多谢了!简单实用!
我把[]里的中文标点换成中文文字,结果好象不对了,不知是为什么?请高手再看看,谢了!
my %grades = (
    "%的" =>"599",
    "(S"=>"101",
    ")的"=>"131",
    "/美"=>"147",
    "分钟的"=>"100",
    "分钟,"=>"459",
    "功能"=>"1643",
    "功能。"=>"108",
);

foreach (keys %grades) {
    delete $grades{$_} if ($_ =~ /[的]/);
}

foreach (sort keys %grades) {
    print "$_ => $grades{$_}\n";
};
运行结果是:
(S => 101
/美 => 147
分钟, => 459

最后两项没有了。

论坛徽章:
0
4 [报告]
发表于 2007-09-30 22:21 |只看该作者
原帖由 rain_little 于 2007-9-30 21:44 发表
多谢了!简单实用!
我把[]里的中文标点换成中文文字,结果好象不对了,不知是为什么?请高手再看看,谢了!
my %grades = (
    "%的" =>"599",
    "(S"=>"101",
    ")的"=>"131",
    "/美"=>"147",
...



恩, 这个问题非常好.

默认情况下, perl将中文当作双字节处理(即双字符)
[的]其实是过滤了包含组成'的'字的2个字符.
假设'的'字由ab字符顺序组成, [的]将过滤ab, ba, ac, bc等等

所以应该写成=~ /的/;
如果有多个中文, 用=~/的|,|./;

或者指定utf8编码.

论坛徽章:
0
5 [报告]
发表于 2007-10-01 17:03 |只看该作者

这下明白了!

多谢耐心讲解,现在算是明白了,以前总觉得自己的正则和人家的差不多,可就是运行不对,不知道问题在哪里,这下豁然开朗了!
高!高!
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP