免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4785 | 回复: 7
打印 上一主题 下一主题

[文本处理] [正则]如何用grep或sed表示不在[]范围内? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-09-12 11:24 |只看该作者 |倒序浏览
本帖最后由 peterdocter 于 2013-09-12 11:53 编辑

sed -nr "/[^a-zA-Z0-9:' \-\,]/p"
grep -e "[^a-zA-Z0-9:' \-\,]"
都有部分失败?
如出现了:
1080:ten-eighties
1080:ten-eighty
4-F:4-Fs
4-H:4-Her
4-H:4-H'er
4-H:4-H'ers
lobo:lobo-
Logo:logo-
Hasa:Hasa, Al-
S-M:S/M
able-bodied seaman:able-bodied seamen
这些按道理不出现才对。
这条正则用editplus又可以正则,真奇怪...
最终要取到是:
Bahā' Allāh:Baha' Allah
Bahā' Allāh:Bahaullah
béchamel:bechamel
béchamel:bechamels
bergère:bergere
bergère:bergeres
ā有这样的非正常英文字母的记录...

给出完整demo
diff4.rar (566.42 KB, 下载次数: 2)

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
2 [报告]
发表于 2013-09-12 11:30 |只看该作者
  1. grep -e "[^a-zA-Z0-9:' ,-]"
复制代码
减号需要放在最后面

论坛徽章:
0
3 [报告]
发表于 2013-09-12 11:35 |只看该作者
回复 2# Shell_HAT
多谢先,不过:
bergère:bergere
已经过滤掉:
è就是取到这样非正常英文字母记录

   

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
4 [报告]
发表于 2013-09-12 11:38 |只看该作者
回复 3# peterdocter


请把原始文本和你想得到的结果分别贴出来看看

论坛徽章:
5
未羊
日期:2014-08-04 16:15:21天秤座
日期:2014-08-13 13:52:372015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:112015亚冠之浦和红钻
日期:2015-06-29 15:30:48
5 [报告]
发表于 2013-09-12 11:45 |只看该作者
原文本发附件上来吧~~~要不瞎猫很难碰到死耗子

论坛徽章:
0
6 [报告]
发表于 2013-09-12 11:53 |只看该作者
回复 4# Shell_HAT

demo已经上载,而且要求也说明白了。多谢了!
   

论坛徽章:
5
未羊
日期:2014-08-04 16:15:21天秤座
日期:2014-08-13 13:52:372015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:112015亚冠之浦和红钻
日期:2015-06-29 15:30:48
7 [报告]
发表于 2013-09-12 16:35 |只看该作者
  1. LANG=C awk '/[^a-zA-Z0-9:'\'' ()_;/\-\,]/' diff4.txt
复制代码

论坛徽章:
0
8 [报告]
发表于 2013-09-16 10:38 |只看该作者
回复 7# dn833

多谢!实测可以行!
   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP