免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4632 | 回复: 5
打印 上一主题 下一主题

[文本处理] 如何匹配不可见字符(非tab空格回车) [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-05-16 12:09 |只看该作者 |倒序浏览
问题:
有个文件中有不可见字符,但不是tab、空格、回车等
我想把包含这些不可见字符的行过滤掉,怎么处理?

包含不可见字符的文件,见附件 tmp.rar (116 Bytes, 下载次数: 19)

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-08-24 06:20:00综合交流区版块每日发帖之星
日期:2015-10-14 06:20:00IT运维版块每日发帖之星
日期:2015-10-25 06:20:00IT运维版块每日发帖之星
日期:2015-11-06 06:20:00IT运维版块每日发帖之星
日期:2015-12-10 06:20:00平安夜徽章
日期:2015-12-26 00:06:302016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-04-15 06:20:00IT运维版块每日发帖之星
日期:2016-05-21 06:20:00综合交流区版块每日发帖之星
日期:2016-08-16 06:20:002015七夕节徽章
日期:2015-08-21 11:06:17IT运维版块每日发帖之星
日期:2015-08-14 06:20:00
2 [报告]
发表于 2014-05-16 12:56 |只看该作者
猜一下,应该是dos2unix吧

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
3 [报告]
发表于 2014-05-16 14:03 |只看该作者
回复 1# silentfly1987


    没见到什么奇怪的字符,就几个全角的空格嘛?

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
4 [报告]
发表于 2014-05-16 14:11 |只看该作者
本帖最后由 关阴月飞 于 2014-05-16 14:12 编辑

楼主这个坑挺大的:原文件编码是gb2312
先用iconv 转码,再用col命令过滤一下控制字符就OK, 具体用法都自己百度一下吧。
处理过程如下:
  1. [root@ awktest]# cat tmp




  2.   4ַ
  3. [root@ awktest]# file tmp
  4. tmp: ISO-8859 text
  5. [root@ awktest]# iconv -f gb2312 -t UTF8 tmp -o tmp2
  6. [root@ awktest]# cat tmp2
  7.        北京市
  8.        广州市
  9.        杭州市
  10.        上海市
  11.   4、地址
  12. [root@ awktest]# cat tmp2  -A
  13. M-cM-^@M-^@^IM-eM-^LM-^WM-dM-:M-,M-eM-8M-^B$
  14. M-cM-^@M-^@^IM-eM-9M-?M-eM-7M-^^M-eM-8M-^B$
  15. M-cM-^@M-^@^IM-fM-^]M--M-eM-7M-^^M-eM-8M-^B$
  16. M-cM-^@M-^@^IM-dM-8M-^JM-fM-5M-7M-eM-8M-^B$
  17. M-cM-^@M-^@M-cM-^@M-^@4M-cM-^@M-^AM-eM-^\M-0M-eM-^]M-^@$
  18. [root@ awktest]# col < tmp2 |cat -A
  19. ^IM-eM-^LM-^WM-dM-:M-,M-eM-8M-^B$
  20. ^IM-eM-9M-?M-eM-7M-^^M-eM-8M-^B$
  21. ^IM-fM-^]M--M-eM-7M-^^M-eM-8M-^B$
  22. ^IM-dM-8M-^JM-fM-5M-7M-eM-8M-^B$
  23.     4M-cM-^@M-^AM-eM-^\M-0M-eM-^]M-^@$
复制代码

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
5 [报告]
发表于 2014-05-16 14:17 |只看该作者
其实还有一个办法, 把所有的标准ASCII都取出来, 其它的无视它就好了.

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
6 [报告]
发表于 2014-05-16 16:59 |只看该作者
回复 4# 关阴月飞


    PF 威武..
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP