免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 24595249 | 回复: 24595249
打印 上一主题 下一主题

[文本处理] 求mac下文本处理 [复制链接]

论坛徽章:
1
2015元宵节徽章
日期:2015-03-06 15:51:33
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-05-02 01:22 |只看该作者 |倒序浏览
有个文本原样为

aaa  1  ccc  
aaa  2  ccc  
aaa  3  ccc  
aaa  4  ccc  
aaa  5  ccc  
aaa  6  ccc  
aaa  7  ddd
aaa  8  ddd

想得到的结果为,在检索到ddd时,将aaa替换成xxx,这一步处理后再在ccc最后一行后插入一行TER,
结果为

aaa  1  ccc  
aaa  2  ccc  
aaa  3  ccc  
aaa  4  ccc  
aaa  5  ccc  
aaa  6  ccc
TER
xxx  7  ddd
xxx  8  ddd

用shell是否可行?因为sed在mac下-i插入不好用,所以搞不定。是否python更方便?
求处理,谢谢大家,祝节日愉快

论坛徽章:
20
卯兔
日期:2015-01-26 22:05:142015亚冠之萨济拖拉机
日期:2015-09-10 15:15:282015亚冠之阿尔希拉尔
日期:2015-09-25 17:37:53程序设计版块每日发帖之星
日期:2015-10-03 06:20:00程序设计版块每日发帖之星
日期:2015-12-09 06:20:00CU十四周年纪念徽章
日期:2015-12-17 09:07:15程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:342015亚冠之广州富力
日期:2015-08-27 19:29:56每日论坛发贴之星
日期:2015-08-26 06:20:002015亚冠之阿尔希拉尔
日期:2015-05-18 17:26:27
2 [报告]
发表于 2015-05-02 01:35 |只看该作者
  1. awk 'FNR==NR{if($0~/ccc/)n=FNR;next}FNR==n{$0=$0"\nTER"}/ddd/{$1="xxx"}1' b.txt b.txt
  2. aaa  1  ccc  
  3. aaa  2  ccc  
  4. aaa  3  ccc  
  5. aaa  4  ccc  
  6. aaa  5  ccc  
  7. aaa  6  ccc  
  8. TER
  9. xxx 7 ddd
  10. xxx 8 ddd
复制代码

论坛徽章:
1
2015元宵节徽章
日期:2015-03-06 15:51:33
3 [报告]
发表于 2015-05-02 01:41 |只看该作者
回复 2# songyc_2015


    非常感谢,太牛了

论坛徽章:
1
2015元宵节徽章
日期:2015-03-06 15:51:33
4 [报告]
发表于 2015-05-02 02:17 |只看该作者
回复 2# songyc_2015


    还有个问题需要请教,字符串间距是否能设定呢?

比如我在将aaa替换成xxx后,后面所有内容想保持在原来位置,比如原来是
aaa  1   bbb  ccc       ddddd  ee
想替换成
xxx  1   bbb  ccc       ddddd  ee
而现在您的代码做出来是
xxx 1 bbb ccc ddddd ee

怎么能让后面字符串间距不动呢?

论坛徽章:
20
卯兔
日期:2015-01-26 22:05:142015亚冠之萨济拖拉机
日期:2015-09-10 15:15:282015亚冠之阿尔希拉尔
日期:2015-09-25 17:37:53程序设计版块每日发帖之星
日期:2015-10-03 06:20:00程序设计版块每日发帖之星
日期:2015-12-09 06:20:00CU十四周年纪念徽章
日期:2015-12-17 09:07:15程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:342015亚冠之广州富力
日期:2015-08-27 19:29:56每日论坛发贴之星
日期:2015-08-26 06:20:002015亚冠之阿尔希拉尔
日期:2015-05-18 17:26:27
5 [报告]
发表于 2015-05-02 10:01 |只看该作者
回复 4# angjzy
  1. awk 'FNR==NR{if($0~/ccc/)n=FNR;next}FNR==n{$0=$0"\nTER"}/ddd/{sub(/[^ ]+ /,"xxx ")}1' b.txt b.txt
复制代码
改成这样试试看

论坛徽章:
20
卯兔
日期:2015-01-26 22:05:142015亚冠之萨济拖拉机
日期:2015-09-10 15:15:282015亚冠之阿尔希拉尔
日期:2015-09-25 17:37:53程序设计版块每日发帖之星
日期:2015-10-03 06:20:00程序设计版块每日发帖之星
日期:2015-12-09 06:20:00CU十四周年纪念徽章
日期:2015-12-17 09:07:15程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:342015亚冠之广州富力
日期:2015-08-27 19:29:56每日论坛发贴之星
日期:2015-08-26 06:20:002015亚冠之阿尔希拉尔
日期:2015-05-18 17:26:27
6 [报告]
发表于 2015-05-02 10:04 |只看该作者
回复 1# angjzy
  1. sed -r ':a;$bb;N;/[^ ]*[ ]+[0-9]+[ ]+(ccc)[ ]*\n[^ ]*[ ]+[0-9]+[ ]+\1[ ]*$/ba;:b;s#\n([^\n]*)(\n[^\n]*)$#\n\1\nTER\n\2#;s#\n?[^ \n]+( [^\n]*ddd(\n|$))#xxx\1#g' b.txt
复制代码
写了个sed的,感觉比较繁琐,哪位大神可以帮忙优化下,或者有其他sed的方法?请不吝此教

论坛徽章:
1
2015元宵节徽章
日期:2015-03-06 15:51:33
7 [报告]
发表于 2015-05-02 18:01 |只看该作者
回复 6# songyc_2015


    sed这个太猛了,我看了半天有点蒙。。。

不过awk那个命令可以解决我的问题了。但是由于下一步function对文件格式要求太高,我又出现新的问题
现在原文本
aaa   1   bbb  ccc       ddddd  ee
已经可以替换成
xxx   1   bbb  ccc       ddddd  ee

如果想替换成
xxxxx 1   bbb  ccc       ddddd  ee
是否可行呢?

就是第一列前三个字符加2个空格的位置,替换成5个字符,其余内容不变。。。

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
8 [报告]
发表于 2015-05-02 23:58 |只看该作者
回复 7# angjzy

$ awk --re-interval '$4=="ddd"{if(!p)print "TER";p=1}p{sub(/^.{5}/,"xxxxx",$0)}1' FILE
aaa   1   bbb  ccc       ddddd  ee
aaa   2   bbb  ccc       ddddd  ee
aaa   3   bbb  ccc       ddddd  ee
aaa   4   bbb  ccc       ddddd  ee
aaa   5   bbb  ccc       ddddd  ee
aaa   6   bbb  ccc       ddddd  ee
TER
xxxxx 7   bbb  ddd       ddddd  ee
xxxxx 8   bbb  ddd       ddddd  ee

   

论坛徽章:
1
2015元宵节徽章
日期:2015-03-06 15:51:33
9 [报告]
发表于 2015-05-03 06:00 |只看该作者
回复 8# jason680


    非常感谢,综合两位的答案,最终拿到了我要的结果

论坛徽章:
28
2015年迎新春徽章
日期:2015-03-04 10:16:53午马
日期:2015-03-20 17:11:07亥猪
日期:2015-03-20 17:11:23戌狗
日期:2015-03-20 17:11:33酉鸡
日期:2015-03-20 17:11:47申猴
日期:2015-03-20 17:11:58未羊
日期:2015-03-20 17:12:10子鼠
日期:2015-03-20 17:12:23丑牛
日期:2015-03-20 17:12:40卯兔
日期:2015-03-20 17:12:51辰龙
日期:2015-03-20 17:13:00巳蛇
日期:2015-03-20 17:13:12
10 [报告]
发表于 2015-05-03 13:31 |只看该作者
  1. awk -vflag=1 '/ddd/&&flag{flag--;print "TER"}/ddd/{$1="xxx"}1' inputfile
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP