免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3269 | 回复: 18
打印 上一主题 下一主题

[文本处理] 行中引号部分去掉文件路径问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-11-28 19:31 |只看该作者 |倒序浏览
输入:
  1. cat conf.txt
  2. input_files = "one/file_1 one/two/three/file_2 one/two/four/five/file_3 file_4"
  3. output_files = "xxx/file_1 xxx/two/three/file_2 xxx/two/four/five/file_3 file_4"
复制代码
目标是:
  1. cat conf.txt
  2. input_files = "file_1 file_2 file_3 file_4"
  3. output_files = "file_1 file_2 file_3 file_4"
复制代码
怎么做呢?
很复杂的样子

论坛徽章:
3
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:51:162015年亚洲杯之阿曼
日期:2015-04-07 20:00:59
2 [报告]
发表于 2012-11-28 22:57 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
5
未羊
日期:2014-08-04 16:15:21天秤座
日期:2014-08-13 13:52:372015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:56:112015亚冠之浦和红钻
日期:2015-06-29 15:30:48
3 [报告]
发表于 2012-11-29 09:10 |只看该作者
  1. awk '{for(i=3;i<=NF;i++)gsub(/[^"].*\//,"",$i);print $0}'
复制代码

论坛徽章:
8
双子座
日期:2013-08-31 07:37:12金牛座
日期:2013-09-09 18:49:12处女座
日期:2013-09-23 11:43:14处女座
日期:2013-10-09 19:48:21狮子座
日期:2014-03-24 18:22:12丑牛
日期:2014-04-22 22:07:51申猴
日期:2014-06-12 21:54:13双鱼座
日期:2014-06-13 21:52:31
4 [报告]
发表于 2012-11-29 10:07 |只看该作者
版主,共享一下思路呗?回复 2# zooyo


   

论坛徽章:
3
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:51:162015年亚洲杯之阿曼
日期:2015-04-07 20:00:59
5 [报告]
发表于 2012-11-29 11:04 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
6 [报告]
发表于 2012-11-29 11:04 |只看该作者
本帖最后由 qq312873977 于 2012-11-29 11:09 编辑
  1. sed 's#[a-zA-Z0-9_/]\+/\(\w\+\)#\1#g' file
复制代码
怎么简化?

论坛徽章:
0
7 [报告]
发表于 2012-11-29 13:54 |只看该作者
  1. sed 's/[a-z]*\///g' file
复制代码
貌似这样就可以了

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
8 [报告]
发表于 2012-11-29 14:27 |只看该作者
你那样不严谨
  1. sed 's/\w*\///g' file
复制代码
回复 7# ljwd1000


   

论坛徽章:
0
9 [报告]
发表于 2012-11-29 19:37 |只看该作者
#!/usr/bin/perl

$_='input_files = "one/file_1 one/two/three/file_2 one/two/four/five/file_3 file_4"';

s|(\w+/)+(?=(\w+) )||g;
print;

论坛徽章:
0
10 [报告]
发表于 2012-11-29 20:10 |只看该作者
回复 2# zooyo
不太好懂啊,我得系统学习一下sed了。
试着解释一下:
sed -r ':1 s#\w+/(\S+)#\1#;t1' file
其中 -r 表示使用扩展正则表达式;
:1是声明标签,t1是有条件使用标签,前一句命令成功则执行跳转(到声明位置)。
#是代替/的分隔符,因为目录中用到了/
s#\w+/(\S+)#\1#
就是把匹配 \w+/(\S+) 的串替换成\1,
\1是反向引用,表示捕获的第一组,匹配括号里的内容。
\S的意思是匹配任意非空字符,加号表示一个以及以上。
这一个替换语句的意思就是匹配到一个单词后跟一个斜线,在后面是多于一个非空字符,则替换为斜线后的内容。
由标签构成循环。
变化过程是这样的:
input_files = "one/file_1 one/two/three/file_2 one/two/four/five/file_3 file_4"
匹配到one/file_1,替换为file_1
input_files = "file_1 one/two/three/file_2 one/two/four/five/file_3 file_4"
匹配到one/two/three/file_2替换为two/three/file_2
input_files = "file_1 two/three/file_2 one/two/four/five/file_3 file_4"
匹配到two/three/file_2,替换为three/file_2
input_files = "file_1 three/file_2 one/two/four/five/file_3 file_4"   
依此类推。。。。。。直至匹配不到

有解释不到的地方,请指出啊
(该好好学学正则了)
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP