免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2661 | 回复: 17
打印 上一主题 下一主题

求助:处理文本 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-07-16 15:47 |只看该作者 |倒序浏览
5可用积分
对脚本不熟,我想查找一个字符串,然后取该字符串所在行的下一行的倒数几个字符。
满足条件的可能有多行。

举个例子 这个文本文件中有大量如下内容

xxxx yyyyy 部门:A 姓名:张三
这个人的工资是 2000

我的目的是把部门A中所有人的工资列出来,写到另一个文件中。


操作系统是hpux

[ 本帖最后由 cyf2003 于 2009-7-16 15:57 编辑 ]

最佳答案

查看完整内容

[ 本帖最后由 ywlscpl 于 2009-7-16 17:31 编辑 ]

论坛徽章:
0
2 [报告]
发表于 2009-07-16 15:47 |只看该作者
  1. awk -F '部门:|姓名:|年龄:|的工资是' '/部门:/&&$2~/A/{sub(/ +$/,"",$3);a[$3]}/的工资是/&&($1 in a){print $2+0}' file
复制代码

  1. [root@Mylinux tmp]# cat file
  2. xxxx yyyyy 部门:A 姓名:张三 年龄:22
  3. 张三的工资是 2000元
  4. zafasfxxx asdfasfas 部门:B 姓名:李四 年龄:33
  5. 李四的工资是 30000元

  6. 但是可能出现下面的情况:

  7. xxxx yyyyy 部门:A 姓名:张三 年龄:22
  8. zafasfxxx asdfasfas 部门:B 姓名:李四 年龄:33
  9. 张三的工资是 2000元
  10. 李四的工资是 30000元

  11. [root@Mylinux tmp]# awk -F '部门:|姓名:|年龄:|的工资是' '/部门:/&&$2~/A/{sub(/ +$/,"",$3);a[$3]}/的工资是/&&($1 in a){print $2+0}' file
  12. 2000
  13. 2000
复制代码

[ 本帖最后由 ywlscpl 于 2009-7-16 17:31 编辑 ]

论坛徽章:
0
3 [报告]
发表于 2009-07-16 15:49 |只看该作者
给点提示?

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
4 [报告]
发表于 2009-07-16 15:55 |只看该作者

回复 #1 cyf2003 的帖子

假设取3个字符:

sed -n '/yoursting/{n;s/.*\(...\)$/\1/p;}' urfile

论坛徽章:
0
5 [报告]
发表于 2009-07-16 15:56 |只看该作者
取倒数3个字符
awk '/字符串/{getline;print substr($0,length($0)-2)}' file

倒数4个就-3

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
6 [报告]
发表于 2009-07-16 16:05 |只看该作者

回复 #1 cyf2003 的帖子

LZ的意思应该是取第二行的第二个字段吧。

论坛徽章:
0
7 [报告]
发表于 2009-07-16 16:06 |只看该作者

  1. grep -Po '(?<=姓名:|这个人的工资是 )[^\n]*' URFILE | xargs -n 2
复制代码

论坛徽章:
0
8 [报告]
发表于 2009-07-16 16:08 |只看该作者
原帖由 ly5066113 于 2009-7-16 15:55 发表
假设取3个字符:

sed -n '/yoursting/{n;s/.*\(...\)$/\1/p;}' urfile


又学了一招,用...代表三个字符

论坛徽章:
0
9 [报告]
发表于 2009-07-16 16:10 |只看该作者
也可这样,针对提供的文本

awk '$NF~/名字/{getline;print $NF}' file

[ 本帖最后由 ywlscpl 于 2009-7-16 16:11 编辑 ]

论坛徽章:
0
10 [报告]
发表于 2009-07-16 16:42 |只看该作者
谢谢大家的回复。收益非浅。
我仔细看了一下这个文本文件,发现比我之前看到的要复杂点。

由于是多线程程序,所以写出来的日志,这2行未必是紧挨这写出来的,中间可能插入别的行。比如:

大部分日志应该是:

xxxx yyyyy 部门:A 姓名:张三 年龄:22
张三的工资是 2000元
zafasfxxx asdfasfas 部门:B 姓名:李四 年龄:33
李四的工资是 30000元

但是可能出现下面的情况:

xxxx yyyyy 部门:A 姓名:张三 年龄:22
zafasfxxx asdfasfas 部门:B 姓名:李四 年龄:33
张三的工资是 2000元
李四的工资是 30000元

所以原来的需求就不对了,也就是不能取接下来的第二行,而应该以某个关键字,比如姓名,来找到下面最近的一行,我想这个难度应该比较大了吧?

另外取倒数几个字符也不合理,因为数字有多有少,谢谢kwokcn的细心。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP