免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 6635 | 回复: 13
打印 上一主题 下一主题

如何用AWK截取复杂段落中的一段关键词? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2010-06-27 13:38 |只看该作者 |倒序浏览
文档结构是这样的:

  1. ...blabla...
  2. ... ...
  3. ...[这里不包含"keyword"字样,但可能包含各种符号]...keyword=aa11313vv13v123b",...
  4. .....
  5. ...后面的分隔符也可能是%号...keyword=21zv3313vv1v1b3k%"...keyword=......
  6. ...
复制代码
现在要截取第一个"keyword="之后,引号"或百分号%之前 的那段字串,即上面例子中的
aa11313vv13v123b
21zv3313vv1v1b3k


用awk有没有比较漂亮的办法可以实现?

论坛徽章:
0
2 [报告]
发表于 2010-06-27 15:05 |只看该作者
本帖最后由 lkk2003rty 于 2010-06-27 15:07 编辑
  1. awk -F '"|%' '{for(cnt=1;cnt<=NF;cnt++){if(pos=index($cnt,"keyword=")){print substr($cnt,pos+8);break;}}}' file
复制代码

论坛徽章:
0
3 [报告]
发表于 2010-06-27 15:38 |只看该作者
[root@Dan scripts]# more linux.173
...blabla...

... ...

...sdfsdfs%$%^%^&%^&*^&...keyword=aa11313vv13v123b",...

.....

..fsdfsdf3$#$#@$#@!$=keyword=21zv3313vv1v1b3k%"...keyword=......

...
[root@Dan scripts]# awk -F 'keyword=' '/key/{print substr($2,1,16)}' linux.173
aa11313vv13v123b
21zv3313vv1v1b3k

我发现你每次都是提取前16个字母~不知道是不是固定的

论坛徽章:
0
4 [报告]
发表于 2010-06-27 16:30 |只看该作者
lkk2003rty 发表于 2010-06-27 15:05
awk -F '"|%' '{for(cnt=1;cnt<=NF;cnt++){if(pos=index($cnt,"keyword="){print substr($cnt,pos+;break;}}}' file



   That's nice!

   只是含"keyword="的行比较长,比较复杂,有没更漂亮的办法可以避开循环,以提高效率?

论坛徽章:
0
5 [报告]
发表于 2010-06-27 16:31 |只看该作者
本帖最后由 Osirix 于 2010-06-27 18:53 编辑
[root@Dan scripts]# more linux.173
...blabla...

... ...

...sdfsdfs%$%^%^&%^&*^&...keyword=aa1 ...
iori809 发表于 2010-06-27 15:38



    有些是固定长度的

   另外,问一下:可以用中文字词作为分隔符麽?

论坛徽章:
0
6 [报告]
发表于 2010-06-27 16:44 |只看该作者
能否直接把行首到"keyword="的部分直接删除掉,然后print $1 就可以了
只是不知道在awk中该用什么命令?

sed中直接替换
sed -i "s/^.*keyword=//g"

就可以了

论坛徽章:
0
7 [报告]
发表于 2010-06-27 16:45 |只看该作者
回复 5# Osirix


    我的那个取巧的实现的需求了吗?

论坛徽章:
0
8 [报告]
发表于 2010-06-27 17:08 |只看该作者
有点复杂!

论坛徽章:
0
9 [报告]
发表于 2010-06-27 17:23 |只看该作者
回复  Osirix


    我的那个取巧的实现的需求了吗?
iori809 发表于 2010-06-27 16:45



   呵,是的,可以

  但是想提高效率,因为总共有十多万个文件需要处理

论坛徽章:
0
10 [报告]
发表于 2010-06-27 17:31 |只看该作者
能否直接把行首到"keyword="的部分直接删除掉,然后print $1 就可以了
只是不知道在awk中该用什么命令?
...
Osirix 发表于 2010-06-27 16:44



    我写了个sed的

  1. echo 'adad,keyword=aa11313vv13v123b",blabla' |sed -n '/keyword=/{s/^.*keyword=//;s/["%].*//g;p;q;}'
复制代码
但不晓得相应的awk语句该怎么写?

因为还需要进一步对抽取的值进行if判断,所以还得用awk
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP