免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1994 | 回复: 6
打印 上一主题 下一主题

[文本处理] awk 引用配置文件进行匹配替换 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-11-14 09:57 |只看该作者 |倒序浏览
本帖最后由 skypeleo 于 2014-11-14 10:15 编辑

配置文件如下,格式可修改(比如filed3 可换成3  按照代码怎么容易写出怎么配置,  "心情,性格,姓名"只是注释)
word filed3 心情
word field5 性格
person field1 姓名

文本如下
你们 word 开心 活泼
我们 person 李四
我们 good


处理要求
这个文本2-4G
前两列固定格式,剩余的列有5个,根据配置文件顺序,放入相应列,没有的列用“”代替

处理的文本结果为
你们|word|""|""|开心|""|活泼
我们|person|李四|""|""|""|""
我们|good|""|""|""|""|""

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
2 [报告]
发表于 2014-11-14 10:10 |只看该作者
目测这是要实现人工智能啊!

需要判断出:
开心  --〉 心情
活泼  --〉 性格

论坛徽章:
0
3 [报告]
发表于 2014-11-14 10:14 |只看该作者
回复 2# ly5066113


不是哈,按配置文件顺序的  “开心,活泼”的行因为含有“word”,所以在配置文件找到了 于是“开心,活泼”直接按顺序对应了“field3,field5”


   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
4 [报告]
发表于 2014-11-14 10:15 |只看该作者
哪知道哪一列需要插入空格哦~

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
5 [报告]
发表于 2014-11-14 10:43 |只看该作者
本帖最后由 ly5066113 于 2014-11-14 10:44 编辑

回复 3# skypeleo


try:
  1. $ cat file1
  2. word 3 心情
  3. word 5 性格
  4. person 1 姓名
  5. $ cat file2
  6. 你们 word 开心 活泼
  7. 我们 person 李四
  8. 我们 good
  9. $ awk -vOFS=\| 'NR==FNR{a[$1]=a[$1]","$2;next}{delete b;for(i=3;i<=NF;i++)b[i]=$i;k=3;for(i=3;i<=7;i++)if(index(a[$2],i-2))$i=b[k++];else $i="\042\042"}1' file1 file2
  10. 你们|word|""|""|开心|""|活泼
  11. 我们|person|李四|""|""|""|""
  12. 我们|good|""|""|""|""|""
复制代码

论坛徽章:
0
6 [报告]
发表于 2014-11-14 11:06 |只看该作者
回复 5# ly5066113


    谢谢大神  NR==FNR{a[$1]=a[$1]","$2;next}  中    a[$1]=a[$1]","$2 是啥意思,为什么是这样表达的

论坛徽章:
0
7 [报告]
发表于 2014-11-14 11:37 |只看该作者
回复 5# ly5066113


明白了,应该是追加  变成,$2,$2,$2

   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP