免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1187 | 回复: 4

[文本处理] awk多文本 不同FS的疑问 [复制链接]

论坛徽章:
0
发表于 2019-03-23 23:46 |显示全部楼层
本帖最后由 jzsjm1002 于 2019-03-24 12:09 编辑

文件a00.xml
100020:160908:0
300006:2141624:254
300009:37273:0
300024:7879674:3307
300025:746151:596
300026:341735:0
300027:2151826:0
300028:429171:0
300029:516083:0
300030:11755071:0

文件b00.xml
100020 160908 0
300006 2141624 0
300009 37273 0
300024 7879674 0
300025 746151 0
300026 341735 0
300027 2151826 0
300028 429171 0
300029 516083 0
300030 11755071 0

b00.xml文件对a00.xml进行校验
a00.xml $3不为0 取$3的值 代替b00x.xml $3的值
想要得结果

100020:160908:0
300006:2141624:254
300009:37273:0
300024:7879674:3307
300025:746151:596
300026:341735:0
300027:2151826:0
300028:429171:0
300029:516083:0
300030:11755071:0

脚本如下:
  1. [root@vh100 awk]# cat test.awk
  2. #!/usr/bin/awk -f
  3. #

  4. BEGIN{
  5.   OFS=SUBSEP=":"
  6. }

  7. FILENAME=="a00.xml"{
  8.   FS=":"
  9.   a[$1,$2]=$3
  10. }

  11. FILENAME=="b00.xml"{
  12.   FS=" "
  13.   c[++j]=$1":"$2
  14. }

  15. END{
  16.   for(i=0;++i<=j;)
  17.     print c[i],a[c[i]]
  18. }

  19. [root@vh100 awk]# ./test.awk a00.xml b00.xml
  20. 100020 160908 0::                        # <-- 为什么首行输出 间隔:会在后面
  21. 300006:2141624:254
  22. 300009:37273:0
  23. 300024:7879674:3307
  24. 300025:746151:596
  25. 300026:341735:0
  26. 300027:2151826:0
  27. 300028:429171:0
  28. 300029:516083:0
  29. 300030:11755071:0
复制代码

awk版本: GNU Awk 4.0.2
有没有大神帮忙解答一下 感谢!

论坛徽章:
7
2016科比退役纪念章
日期:2018-10-24 08:24:0115-16赛季CBA联赛之北控
日期:2019-03-12 14:34:562016科比退役纪念章
日期:2019-04-01 10:33:0915-16赛季CBA联赛之山东
日期:2019-04-17 12:46:3215-16赛季CBA联赛之广夏
日期:2019-05-09 16:40:4015-16赛季CBA联赛之广夏
日期:2019-10-10 15:33:4015-16赛季CBA联赛之辽宁
日期:2019-10-15 08:37:06
发表于 2019-03-25 09:25 |显示全部楼层
你在指令里面更改FS 对第一行来说已经来不及了,此时第一行已经读入了,是按系统默认的FS,这里改只会影响到后面的行。所以第一行结果就不是你想要的了。
具体来说,
读到第二个文件时,前面改了FS=“:",$1=100020 160908 0    ,$2空
c[1]=100020 160908 0:
a[100020 160908 0:] 空
所以第一行打印100020 160908 0::   (加一个OFS)

论坛徽章:
0
发表于 2019-03-25 10:06 |显示全部楼层
回复 2# cfwyy

非常感谢!~

论坛徽章:
0
发表于 2019-03-25 16:44 |显示全部楼层
  1. $a = Import-Csv -Delimiter ':' -LiteralPath a:\pscode\TEMP_2019\temp137\aaa.xml -Header 'a1','a2','a3'
  2. $b = Import-Csv -Delimiter ' ' -LiteralPath a:\pscode\TEMP_2019\temp137\bbb.xml -Header 'b1','b2','b3'
  3. for ($i = 0; $i -lt $a.length; $i++)
  4. {
  5.         if ($a[$i].a3 -ne 0)
  6.         {
  7.                 $b[$i].b3 = $a[$i].a3
  8.         }
  9. }

  10. $b | export-csv -LiteralPath 'a:\pscode\TEMP_2019\temp137\ccc.xml' -NoTypeInformation
复制代码


快使用ps1       哼哼哈嘿
现在练ps1      『强』『简』死你
ps1好能耐       win,linux,运维脚本不败
屠龙刀手中提    win,linux,系统管理无敌

论坛徽章:
0
发表于 2019-03-25 17:05 |显示全部楼层
回复 4# 本友会机友会摄友会

感谢
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

DTCC2020中国数据库技术大会 限时8.5折

【架构革新 高效可控】2020年6月4日~6日第十一届中国数据库技术大会将在北京隆重召开。

大会设置2大主会场,20+技术专场,将邀请超百位行业专家,重点围绕数据架构、AI与大数据、传统企业数据库实践和国产开源数据库等内容展开分享和探讨,为广大数据领域从业人士提供一场年度盛会和交流平台。

http://dtcc.it168.com


大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP