免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 10785 | 回复: 7
打印 上一主题 下一主题

[文本处理] shell yaml 文本解析问题 [复制链接]

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-05-29 20:50 |显示全部楼层 |倒序浏览
10可用积分
本帖最后由 yjh777 于 2014-07-01 15:24 编辑

$ yamlStr='type: abc,  attr: "x,y,z",  name: kskdf sdf'

以逗号','分隔的键值对 key1: value1,  key2: "first part of value2,  second part of value2",  key3: value3
    其中value中可能有逗号, 请教怎么把这些键值对儿分开保存到一个数组里面?

试了IFS=,的方法,不好用:
$ eval IFS=, read -a aa <<< "$yamlStr"
$ for k in "${!aa[@]}"; do echo "$k-->${aa[$k]}"; done
0-->type: abc
1--> attr: "x
2-->y
3-->z"
4--> name: kskdf sdf

期望结果:
0-->type: abc
1--> attr: "x,y,z"
2--> name: kskdf sdf


请教大家有什么好方法?
---------------
发现最佳答案给错了,其实 jason680 和 damcool 给的答案更好;

基于jason680状态机方法的改进代码:
  1. #awk
  2. BEGIN {FS=""; P=0; S=0}
  3.         {
  4.                 for(n=1;n<=NF;n++) {
  5.                         if ($n==" " && $(n-1)==" " && P==0 && S==0)
  6.                                 continue
  7.                         if ($n=="," && P==0 && S==0) {
  8.                                 print gensub("^ ", "", 1, s); s=""
  9.                         } else {
  10.                                 s=s$n;
  11.                                 if(S==0 && $n=="\"" && $(n-1)!="\\")
  12.                                         P=(P+1)%2;
  13.                                 if(P==0 && $n=="'")
  14.                                         S=(S+1)%2
  15.                         }
  16.                 }
  17.         }
  18.         END {print gensub("^ ", "", 1, s)}'
复制代码

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
2 [报告]
发表于 2014-05-29 21:45 |显示全部楼层
回复 2# damcool

谢谢,这个只满足了一个特例; 怪我没说清楚: 这里不希望对  "" 里面的字符做解析

'type: abc,  attr: "x,y,z::\"$@#%^&",  name: kskdf sdf'


   

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
3 [报告]
发表于 2014-05-29 22:21 |显示全部楼层
回复 4# damcool

额,也不固定; 其实是想看bash有什么内置的功能可以设置,让它自动分割;可是试IFS没有按预想的来,,

如果实在不行,就得找yaml解释器或自己写解析代码了...

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
4 [报告]
发表于 2014-05-30 11:12 |显示全部楼层
回复 10# LikeLx

看起来很好啊; ) 多谢,我再多测试测试.

自己想出来的shell方法:
parse_y() {
        local ys="$*"
        (set -- $ys
        for i; do
                if echo "$i"|grep -q ",$"; then
                        echo "${i%,}"
                else
                        echo -n "$i "
                fi
        done)
}

[root@221 ~]# parse_y  'type: abc,  attr: "x,y,z::\"$@#%^&",  name: kskdf sdf'
type: abc
attr: "x,y,z::\"$@#%^&"
name: kskdf sdf
   

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
5 [报告]
发表于 2014-05-30 11:15 |显示全部楼层
回复 14# damcool


非常感谢damcool, 热心帮忙; )
我看10楼的写法很简单, 也请帮忙review一下, awk的splite()是不是直接可以解决这种问题/

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
6 [报告]
发表于 2014-05-30 11:21 |显示全部楼层
回复 7# jason680

Hi jason680 很棒的状态机解析思路; 非常感谢!

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
7 [报告]
发表于 2014-05-30 11:29 |显示全部楼层
真的非常感谢大家,帮忙想办法;

但是最佳答案只能有一个,目前看10#给出的写法最简单,而且能满足目前的处理,,

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
8 [报告]
发表于 2014-05-31 18:51 |显示全部楼层
回复 19# damcool

噢!! 没仔细看,原来是这样啊,被误导了还以为split()会智能把""当一个单词呢。
最佳答案给错了,对不起大家啊,,


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP