免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 9842 | 回复: 12
打印 上一主题 下一主题

如何用SHELL正确分割CSV文件中的列? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-12-01 19:19 |只看该作者 |倒序浏览
好久没有搞过SHELL了,最后在用SHELL处理CSV文件时遇到一个问题,就是如何正确分割列的问题.

如下是SAMPLE数据:

1,"A","A B","A  C","A,D"

我想将以上SAMPLE数据以逗号分割,得到的结果如下:

1,
"A",
"A B",
"A  C",
"A,D"

但一直找不到好的方法对最后一列进行正确处理,SHELL始终将A与D间的逗号也认成分割符了,请问各位高人如何解决?

论坛徽章:
0
2 [报告]
发表于 2009-12-01 20:04 |只看该作者

回复 #1 nees 的帖子

针对上面的

sed -r 's/",/&\n/g;s/(,)(")/\1\n\2/g'

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
3 [报告]
发表于 2009-12-01 20:26 |只看该作者
sed 's/,"/,\n"/g'

论坛徽章:
0
4 [报告]
发表于 2009-12-01 20:41 |只看该作者
这个问题好难。我只能用awk来解,而且解得蛮复杂的。
处理过程如下:
1. 确定本列长度大于0;将本列存到s1,并在最后补上一个","
2. 如果s1的长度大于0:
3. 如果s1第一个字元是引号("),则去掉第一个字元,找到分隔符号(",),输出此栏,并自s1中删除此栏位资料(含结尾的",)
4. 如果s1第一个字元不是引号("),则找到分隔符号(,),输出此栏,并自s1中删除此栏位资料(含结尾的,)
5. 再回到步骤2

awk script如下(假设存在挡案tmp1.awk):
length($0) > 0 {
  s1 = $0 ",";
  while (length(s1) > 0) {
    c1 = substr(s1, 1, 1);
    if (c1 == "\"") {
      sub(/\"/, "", s1);
      i1 = index(s1, "\",");
      print "\"" substr(s1, 1, i1);
      sub(/^[^\"]*\",/, "", s1);
    } else {
      i1 = index(s1, ",");
      print substr(s1, 1, i1-1);
      sub(/^[^,]*,/, "", s1);
    }
  }
}

以楼主的sample来执行及结果:
$ echo '1,"A","A B","A  C","A,D"' | awk -f tmp1.awk
1
"A"
"A B"
"A  C"
"A,D"

 

[ 本帖最后由 czcjinu 于 2009-12-1 20:46 编辑 ]

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
5 [报告]
发表于 2009-12-01 20:48 |只看该作者
引号内外问题,用sed也可以。

shell版有很多这种例子。

论坛徽章:
0
6 [报告]
发表于 2009-12-02 08:58 |只看该作者
perl -ne 's/,/,\n/g;print' file

论坛徽章:
0
7 [报告]
发表于 2009-12-02 09:52 |只看该作者
  1. awk 'BEGIN{FS=OFS=""}{for (i=1;i<=NF;i++) {if ($i=="\"") T=!T;if (T&&$i==",") $i="@@##"}}1' file >file1
  2. awk -F, '{for (i=1;i<=NF;i++) gsub(/@@##/,",",$i)} {urcmd...}' file1
复制代码

[ 本帖最后由 ywlscpl 于 2009-12-2 10:31 编辑 ]

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
8 [报告]
发表于 2009-12-02 10:00 |只看该作者

回复 #7 ywlscpl 的帖子

如果字段以""包围(LZ的字段有些是没有""包围),用awk也不用这么复杂吧。
  1. awk -F '","' -v OFS='"\n"' '{$1=$1;print}'
复制代码

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
9 [报告]
发表于 2009-12-02 10:09 |只看该作者
try
echo 'foo,bar,"1,2,3","A","A B","E,F","A  C","A,D"'|awk -F \" -v OFS=\" '{for(i=1;i<=NF;i=i+2) gsub(/,/,"\n",$i);print}'
foo
bar
"1,2,3"
"A"
"A B"
"E,F"
"A  C"
"A,D"

论坛徽章:
0
10 [报告]
发表于 2009-12-02 10:21 |只看该作者

回复 #8 blackold 的帖子

只是恰好举了个全带" "包围的例子
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP