12 / 2 页下一页

论坛徽章:: 15

电梯直达

1楼 [收藏(0)] [报告]

发表于 2014-02-19 14:08 |只看该作者 |倒序浏览

本帖最后由 rdcwayx 于 2014-03-24 13:09 编辑

谈一下如果方便的处理csv格式的文件，只适用于GNU awk 4 以上版本

假设存在以下的csv文件（逗号分隔值），内容为如下格式：

Robbins,Arnold,"1234 A Pretty Street, NE",MyTown,MyState,12345-6789,USA

复制代码

注意，其中的字段（"1234 A Pretty Street, NE"）中包含了一个“,”，传统的FS=","来分隔域就会出错，地址会被拆分成两部分：

1234 A Pretty Street 和 NE

复制代码

这不是我们想要的结果。

针对这样的场景，可以使用内置变量FPAT来解决问题。FPAT的值是一个正则表达式，该正则表达式描述了每一个域的内容。

FPAT = "([^,]+)|(\"[^\"]+\")"

复制代码

上面的FPAT表示，每个域或者是不包含","的字符串，或者是由一对双引号括起来的字符串。

因此，我们可以这样来解决：

复制代码

BEGIN {
FPAT = "([^,]+)|(\"[^\"]+\")"
}
{
print "NF = ", NF
for (i = 1; i <= NF; i++) {
printf("$%d = <%s>\n", i, $i)
}
}

复制代码

这个是运行结果

$ gawk -f simple-csv.awk addresses.csv
NF = 7
$1 = <Robbins>
$2 = <Arnold>
$3 = <"1234 A Pretty Street, NE">
$4 = <MyTown>
$5 = <MyState>
$6 = <12345-6789>
$7 = <USA>

复制代码

第三个字段（含逗号）作为一个域了。

再进一步，如果不希望有双引号，

if (substr($i, 1, 1) == "\"") {
len = length($i)
$i = substr($i, 2, len - 2) # Get text within the two quotes
}

复制代码

参考： https://www.gnu.org/software/gaw ... ing-By-Content.html

注意：这个FPAT设置有个限制，不能处理双引号里含换行符的情况。比如这个例子： http://bbs.chinaunix.net/thread-4132643-1-1.html

NOTE: Some programs export CSV data that contains embedded newlines between the double quotes. gawk provides no way to deal with this. Since there is no formal specification for CSV data, there isn't much more to be done; the FPAT mechanism provides an elegant solution for the majority of cases, and the gawk maintainer is satisfied with that.

复制代码

计算机, 服务费, 事务所, 财务, 技术

评分

参与人数 1	可用积分 +10	收起理由
Shell_HAT	+ 10	赞一个!

查看全部评分

文库|博客

Shell_HAT

版主

论坛徽章:: 33

2楼 [报告]

发表于 2014-02-19 14:32 |只看该作者

学习了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yestreenstars

富甲一方

论坛徽章:: 32

3楼 [报告]

发表于 2014-02-19 14:41 |只看该作者

学习了~

$ echo 'Robbins,Arnold,"1234 A Pretty Street, NE",MyTown,MyState,12345-6789,USA' | awk -vFPAT='([^,]+)|("[^"]+")' '{for(i=0;i++<NF;)print $i}'
Robbins
Arnold
"1234 A Pretty Street, NE"
MyTown
MyState
12345-6789
USA

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jason680

富可敌国

论坛徽章:: 145

4楼 [报告]

发表于 2014-02-19 14:52 |只看该作者

回复 1# rdcwayx

try this way if you didn't have awk 4.0

$ awk -f csv.awk FILE
NF =  8
modify for csv
NF =  7
$1 = <Robbins>
$2 = <Arnold>
$3 = <"1234 A Pretty Street, NE">
$4 = <MyTown>
$5 = <MyState>
$6 = <12345-6789>
$7 = <USA>

$ cat csv.awk
BEGIN{
  FS=","
}
{
  print "NF = ", NF
  c = 0
  for (n = 1; n <= NF; n++) {
if(q == 1){
   if($n~/"$/){
   #if(sub(/"$/,"",$n)){ # for removed the "
      q = 0
   }
   $c = $c FS $n
   continue
}
if($n~/^"/){
#if(sub(/^"/,"",$n)){ # for removed the "
   q = 1
   $(++c) = $n
   continue
}
$(++c) = $n
  }
  NF = c
  print "modify for csv"
  print "NF = ", NF
  for (n = 1; n <= NF; n++) {
printf("$%d = <%s>\n", n, $n)
  }
}

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

blackold

大富大贵

论坛徽章:: 5

5楼 [报告]

发表于 2014-02-19 14:54 |只看该作者

新东西啊，学习。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jackhuntcn

稍有积蓄

论坛徽章:: 3

6楼 [报告]

发表于 2014-02-19 14:57 |只看该作者

学习了！

比grep -Po安全：

$ grep -Po "([^,]+)|(\"[^\"]+\")" urfile
Robbins
Arnold
"1234 A Pretty Street
NE"
MyTown
MyState
12345-6789
USA
$ grep -Po "(\"[^\"]+\")|([^,]+)" urfile
Robbins
Arnold
"1234 A Pretty Street, NE"
MyTown
MyState
12345-6789
USA

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

elu_ligao

腰缠万贯

论坛徽章:: 29

7楼 [报告]

发表于 2014-02-19 23:08 |只看该作者

楼主的新知识要跟进，6楼的grep差异也值得注意，学习啊

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

rdcwayx

版主

论坛徽章:: 15

8楼 [报告]

发表于 2014-02-20 09:07 |只看该作者

楼上的两个方法也不错啊。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jiejie455

稍有积蓄

论坛徽章:: 0

9楼 [报告]

发表于 2014-02-20 09:41 |只看该作者

本帖最后由 jiejie455 于 2014-02-20 10:11 编辑

没有GAWK的时候：

awk 'BEGIN{FS=",";}{for(i=1;i<=NF;i++){str=$i;if(sub(/^"/,"",$i)==1 && sub(/"$/,"",$i)==0){i=i+1;str=str","$i};print str}}' data

复制代码

@yestreenstars REVISED:

awk 'BEGIN{FS=","}{for(i=1;i<=NF;i++){flag=1;str=$i;if(sub(/^"/,"",$i)==1 && sub(/"$/," ",$i)==0){while(flag==1){i=i+1;str=str","$i;if(sub(/"$/," ",$i)==1){flag=0}}};print str}}' data

复制代码