免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 7224 | 回复: 25
打印 上一主题 下一主题

求助:文件处理:分割符 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-06-14 10:15 |只看该作者 |倒序浏览
原文件举例如下:(注:db2数据库导出,只获得结果)
123,“111”,“abc,bbb,1","",77,“122”,

我想获得文件结果:
123,“111”,“abc,bbb,1","",77

用逗号与双引号做分割符,好像都有困难,请指点一下

论坛徽章:
10
天蝎座
日期:2013-09-22 22:32:23程序设计版块每日发帖之星
日期:2016-08-07 06:20:00lufei
日期:2016-06-17 17:38:40程序设计版块每日发帖之星
日期:2016-06-12 06:20:002016科比退役纪念章
日期:2016-05-31 15:47:20CU十四周年纪念徽章
日期:2016-05-27 12:24:562015年亚洲杯之阿曼
日期:2015-05-03 21:01:352015年辞旧岁徽章
日期:2015-03-03 16:54:15天蝎座
日期:2013-10-20 21:05:24程序设计版块每日发帖之星
日期:2016-08-11 06:20:00
2 [报告]
发表于 2011-06-14 10:28 |只看该作者


  1. $ echo '123, "111", "aaa, bbb, 1", "", 77, "122",' | awk -F ',' -vOFS=',' '{$8=
  2. ""}1'
  3. 123, "111", "aaa, bbb, 1", "", 77,,
复制代码
到底是中文标点还是英文的啊

论坛徽章:
0
3 [报告]
发表于 2011-06-14 10:34 |只看该作者
awk -F, -v OFS="," '{NF=NF-2}1' file

论坛徽章:
0
4 [报告]
发表于 2011-06-14 10:36 |只看该作者
到底是中文标点还是英文的啊
liion631818 发表于 2011-06-14 10:28



   非常感谢回复,标点是英文标点,我写的时候不小心。
能说明一下awk的
{$8=""}1' 这个用法吗?后边那个1,或则给点资料,万分感谢

论坛徽章:
10
天蝎座
日期:2013-09-22 22:32:23程序设计版块每日发帖之星
日期:2016-08-07 06:20:00lufei
日期:2016-06-17 17:38:40程序设计版块每日发帖之星
日期:2016-06-12 06:20:002016科比退役纪念章
日期:2016-05-31 15:47:20CU十四周年纪念徽章
日期:2016-05-27 12:24:562015年亚洲杯之阿曼
日期:2015-05-03 21:01:352015年辞旧岁徽章
日期:2015-03-03 16:54:15天蝎座
日期:2013-10-20 21:05:24程序设计版块每日发帖之星
日期:2016-08-11 06:20:00
5 [报告]
发表于 2011-06-14 10:48 |只看该作者
还是老表的好,后面的逗号也去掉了
awk的表达式是/pattern/{action},1等价于1{print $0}
print $0是awk默认行为

论坛徽章:
0
6 [报告]
发表于 2011-06-14 10:52 |只看该作者
楼主实际问题是字段中又含有分割符,导致不能正确处理字段
3楼的方法倒是科学点,但都没有真正意义解决问题

论坛徽章:
0
7 [报告]
发表于 2011-06-14 11:06 |只看该作者
回复 6# rwx_hc


    确实,楼主只给出了部分文本,我的不一定能通用

论坛徽章:
0
8 [报告]
发表于 2011-06-14 11:23 |只看该作者
呵呵,原始文件比较复杂。
我只是举例
主要还是因为,引号中有逗号的问题,
我在想能否去除,双引号内的逗号

论坛徽章:
0
9 [报告]
发表于 2011-06-14 11:34 |只看该作者
原文件的一行如下:
想获得  
^@^Et^@? 之前的数据,这玩意是不可见字符,

COMMODITY"888078750010001",,"888880000000129","Y","000008844","xxxxxxxxxJ92F","BANK OF CHI
NA,() ^M113 ZHONGSHAN ROAD,,,314001 ^Mjjjjjj","99999F0159/06",0,1,
"020001","N","0000049344","8888888J92F","BANK OF CHINA,() ^M113 ZH
ONGSHAN ROAD,,,314001 ^M33333","","","","","","","0000000110","AAAAA  CO.,LTD ",,,"0000027237","44444","BANK OF CHINA,O ^MVIA SANTA MARGHERITA ^M14/16,,,20121 MILANO","","","","","
                      ","EUR",+0000000270000.00,+0000000000000.00,"",+0000000270
000.00,"",+0000000000000.00,+0000000270000.00,+0000000000000.00,0,0,"IBL
",358,"002","358 DAYS AFTER SIGHT FOR 100 PCT ^MOF INVOICE VALUE.","100","000000
2163","BBBBB910","BANK OF CHINA,(888888 ^M321 FROAD,,,310003
HANGZHOU ",," S.P.A. VIA ^MLONATI 3,25124 bbbbbb,ITALY",2006021
7,"NOT ALLOWED","NOT ALLOWED","CHINA",20060324,"ITALIAN PORT","SHANGHAI,CHINA",2
0060303,"380","?^@^Et^@?COMMODITY:LONATI KNITTING MACHINE ^M1.BRAVO 1 4 X 168N
10SETS ^M2.BRAVO 1 4 X 144N^M3.BRAVO 6 4-1/2X96N^M+TOTAL QTY:20SETS^M+TOTAL VAL
UE:  EUR270000.00                               ^M+PRICE TERM:CIF SHANGHAI^M+PAC
KING:STANDARD PACKING^M"

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
10 [报告]
发表于 2011-06-14 12:30 |只看该作者
回复 8# 红狐狸


    把引号中的逗号换成空格:
  1. $ echo '123, "111", "aaa, bbb, 1", "", 77, "122",' |awk -vRS='"[^"]*"' -vORS= '{gsub(","," ",RT);print $0RT}'
  2. 123, "111", "aaa  bbb  1", "", 77, "122",
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP