免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1874 | 回复: 9
打印 上一主题 下一主题

[文本处理] 分割字符串的一个问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2017-09-03 09:04 |只看该作者 |倒序浏览
本帖最后由 czs208112 于 2017-09-03 09:50 编辑

文件内容类似下面,每个field用逗号分隔,field数量不定,
  1. 1,2,3,4,...198,199,200
  2. a,b,c,d,...x,y,z
  3. a1,a2,a3
复制代码

指定任一数值n,如n=5,生成格式如下
  1. 1|2|3|4|5,6,7,...198,199,200
  2. a|b|c|d|e,f,g,...x,y,z
  3. a1|a2|a3
  4. ...
复制代码


即field为n之前的分隔符用指定字符串替换,如|,之后的不变。

请教各位shell如何实现.

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
2 [报告]
发表于 2017-09-03 19:03 |只看该作者
本帖最后由 moperyblue 于 2017-09-03 19:05 编辑

sed -r ':a;s/,/|/;/(.*\|){4}/!ta'

论坛徽章:
0
3 [报告]
发表于 2017-09-03 21:00 |只看该作者
谢谢,可用,只是还不能完全看懂,继续学习。

论坛徽章:
0
4 [报告]
发表于 2017-09-03 21:44 |只看该作者
moperyblue 发表于 2017-09-03 19:03
sed -r ':a;s/,/|/;/(.*\|){4}/!ta'

:a 与 !ta 用得好啊!

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
5 [报告]
发表于 2017-09-03 23:28 |只看该作者
回复 1# czs208112

>> 指定任一数值n,如n=5,生成格式如下...

$ cat FILE
1,2,3,4,5,6,7,...198,199,200
a,b,c,d,e,f,g,...x,y,z
a1,a2,a3

$ awk -vn=5 -F, '{s=$1;for(c=2;c<=NF;++c){f=(c<=n)?"|":",";s=s f $c}print s}' FILE
1|2|3|4|5,6,7,...198,199,200
a|b|c|d|e,f,g,...x,y,z
a1|a2|a3

论坛徽章:
28
15-16赛季CBA联赛之八一
日期:2016-02-22 19:10:4215-16赛季CBA联赛之深圳
日期:2016-12-01 10:34:0415-16赛季CBA联赛之新疆
日期:2016-12-07 10:24:2915-16赛季CBA联赛之同曦
日期:2016-12-15 12:06:43CU十四周年纪念徽章
日期:2016-12-18 13:03:4415-16赛季CBA联赛之吉林
日期:2017-01-03 15:52:2515-16赛季CBA联赛之辽宁
日期:2017-01-04 14:58:2415-16赛季CBA联赛之辽宁
日期:2017-01-15 09:42:512016科比退役纪念章
日期:2017-02-06 17:21:50黑曼巴
日期:2017-02-10 15:46:1215-16赛季CBA联赛之上海
日期:2017-03-18 10:14:5415-16赛季CBA联赛之青岛
日期:2017-03-18 22:00:44
6 [报告]
发表于 2017-09-04 13:32 |只看该作者

awk '{for(i=1;i<n;i++)sub(/,/,"|")}1' n=5

论坛徽章:
0
7 [报告]
发表于 2017-09-04 22:11 |只看该作者

这个也不错,很好理解。不过还是感觉sed的写法更简洁

论坛徽章:
0
8 [报告]
发表于 2017-09-05 11:48 |只看该作者
jason680 发表于 2017-09-03 23:28
回复 1# czs208112

>> 指定任一数值n,如n=5,生成格式如下...

s=s f $c
这里看不懂,大神能指导下吗?

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
9 [报告]
发表于 2017-09-05 13:55 |只看该作者
回复 8# 日复一日王

s=s f $c这里看不懂...

before
  s=1, f="|", $c="2"
after:
  s= "1|2"

before
  s="1|2", f="|", $c="3"
after:
  s= "1|2|3"

...

  

论坛徽章:
25
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之上海
日期:2018-12-11 09:45:3219周年集字徽章-年
日期:2020-04-18 23:54:5215-16赛季CBA联赛之深圳
日期:2020-04-19 21:40:19黑曼巴
日期:2022-04-03 17:55:1315-16赛季CBA联赛之八一
日期:2018-07-03 16:56:46
10 [报告]
发表于 2017-09-05 15:56 |只看该作者
本帖最后由 wh7211 于 2017-09-05 16:00 编辑

回复 1# czs208112

文件内容:
1,2,3,4,198,199,200
a,b,c,d,x,y,z
a1,a2,a3

要求:输出下面内容:
1|2|3|4|198,199,200
a|b|c|d|x,y,z
a1|a2|a3

  1. awk -vn=5 -F"," '{a="";for(i=1;i<=NF;i++){t=i<=n?"|":",";a=a?a""t""$i:$i}print a}' file
复制代码

其中,n的值可以任意设置。


您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP