免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3182 | 回复: 12
打印 上一主题 下一主题

[文本处理] 处理数据 请帮忙看看 [复制链接]

论坛徽章:
2
巨蟹座
日期:2013-12-07 16:51:13天秤座
日期:2013-12-11 15:12:14
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-09-03 23:18 |只看该作者 |倒序浏览
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
2 [报告]
发表于 2014-09-03 23:39 |只看该作者
回复 1# lxzkenney


$ perl -lane '{$,="\t";if($.==1){print @F[0..2],"电话号码";@t=@F}
else{for$n(3..$#F){for(split",",$F[$n]){if(m/(\d+)-(\d+)/){print @F[0..2],"$t[$n]$_" for($1..$2)}}}} }' FILE
省份        城市        城市区号        电话号码
陕西        西安        29        1476300
陕西        西安        29        1476301
陕西        西安        29        1476302
陕西        西安        29        1476303
陕西        西安        29        1476020
陕西        西安        29        1476021
陕西        西安        29        17050660
陕西        西安        29        17050661
陕西        西安        29        17050662

   

论坛徽章:
7
亥猪
日期:2013-10-10 17:00:29辰龙
日期:2013-10-12 16:23:19卯兔
日期:2013-11-18 17:01:27金牛座
日期:2014-09-09 10:17:052015七夕节徽章
日期:2015-08-21 11:06:172015亚冠之柏太阳神
日期:2015-09-25 13:56:42数据库技术版块每日发帖之星
日期:2016-08-06 06:20:00
3 [报告]
发表于 2014-09-04 09:33 |只看该作者
直译;代码长了点
  1. awk 'NR==1{print $1,$2,$3,"tel";t1=$4;t2=$5;next}{t=$1 FS $2 FS $3;l=split($4,a,",");for(i=1;i<=l;i++){split(a[i],b,"-");for(j=b[1];j<=b[2];j++)print t FS t1 j};k=split($5,c,",");for(i=1;i<=k;i++){split(c[i],d,"-");for(j=d[1];j<=d[2];j++)print t FS t2 j}}' file
复制代码

论坛徽章:
36
摩羯座
日期:2013-09-23 16:37:312015年亚洲杯之沙特阿拉伯
日期:2015-04-14 09:10:172015亚冠之柏太阳神
日期:2015-06-25 08:48:212015亚冠之武里南联
日期:2015-07-28 09:01:082015亚冠之莱赫维亚
日期:2015-07-28 15:44:172015亚冠之柏斯波利斯
日期:2015-09-06 14:08:52白银圣斗士
日期:2015-11-25 17:06:2815-16赛季CBA联赛之吉林
日期:2015-12-09 16:59:072016猴年福章徽章
日期:2016-02-18 15:30:3415-16赛季CBA联赛之辽宁
日期:2016-04-14 09:29:04luobin
日期:2016-06-17 17:46:3615-16赛季CBA联赛之天津
日期:2016-08-16 14:11:01
4 [报告]
发表于 2014-09-04 09:38 |只看该作者
回复 3# li0924
020-021的有问题

   

论坛徽章:
24
申猴
日期:2014-10-10 15:56:39射手座
日期:2014-10-10 15:57:18黑曼巴
日期:2018-05-14 11:05:122016科比退役纪念章
日期:2018-05-14 11:05:0715-16赛季CBA联赛之北控
日期:2018-05-14 11:05:0015-16赛季CBA联赛之江苏
日期:2017-02-27 18:11:0715-16赛季CBA联赛之上海
日期:2018-08-15 09:48:5415-16赛季CBA联赛之佛山
日期:2018-07-20 17:14:2315-16赛季CBA联赛之佛山
日期:2019-09-10 18:08:4615-16赛季CBA联赛之山西
日期:2020-03-26 09:40:5115-16赛季CBA联赛之佛山
日期:2020-05-08 09:03:54
5 [报告]
发表于 2014-09-04 11:32 |只看该作者
本帖最后由 chengchow 于 2014-09-04 11:33 编辑

3F写的确实有点问题,我也遇到了,字符做运算左边的0会自动撤销,不知道有什么好的解决方法
  1. gentoo ~ # awk 'BEGIN{x=4;OFS="\t"}NR==1{for(i=x;i<=NF;i++){a[i]=$i}{print $1,$2,$3,"tel"}}NR!=1{for(i=x;i<=NF;i++){split($i,b,",");for(j in b){split(b[j],c,"-");for(k=c[1];k<=c[2];k++){print $1"\t",$2,$3,"\t"a[i]k}}}}' 1
  2. province        city    citycode        tel
  3. shanxi          xi'an   29              1476300
  4. shanxi          xi'an   29              1476301
  5. shanxi          xi'an   29              1476302
  6. shanxi          xi'an   29              1476303
  7. shanxi          xi'an   29              1476020
  8. shanxi          xi'an   29              147621
  9. shanxi          xi'an   29              17050660
  10. shanxi          xi'an   29              17050661
  11. shanxi          xi'an   29              17050662
复制代码

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
6 [报告]
发表于 2014-09-04 12:48 |只看该作者
本帖最后由 jason680 于 2014-09-04 12:51 编辑

回复 5# chengchow

printf or sprintf with length and zero (ex: 03d%)

Note: get length from the first number (ex: length(c[1]))   

论坛徽章:
30
申猴
日期:2014-04-10 09:43:532015年亚洲杯纪念徽章
日期:2015-03-20 14:40:232015亚冠之阿尔纳斯尔
日期:2015-06-02 18:59:042015亚冠之阿尔希拉尔
日期:2015-06-30 15:22:572015亚冠之大阪钢巴
日期:2015-07-20 10:44:332015亚冠之阿尔纳斯尔
日期:2015-10-28 14:57:5215-16赛季CBA联赛之新疆
日期:2015-12-25 10:18:45黑曼巴
日期:2016-06-26 21:39:5315-16赛季CBA联赛之山西
日期:2016-07-25 21:54:2715-16赛季CBA联赛之北京
日期:2016-10-27 12:07:2315-16赛季CBA联赛之八一
日期:2017-07-07 16:39:0915-16赛季CBA联赛之吉林
日期:2017-09-04 12:14:43
7 [报告]
发表于 2014-09-04 13:09 |只看该作者
回复 1# lxzkenney
awk -F '[, ]+' 'NR==1{print $1,$2,$3,"电话号码";a=$4;b=$5}
NR==2{split($4,c,"-");split($5,d,"-");split($6,e,"-");f=$1" "$2" "$3"    " }
END{for(i=c[1];i<=c[2];i++) {print f a i;};
for(j=d[1];j<=d[2];j++){ if(!l){ print f a j;l++} else {t=sprintf ("0%s",j);print f a t}};
for(k=e[1];k<=e[2];k++){print f b k }}' file

   

论坛徽章:
0
8 [报告]
发表于 2014-09-04 13:12 |只看该作者
回复 1# lxzkenney


    awk 'NR==1{printf("%s\t%s\t%s\t电话号码\n", $1, $2, $3); for(i = 4; i <= NF; ++i) {pre[i-3]=$i}; next} {pro=$1; city=$2; code=$3; for(i = 4; i <= NF; ++i) {post[i-3]=$i}; for(i in pre) {num=post; k = split(num, b, ","); for(j = 1; j <= k; ++j) {num1=b[j]; split(num1, c, "-"); for(m = c[1]; m <= c[2]; ++m) {printf("%s\t%s\t%s\t%s%03d\n", pro, city, code, pre, m)}}}}' a

论坛徽章:
14
15-16赛季CBA联赛之辽宁
日期:2019-06-16 15:47:3515-16赛季CBA联赛之广夏
日期:2016-08-13 21:24:352015亚冠之武里南联
日期:2015-07-07 17:37:372015亚冠之萨济拖拉机
日期:2015-07-06 17:07:482015亚冠之全北现代
日期:2015-06-04 13:54:272015亚冠之城南
日期:2015-05-21 15:43:212015年亚洲杯之伊朗
日期:2015-04-25 18:20:362015年亚洲杯之伊朗
日期:2015-04-20 16:06:052015年亚洲杯之科威特
日期:2015-03-07 12:51:26丑牛
日期:2014-12-30 10:26:38申猴
日期:2014-09-28 22:40:18金牛座
日期:2014-09-13 21:12:22
9 [报告]
发表于 2014-09-04 13:28 |只看该作者
占位~~!

论坛徽章:
24
申猴
日期:2014-10-10 15:56:39射手座
日期:2014-10-10 15:57:18黑曼巴
日期:2018-05-14 11:05:122016科比退役纪念章
日期:2018-05-14 11:05:0715-16赛季CBA联赛之北控
日期:2018-05-14 11:05:0015-16赛季CBA联赛之江苏
日期:2017-02-27 18:11:0715-16赛季CBA联赛之上海
日期:2018-08-15 09:48:5415-16赛季CBA联赛之佛山
日期:2018-07-20 17:14:2315-16赛季CBA联赛之佛山
日期:2019-09-10 18:08:4615-16赛季CBA联赛之山西
日期:2020-03-26 09:40:5115-16赛季CBA联赛之佛山
日期:2020-05-08 09:03:54
10 [报告]
发表于 2014-09-04 13:38 |只看该作者
本帖最后由 chengchow 于 2014-09-04 16:02 编辑
  1. awk 'BEGIN{x=4}NR==1{for(i=x;i<=NF;i++){a[i]=$i}{printf "%-10s %-10s %-10s %-10s\n",$1,$2,$3,"tel"}}NR!=1{for(i=x;i<=NF;i++){split($i,b,",");for(j in b){split(b[j],c,"-");for(k=c[1];k<=c[2];k++){l=length(c[1]);printf "%-10s %-10s %-10s %-0s",$1,$2,$3,a[i];printf  "%0"l"d\n",k}}}}' 1
  2. province   city       citycode   tel
  3. shanxi     xi'an      29         1476300
  4. shanxi     xi'an      29         1476301
  5. shanxi     xi'an      29         1476302
  6. shanxi     xi'an      29         1476303
  7. shanxi     xi'an      29         1476020
  8. shanxi     xi'an      29         1476021
  9. shanxi     xi'an      29         14760010
  10. shanxi     xi'an      29         14760011
  11. shanxi     xi'an      29         14760012
  12. shanxi     xi'an      29         17050660
  13. shanxi     xi'an      29         17050661
  14. shanxi     xi'an      29         17050662
复制代码
回复 6# jason680
恩,谢谢,咋又不说中文了


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP