免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 4008 | 回复: 11
打印 上一主题 下一主题

AWK对这样的不定项如何处理呢 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-08-04 17:11 |只看该作者 |倒序浏览
样板:
UserID FirstName LastName MiddleName Email DeptPrefix DeptSufix,比如
AB12345 Xiao Wang W xwang@dot.com T 200

我现在要得到这样的结果,方便下一步处理,就是合并LastName和MiddleName,合并DeptPrefix和DeptSufix

AB12345,Xiao,Wang W,xwang@dot.com,T200

问题在于MiddleName和DeptPrefix都是一个字母的,而且有的记录没有MiddleName,有的记录又没有DeptPrefix,该怎么办呢

多谢了

论坛徽章:
0
2 [报告]
发表于 2011-08-04 17:21 |只看该作者
应该有几项是固定存在的并且这几项有一定的共同特征??这样便于判断哪几项记录不存在,否则真的难办了

论坛徽章:
0
3 [报告]
发表于 2011-08-04 17:32 |只看该作者
如果没有规律应该没办法处理。等高手

论坛徽章:
1
摩羯座
日期:2014-12-29 15:59:36
4 [报告]
发表于 2011-08-04 17:38 |只看该作者
有@的肯定是$5

论坛徽章:
0
5 [报告]
发表于 2011-08-04 17:54 |只看该作者
回复 4# ziyunfei


    有可能是$4啊
我写了个脚本,不过有问题,最后一项合并不对,还没找到问题在哪里

awk '{
    if($4~/.*@.*/){
        if(NR=5){
            printf "%s,%s,%s,%s,%s\n", $1, $2, $3, $4, $5}
        else
            {printf "%s,%s,%s,%s,%s %s\n", $1, $2, $3, $4, $5, $6}
        }
   
    else if($5~/.*@.*/){
        if(NR=6){
            printf "%s,%s,%s %s,%s,%s\n", $1, $2, $3, $4, $5, $6}
        else
            {printf "%s,%s,%s %s,%s,%s %s\n", $1, $2, $3, $4, $5, $6, $7}
        }
   
}' $1

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
6 [报告]
发表于 2011-08-04 18:28 |只看该作者
样板:
UserID FirstName LastName MiddleName Email DeptPrefix DeptSufix,比如
AB12345 Xiao Wang W  T  ...
richiewu 发表于 2011-08-04 17:11



给少数样本,才能写code啊...

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
7 [报告]
发表于 2011-08-04 23:57 |只看该作者
回复 1# richiewu
  1. $ echo 'AB12345 Xiao Wang W xwang@dot.com T 200
  2. AB12345 Xiao Wang W xwang@dot.com  200
  3. AB12345 Xiao Wang  xwang@dot.com T 200
  4. AB12345 Xiao Wang  xwang@dot.com  200' |awk '{printf $1","$2",";for(i=3;i<=NF;i++){if($i~/@/){t=i;while(t-->3)x=$t" "x;printf gensub(" $","",1,x)","$i",";while(i++<NF)printf $i;print"";x=""}}}'
  5. AB12345,Xiao,Wang W,xwang@dot.com,T200
  6. AB12345,Xiao,Wang W,xwang@dot.com,200
  7. AB12345,Xiao,Wang,xwang@dot.com,T200
  8. AB12345,Xiao,Wang,xwang@dot.com,200
复制代码

论坛徽章:
8
摩羯座
日期:2014-11-26 18:59:452015亚冠之浦和红钻
日期:2015-06-23 19:10:532015亚冠之西悉尼流浪者
日期:2015-08-21 08:40:5815-16赛季CBA联赛之山东
日期:2016-01-31 18:25:0515-16赛季CBA联赛之四川
日期:2016-02-16 16:08:30程序设计版块每日发帖之星
日期:2016-06-29 06:20:002017金鸡报晓
日期:2017-01-10 15:19:5615-16赛季CBA联赛之佛山
日期:2017-02-27 20:41:19
8 [报告]
发表于 2011-08-05 06:35 |只看该作者
  1. sed '
  2. s/  */,/1;
  3. s/  */,/1;
  4. s/  *\([^ ]*@[^ ]*\)  */,\1,/
  5. s/\(.*,.*\)  *\(.*\)/\1\2/ ' urfile
复制代码

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
9 [报告]
发表于 2011-08-05 08:29 |只看该作者
本帖最后由 rdcwayx 于 2011-08-05 08:40 编辑
  1. awk 'function merge (x,y) {s=$x;x++;while (x<=y) {s=(x<a)?s FS $x:s $x;x++}; return s}
  2. { for (i=3;i<=NF;i++) if ($i~/@/) a=i;
  3.   print $1,$2,merge(3,a-1),$a,merge(a+1,NF)
  4. }' OFS="," infile
复制代码

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
10 [报告]
发表于 2011-08-05 09:06 |只看该作者
本帖最后由 blackold 于 2011-08-05 09:09 编辑

gawk:
  1. awk '$(NF-2) ~ /@/{$(NF-1)=$(NF-1) $NF;NF--}NF==6{$3=$3$4;$4="";$0=$0}gsub(/ +/,",")' urfile
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP