免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 4800 | 回复: 23
打印 上一主题 下一主题

[文本处理] 练习题 [复制链接]

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-12-13 11:12 |只看该作者 |倒序浏览
本帖最后由 yestreenstars 于 2013-12-14 01:16 编辑

原帖:http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=4115260&fromuid=26669282

处理前:
  1.    name1 name2 name3 name4 name5
  2. MG1 A G C D C A C G A D
  3. MG2 A G D C A C G C D A
  4. SH_1 G G C C C C 0 0 A A
  5. SH_2 A A 0 0 A A C C D D
  6. SH_3 G A D D 0 0 G G 0 0
  7. SD1 A G C D C C C G A D
  8. SD2 0 0 D C C A C C D A
复制代码
处理后:
  1.         MG      SH      SD
  2. name1   2,2     3,3     1,1
  3. name2   2,2     2,2     2,2
  4. name3   2,2     2,2     1,3
  5. name4   2,2     2,2     3,1
  6. name5   2,2     2,2     2,2
复制代码
处理规则:
每个"name"分别对应两列,现在想统计以MG、SD、SH开头的行分别含有字母的个数,字母只可能是A、C、D、G这四种,每两列中只含有其中的两种,但不一定是哪两种,请按格式处理文本(注意顺序)。

下面是我的方法:
游客,如果您要查看本帖隐藏内容请回复

论坛徽章:
7
亥猪
日期:2013-10-10 17:00:29辰龙
日期:2013-10-12 16:23:19卯兔
日期:2013-11-18 17:01:27金牛座
日期:2014-09-09 10:17:052015七夕节徽章
日期:2015-08-21 11:06:172015亚冠之柏太阳神
日期:2015-09-25 13:56:42数据库技术版块每日发帖之星
日期:2016-08-06 06:20:00
2 [报告]
发表于 2013-12-13 12:02 |只看该作者
本帖最后由 li0924 于 2013-12-13 12:07 编辑
  1. awk '{s=substr($1,1,2);b[s];for(i=2;i<=NF;i++){num=int(i/2);a[s,num,$i]++}}END{split("ACDG",c,"")
复制代码
后续的排列真的很难!

论坛徽章:
3
天蝎座
日期:2013-11-11 10:18:392015年亚洲杯之沙特阿拉伯
日期:2015-04-06 15:51:08CU十四周年纪念徽章
日期:2017-01-07 22:56:29
3 [报告]
发表于 2013-12-13 12:09 |只看该作者
非得回复?

论坛徽章:
8
技术图书徽章
日期:2013-08-22 11:21:28未羊
日期:2015-01-19 22:22:25巳蛇
日期:2014-08-11 16:53:08子鼠
日期:2014-05-29 09:04:44摩羯座
日期:2014-04-11 14:15:07丑牛
日期:2014-01-24 12:41:28金牛座
日期:2013-11-21 17:38:28射手座
日期:2015-01-21 08:50:32
4 [报告]
发表于 2013-12-13 12:44 |只看该作者
我要学习学习~

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
5 [报告]
发表于 2013-12-13 12:52 |只看该作者
回复 3# aqbssh
我发的帖都是这样的,我希望能答题者能独立思考后再回复,不喜勿回~

   

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
6 [报告]
发表于 2013-12-13 13:49 |只看该作者
顺序是不是应该是这样子的呐?
  1. [root@centos6-1 ~]# awk -f f.awk file
  2.         MG      SH      SD      
  3. name1   2,2     3,3     1,1     
  4. name2   2,2     2,2     2,2     
  5. name3   2,2     2,2     1,3     
  6. name4   2,2     2,2     3,1     
  7. name5   2,2     2,2     2,2     
  8. [root@centos6-1 ~]#
复制代码

论坛徽章:
771
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
7 [报告]
发表于 2013-12-13 13:50 |只看该作者
本帖最后由 Herowinter 于 2013-12-13 13:52 编辑

回复 1# yestreenstars
折腾了一个中午,终于勉强写出来了,用了
三维数组,第一维1-5分别表示name1-5,
第二维 1-3 表示 MG SD SH
第三维表示 A C D G
代码如下,请大大指教。
  1. awk '{if($1~/MG/)for(i=2;i<=NF;i++)a[int(i/2),1,$i]++;else if($1~/SD/)for(i=2;i<=NF;i++)a[int(i/2),2,$i]++;else if($1~/SH/)for(i=2;i<=NF;i++)a[int(i/2),3,$i]++}END{c[1]="A";c[2]="C";c[3]="D";c[4]="G";print "\tMG\tSD\tSH";for(i=1;i<=5;i++){printf "name"i;for(j=1;j<=3;j++){flag=0;for(k=1;k<=4;k++)if(a[i,j,c[k]]>0){if(!flag)printf "\t%d",a[i,j,c[k]];else printf ",%d",a[i,j,c[k]];flag=1}}print ""}}' i

  2.                 MG         SD         SH
  3. name1        2,2        1,1        3,3
  4. name2        2,2        2,2        2,2
  5. name3        2,2        1,3        2,2
  6. name4        2,2        3,1        2,2
  7. name5        2,2        2,2        2,2
复制代码

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
8 [报告]
发表于 2013-12-13 13:53 |只看该作者
本帖最后由 reyleon 于 2013-12-13 19:22 编辑
  1. #!/bin/awk

  2. BEGIN{ n=split("ACDG",c,"");for(i=0;++i<=n;)e[c[i]]=1 }
  3. NR==1{ l=split($0,a,FS);next }

  4. {
  5.         t=substr($1,1,2)
  6.         if(!m[t]++)q[++seq]=t
  7.         num=2
  8.         for(x=1;x<=l;x++){
  9.                 for(y=num;y<num+2;y++)if($y in e)f[a[x],t,$y]++
  10.                 num+=2
  11.         }
  12. }

  13. END {
  14.         printf("%-8s","");for(i=1;i<=seq;i++)printf("%-8s",q[i]);printf "\n"
  15.         for(i=1;i<=l;i++){
  16.                 printf("%-8s",a[i])
  17.                 for(j=1;j<=seq;j++){
  18.                         for(k=1;k<=n;k++)if(f[a[i],q[j],c[k]])s=s?s","f[a[i],q[j],c[k]]:f[a[i],q[j],c[k]]
  19.                         printf("%-8s",s)
  20.                         s=""
  21.                 }
  22.                 printf "\n"
  23.         }
  24. }
复制代码

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
9 [报告]
发表于 2013-12-13 13:55 |只看该作者
回复 6# reyleon
我复制结果时复制错了~已改~

   

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
10 [报告]
发表于 2013-12-13 14:13 |只看该作者
回复 1# yestreenstars
  1. awk 'NR==1{for(i=1;i<=NF;i++)a[i]=$i;next}{sub(/_?[0-9]+$/,"",$1);if(!c[$1]++){printf "\t" $1;d[++m]=$1};for(i=2;i<=NF;i++){if($i~/[A-Z]/)b[a[int(i/2)]][$1][$i]++}}END{print "";for(i in b){printf i;for(j=1;j<=m;j++){printf "\t";t=0;for(k in b[i][d[j]])printf ((!t++?"":",")b[i][d[j]][k])};print ""}}'
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP