12 / 2 页

论坛徽章:: 16

11楼 [报告]

发表于 2019-02-14 17:45 |只看该作者

本帖最后由 expert1 于 2019-02-14 17:47 编辑

思路，第一行，读入$0, $12,$11不是M，直接设计数器为0，
从第二行开始，如果连续，那么追加$0,设置start, 并且判断M，如果有，计数器+1。

如果不连续了，判断count是不是>=3,如果是，打印。如果不是，重设$0,start,并且如果这一行有M，计数器设为1，如果没有M，设为0.
END的部分为了防止最后几行满足要求，但没地方打印，所以在END的时候打印一下。

以此类推。

评分

参与人数 1	信誉积分 +5	收起理由
hechao7021	+ 5	很给力!

查看全部评分

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

expert1

荣誉版主

论坛徽章:: 16

12楼 [报告]

发表于 2019-02-14 17:52 |只看该作者

论坛真垃圾，东西都贴不出来，看这里吧

awk 'NR==1{ start =$12; temp =$0; count=0 }NR>1{

if($12 == start + 1) {

if ($11 == "M") count++ ;

temp = temp"\n"$0; start=$12

}

else {
if (count >=3)print temp;

temp=$0;start=$12; if ($11 == "M") {count=1}else count=0

}

}END{if (count >=3)print temp}' a
1 1559 + 1 5 CHH CCC M U U M 263
1 1560 + 1 5 CHH CCA U U U U 264
1 1561 + 3 4 CHH CAT M M U M 265
1 1564 - 0 18 CHH CAT U U U M 266
1 1566 + 0 8 CHH CTC U U U U 267
1 1726 + 2 0 CHH CCC U M U U 373
1 1727 + 0 2 CHH CCA U U U U 374
1 1728 + 0 2 CHH CAC U M U M 375
1 1730 + 2 0 CHH CAA U M U M 376
1 1733 + 0 2 CHH CTC U U U U 377
1 1735 + 0 2 CHH CAA U U U M 378
1 1738 - 0 5 CHH CTT U U U M 379

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

lanyuxin2012

白手起家

论坛徽章:: 0

13楼 [报告]

发表于 2019-02-15 14:07 |只看该作者

cat t1.db | awk '$12>0{for(i=8;i<12;i++){if($i==$11)array[NR$11]++}}{if(array[NR$11]>2) print $0}'
1 1509 - 0 13 CHH CTC U U U U 244
1 1511 + 0 5 CHH CAA U U U U 245
1 1517 - 0 14 CHH CTT U U U U 246
1 1560 + 1 5 CHH CCA U U U U 264
1 1561 + 3 4 CHH CAT M M U M 265
1 1566 + 0 8 CHH CTC U U U U 267
1 1726 + 2 0 CHH CCC U M U U 373
1 1727 + 0 2 CHH CCA U U U U 374
1 1733 + 0 2 CHH CTC U U U U 377
1 1743 - 0 4 CHH CAC U U U U 382
1 1746 - 1 3 CHH CAA U U U U 383
1 1747 + 0 1 CHH CCA U U U U 384
1 1748 + 0 1 CHH CAC U M U U 385
1 1775 - 1 1 CHH CTC U M U U 399
1 1776 - 0 2 CHH CCT N U U U 400
1 1777 - 0 2 CHH CCC U U U U 401
1 1778 + 0 1 CHH CAA U U U U 402

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

lanyuxin2012

白手起家

论坛徽章:: 0

14楼 [报告]

发表于 2019-02-15 14:08 |只看该作者

cat t1.db | awk '$12>0{for(i=8;i<12;i++){if($i==$11)array[NR$11]++}}{if(array[NR$11]>2) print $0}'
1 1509 - 0 13 CHH CTC U U U U 244
1 1511 + 0 5 CHH CAA U U U U 245
1 1517 - 0 14 CHH CTT U U U U 246
1 1560 + 1 5 CHH CCA U U U U 264
1 1561 + 3 4 CHH CAT M M U M 265
1 1566 + 0 8 CHH CTC U U U U 267
1 1726 + 2 0 CHH CCC U M U U 373
1 1727 + 0 2 CHH CCA U U U U 374
1 1733 + 0 2 CHH CTC U U U U 377
1 1743 - 0 4 CHH CAC U U U U 382
1 1746 - 1 3 CHH CAA U U U U 383
1 1747 + 0 1 CHH CCA U U U U 384
1 1748 + 0 1 CHH CAC U M U U 385
1 1775 - 1 1 CHH CTC U M U U 399
1 1776 - 0 2 CHH CCT N U U U 400
1 1777 - 0 2 CHH CCC U U U U 401
1 1778 + 0 1 CHH CAA U U U U 402

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

expert1

荣誉版主

论坛徽章:: 16

15楼 [报告]

发表于 2019-02-15 17:09 |只看该作者

回复 14# lanyuxin2012

你这明显不对，他是要求 $12连续的，里面如果出现3个以上的M，才把这些连续的打印出来。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hechao7021

白手起家

论坛徽章:: 0

16楼 [报告]

发表于 2019-02-20 10:47 |只看该作者

感谢各位的回复，当初发下帖子，好久没等到回复，于是没上论坛看了，劳烦各位大神辛苦帮忙了，自己搞了R语言的代码，不过效率没有awk高，R代码如下：
dat <- read.table('test.txt', header = F, stringsAsFactors = F)
N <- nrow(dat)
diffValue <- diff(dat[,12])
flag <- which(diffValue > 1)
result <- as.data.frame(matrix(ncol=12, nrow=0))

M <- length(flag)-1
for (i in 1:M) {
if(flag[i+1]-flag[i] > 3) {
      beg <- flag[i]+1
      end <- flag[i+1]
      if(sum(dat[beg:end, 11]=="M") >=4) {
         tmp <- dat[beg:end, ]
         result <- rbind(result, tmp)
      }
}
}

# the last
if(N-flag[length(flag)]>=4) {
if(sum(dat[(flag[M+1]+1): N, 11]=="M") >=4) {
      result <- rbind(result, dat[(flag[M+1]+1): N, ])
}
}

write.table(result, 'result.txt', sep=' ', col.names = F, row.names = F, quote = F)

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hechao7021

白手起家

论坛徽章:: 0

17楼 [报告]

发表于 2019-02-20 10:50 |只看该作者

回复 12# expert1
多谢大神，受益了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › 怎么将分成一个个小区段然后找到某字符重复数大于3次的 ...

[文本处理] 怎么将分成一个个小区段然后找到某字符重复数大于3次的区段 [复制链接]

评分

浏览过的版块