免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2635 | 回复: 6
打印 上一主题 下一主题

[文本处理] SHELL 如何随机取文件的10%数据生成新文件 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-07-18 11:13 |只看该作者 |倒序浏览

之前写了个脚本,是直接取每天数据的前面10%然后写入到新文件中,但是发现这样做,后面的数据就没有了,有没有办法,在取数据的时候,随机取呢?或者均匀取(取一条数据然后跳过9行,再取一行)?



#定义日期
LOGDATE=$(date -d'-1 day' +%Y%m%d)
#修改原文件名称
mv aaa_${LOGDATE}.log aaa_${LOGDATE}_bak.log
#计算原文件行数
Snum=$(cat aaa_${LOGDATE}_bak.log | wc -l)
#计算原文件10%的行数
Sn=`expr $Snum / 10`
#取文件前10%生成新文件
awk 'FNR<='"$Sn"'' aaa_${LOGDATE}_bak.log > aaa_${LOGDATE}.log


各位大大帮忙看下最后一步应该如何随机取呢?

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
2 [报告]
发表于 2014-07-18 11:22 |只看该作者
回复 1# xuezhonghuo


#定义日期
LOGDATE=$(date -d'-1 day' +%Y%m%d)
#修改原文件名称
mv aaa_${LOGDATE}.log aaa_${LOGDATE}_bak.log
#取文件前10%生成新文件
awk 'NR%10==1' aaa_${LOGDATE}_bak.log > aaa_${LOGDATE}.log

论坛徽章:
0
3 [报告]
发表于 2014-07-18 11:40 |只看该作者
回复 2# ly5066113


    经测试,可以正常取到,大神,帮忙解释下~灰常感谢~

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
4 [报告]
发表于 2014-07-18 11:48 |只看该作者
回复 2# ly5066113

这是取第1、11、21……行的内容吧,哪里是取前10%?
   

论坛徽章:
0
5 [报告]
发表于 2014-07-18 11:56 |只看该作者
回复 4# yestreenstars


   我之前的脚本是取前10%生成文件
   现在的想法是随机取,或者均匀取数据,现在这样取文件的 1,11,21,。。。也刚好是跳过9行取1行打印进文件,这样就达到均匀取数据的想法了。

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
6 [报告]
发表于 2014-07-18 13:04 |只看该作者
回复 4# yestreenstars


描述是楼主原来的,没改。

论坛徽章:
3
摩羯座
日期:2014-03-05 14:58:52巨蟹座
日期:2014-04-03 15:14:32摩羯座
日期:2014-04-24 12:50:34
7 [报告]
发表于 2014-07-22 21:34 |只看该作者
  1. shuf a.txt | head -$(echo $(sed -n '$=' a.txt)/10 | bc) > a.txt
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP