免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 8189 | 回复: 14
打印 上一主题 下一主题

[文本处理] 将文本根据行数平均分配行写到相关文件中 [复制链接]

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-09-06 21:07 |只看该作者 |倒序浏览
本帖最后由 reyleon 于 2013-09-06 21:57 编辑

有个文件,数据如下:

1
2
3
4
5
6
7
8
9
10

共10行数据.将这些数据进行平均分配(有不能平均分配的情况,如下所说)。

详细解析如下:

1. 平均分配到两个文件(假设为a,b)中,则a分5行,b分5行 (注:是按顺序分配,就是说前5行写到a文件,后5行写到b文件,而不是1在a中,2在b中,3在a中,4在b中这样,下同....),其内容是:
a:
1
2
3
4
5

b:
6
7
8
9
10

2. 平均分配到三个文件(a,b,c),因为行数不被3整除,则要求a文件分前4行,b分3行,c分3行,其内容是:
a:
1
2
3
4

b:
5
6
7

c:
8
9
10

3. 平均分配到四个文件(a,b,c,d),同第二点,因行数不被4整除,则a分3行,b分3行,c分2行,d分2行,其内容是:
a:
1
2
3

b:
4
5
6

c:
7
8

d:
9
10

4. 平均分配到N个文件(a,b,c,d....) 这样子下去...

----------------

注:以上是【文件是偶数行的情况】,但假如文件行数是奇数行,比如是11行,则:

1. 分配到两个文件(a,b),则a分6行,b分5行
2. 分配到三个文件(a,b,c),则a分4行,b分4行,c分3行
3. 分配到四个文件(a,b,c,d),则a分3行,b分3行,c分3行,d分2行
4. 分配到N个文件(a,b,c,d...),则............


========================
   话说这能写程序么?


论坛徽章:
0
2 [报告]
发表于 2013-09-06 21:15 |只看该作者
linux split 命令

  功能说明:切割文件。

  语  法:split [--help][--version][-<行数>][-b <字节>][-C <字节>][-l <行数>][要切割的文件][输出文件名]

  补充说明:split可将文件切成较小的文件,预设每1000行会切成一个小文件。

  参  数:

  -<行数>或-l<行数>  指定每多少行就要切成一个小文件。

  -b<字节>  指定每多少字就要切成一个小文件。支持单位:m,k

  -C<字节>  与-b参数类似,但切割时尽量维持每行的完整性。

  --help  显示帮助。

  --version  显示版本信息。

  [输出文件名]  设置切割后文件的前置文件名,split会自动在前置文件名后再加上编号。

  使用例子:

  split -b 100m filename

论坛徽章:
10
天蝎座
日期:2013-09-22 22:32:23程序设计版块每日发帖之星
日期:2016-08-07 06:20:00lufei
日期:2016-06-17 17:38:40程序设计版块每日发帖之星
日期:2016-06-12 06:20:002016科比退役纪念章
日期:2016-05-31 15:47:20CU十四周年纪念徽章
日期:2016-05-27 12:24:562015年亚洲杯之阿曼
日期:2015-05-03 21:01:352015年辞旧岁徽章
日期:2015-03-03 16:54:15天蝎座
日期:2013-10-20 21:05:24程序设计版块每日发帖之星
日期:2016-08-11 06:20:00
3 [报告]
发表于 2013-09-06 22:03 |只看该作者

  1. s=1
  2. split()
  3. {
  4.         lines=$1
  5.         files=$2
  6.         if [[ $lines == 0 || $files == 0 ]]; then
  7.                 exit 0
  8.         fi
  9.         max=$(( $1/$2 ))
  10.         tmp=$(( $max*$files ))
  11.         if [[ $lines != $tmp ]]; then
  12.                 (( max++ ))
  13.         fi
  14.         echo "==========file $files======="
  15.         tmp=$(( $max+$s-1 ))
  16.         seq $s $(( $max+$s-1 ))
  17.         (( lines=$lines-$max ))
  18.         (( files-- ))
  19.         s=$(( tmp+1 ))
  20.         split $lines $files
  21. }

  22. split 11 3
复制代码

论坛徽章:
10
天蝎座
日期:2013-09-22 22:32:23程序设计版块每日发帖之星
日期:2016-08-07 06:20:00lufei
日期:2016-06-17 17:38:40程序设计版块每日发帖之星
日期:2016-06-12 06:20:002016科比退役纪念章
日期:2016-05-31 15:47:20CU十四周年纪念徽章
日期:2016-05-27 12:24:562015年亚洲杯之阿曼
日期:2015-05-03 21:01:352015年辞旧岁徽章
日期:2015-03-03 16:54:15天蝎座
日期:2013-10-20 21:05:24程序设计版块每日发帖之星
日期:2016-08-11 06:20:00
4 [报告]
发表于 2013-09-06 22:13 |只看该作者
n个分m份,使分的最多的与最小的之间的差最小。是这个意思么

论坛徽章:
10
天蝎座
日期:2013-09-22 22:32:23程序设计版块每日发帖之星
日期:2016-08-07 06:20:00lufei
日期:2016-06-17 17:38:40程序设计版块每日发帖之星
日期:2016-06-12 06:20:002016科比退役纪念章
日期:2016-05-31 15:47:20CU十四周年纪念徽章
日期:2016-05-27 12:24:562015年亚洲杯之阿曼
日期:2015-05-03 21:01:352015年辞旧岁徽章
日期:2015-03-03 16:54:15天蝎座
日期:2013-10-20 21:05:24程序设计版块每日发帖之星
日期:2016-08-11 06:20:00
5 [报告]
发表于 2013-09-06 22:40 |只看该作者
本帖最后由 liion631818 于 2013-09-06 22:54 编辑

前面的太复杂了,耗时

  1.         s=1
  2.         increment=1
  3.         lines=$1
  4.         files=$2
  5.         if [[ $lines == 0 || $files == 0 ]]; then
  6.                 exit 0
  7.         fi
  8.         avg=$(( $1/$2 ))
  9.         off=$(( $lines-$avg*$files ))
  10.        
  11.         for i in `eval echo {1..$files}`; do
  12.                 if [[ $off -eq 0 ]]; then
  13.                         increment=0
  14.                 fi
  15.                 echo "==========file $i======="
  16.                 seq $s $(( s+avg+increment-1 ))
  17.                 s=$(( s+avg+increment-0 ))
  18.                 (( off-- ))
  19.         done
复制代码

论坛徽章:
0
6 [报告]
发表于 2013-09-06 23:04 |只看该作者
回复 1# reyleon


   
11 个数据 分到5个里面 怎么分法  

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
7 [报告]
发表于 2013-09-07 00:00 |只看该作者
回复 6# yaozhibing41001


就是平均分配啊,11行的数据分成5个文件,假设是a,b,c,d,e,行数依次为: 3,2,2,2,2

a为:
1
2
3

b:
4
5

c:
6
7

d:
8
9

e:
10
11

11行分为6个文件的话则为:a,b,e,d,e,f ,行数依次为:2,2,2,2,2,1.

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
8 [报告]
发表于 2013-09-07 00:29 |只看该作者
本帖最后由 关阴月飞 于 2013-09-07 00:47 编辑

回复 1# reyleon

应该是这个意思:
  1. [root@ test]#seq 11 >urifle
  2. [root@ test]#a="a b c"
  3. [root@ test]#echo $a |awk 'FNR==NR{a[NR]=$0;nr=NR;next}{n=split($0,b);for(i=1;i<=n;i++){c[i]=int(nr/n)+c[i-1];if(i<=nr%n)c[i]++;for(j=1;j<=nr;j++)if(j>k&&j<=c[i])print a[j]" to "b[i];k=c[i];print ""}}' urfile -
  4. 1 to a
  5. 2 to a
  6. 3 to a
  7. 4 to a

  8. 5 to b
  9. 6 to b
  10. 7 to b
  11. 8 to b

  12. 9 to c
  13. 10 to c
  14. 11 to c

  15. [root@ test]#seq 10 >urifle
  16. [root@ test]#echo $a |awk 'FNR==NR{a[NR]=$0;nr=NR;next}{n=split($0,b);for(i=1;i<=n;i++){c[i]=int(nr/n)+c[i-1];if(i<=nr%n)c[i]++;for(j=1;j<=nr;j++)if(j>k&&j<=c[i])print a[j]" to "b[i];k=c[i];print ""}}' urfile -
  17. 1 to a
  18. 2 to a
  19. 3 to a
  20. 4 to a

  21. 5 to b
  22. 6 to b
  23. 7 to b

  24. 8 to c
  25. 9 to c
  26. 10 to c

复制代码

论坛徽章:
60
20周年集字徽章-20	
日期:2020-10-28 14:04:3015-16赛季CBA联赛之北京
日期:2016-07-06 15:42:0715-16赛季CBA联赛之同曦
日期:2016-06-12 10:38:0915-16赛季CBA联赛之佛山
日期:2016-05-27 11:54:56黄金圣斗士
日期:2015-12-02 11:44:35白银圣斗士
日期:2015-11-25 14:32:43白银圣斗士
日期:2015-11-23 12:53:352015亚冠之布里斯班狮吼
日期:2015-10-21 16:55:482015亚冠之首尔
日期:2015-09-01 16:46:052015亚冠之德黑兰石油
日期:2015-08-31 11:39:192015亚冠之萨济拖拉机
日期:2015-08-28 21:06:5315-16赛季CBA联赛之广东
日期:2016-07-12 14:58:53
9 [报告]
发表于 2013-09-08 11:17 |只看该作者
回复 5# liion631818

你这个确实可以对数字进行分行处理并写到文件中,也满足要求。但我帖子中描述的只是一个内容为数字的文本示例,而实际上文本是“以行为单位的任意类型的文本内容”,所以你的脚本可能还需要改改。

我这里有个脚本,不过是别人的思路,然后我整理了下,是可以满足我的需求的!
  1. #!/bin/sh

  2. if [ $# -ne 2 ];then
  3.         echo "U: sh $0 [file] [fnumber]"
  4.         echo "E: sh $0 myfile 3"
  5.         exit 1
  6. fi

  7. srcfile=$1 #原始文件
  8. fnumber=$2 #需要拆分的文件个数

  9. eval $(cat $srcfile | awk -vn=$fnumber 'END{print "total="NR,"fline="int(NR/n),"extra="NR%n,"cline="int(NR/n)+1}')
  10. # total:原始文件总行数
  11. # fline:拆分文件平均行数
  12. # extra:拆分文件扩展行数
  13. # cline:当前拆分文件行数

  14. i=1
  15. iline=1
  16. while true;do
  17.         filename="file$i"
  18.         # 按行的顺序分别写入文件中,满足我的需求
  19.         if [ $extra = 0 ];then
  20.                 echo "$filename lines: $fline"
  21.                 tail -n +$iline $srcfile | head -n $fline > $filename
  22.                 iline=$((iline+fline))
  23.         else
  24.                 echo "$filename lines: $cline"
  25.                 tail -n +$iline $srcfile | head -n $cline > $filename
  26.                 iline=$((iline+cline))
  27.                 extra=$((extra-1))
  28.         fi
  29.         ((i++))
  30.         [ $iline -ge $total ] && exit 0
  31. done
复制代码

论坛徽章:
4
CU大牛徽章
日期:2013-03-13 15:29:07CU大牛徽章
日期:2013-03-13 15:29:49CU大牛徽章
日期:2013-03-13 15:30:19CU十二周年纪念徽章
日期:2013-10-24 15:41:34
10 [报告]
发表于 2013-09-08 13:50 |只看该作者
楼主,你的要求太严格,这样有用吗?能不能够简单一点呢?这样就可以直接使用split进行处理了。比如说文件数要求6个,但是分成了7个也行。另外,最后一个文件行数少一些也没有关系。这样行吗?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP