免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4789 | 回复: 3
打印 上一主题 下一主题

shell合并大文件 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-09-19 22:30 |只看该作者 |倒序浏览
本帖最后由 k8king 于 2011-09-19 22:31 编辑

有大约40G的文本文件,都很小,每个几百K左右,想按照1G大小左右合并为40个左右的文件(同一行文件不分拆在两个文件里,所以文件大小在1G左右就可以了,不严格要求是1G)。
因为觉得
cat * >newfile | split -b 1024m
第一有可能会使内存溢出,第二会破坏行的完整性,所以想要请问大家,有什么更好的办法。

论坛徽章:
0
2 [报告]
发表于 2011-09-20 09:45 |只看该作者
一个一个合

论坛徽章:
0
3 [报告]
发表于 2011-09-20 11:00 |只看该作者
先ls * -1 | wc -l 获得总文件数A,再用A去除以40,得到每个合并文件应该包含的小文件数B。
然后ls * -1 取得文件列表C,从C中循环读出前B行合并到文件,之后删除C的前B行,如此循环到第40次之间把C剩下的列表合并到一个文件.

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
4 [报告]
发表于 2011-09-20 13:25 |只看该作者
本帖最后由 yinyuemi 于 2011-09-20 14:14 编辑

回复 1# k8king
  1. >newfile1; awk -v p=1 'BEGIN{while(("ls *"|getline file)>0){cmd="stat -c \"%s\" newfile"p;cmd|getline size;if(size>=10000000000)p++;while ((getline<file)>0)print >>"newfile"p}}'
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP