Chinaunix

标题: shell合并大文件 [打印本页]

作者: k8king    时间: 2011-09-19 22:30
标题: shell合并大文件
本帖最后由 k8king 于 2011-09-19 22:31 编辑

有大约40G的文本文件,都很小,每个几百K左右,想按照1G大小左右合并为40个左右的文件(同一行文件不分拆在两个文件里,所以文件大小在1G左右就可以了,不严格要求是1G)。
因为觉得
cat * >newfile | split -b 1024m
第一有可能会使内存溢出,第二会破坏行的完整性,所以想要请问大家,有什么更好的办法。
作者: yangyang1581    时间: 2011-09-20 09:45
一个一个合
作者: samlumengjun    时间: 2011-09-20 11:00
先ls * -1 | wc -l 获得总文件数A,再用A去除以40,得到每个合并文件应该包含的小文件数B。
然后ls * -1 取得文件列表C,从C中循环读出前B行合并到文件,之后删除C的前B行,如此循环到第40次之间把C剩下的列表合并到一个文件.
作者: yinyuemi    时间: 2011-09-20 13:25
本帖最后由 yinyuemi 于 2011-09-20 14:14 编辑

回复 1# k8king
  1. >newfile1; awk -v p=1 'BEGIN{while(("ls *"|getline file)>0){cmd="stat -c \"%s\" newfile"p;cmd|getline size;if(size>=10000000000)p++;while ((getline<file)>0)print >>"newfile"p}}'
复制代码





欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2