免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12345
最近访问板块 发新帖
楼主: zhaopingzi
打印 上一主题 下一主题

[文本处理] 现有400多少G 一个文件 [复制链接]

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
41 [报告]
发表于 2014-07-16 13:10 |只看该作者
@yestreenstars@ly5066113
嗯,看错了,LZ是按行分割的。

论坛徽章:
1
处女座
日期:2014-09-18 16:18:00
42 [报告]
发表于 2014-07-17 00:03 |只看该作者
一个小时400G数据。。。好像知道为什么存的时候就不先分配好

论坛徽章:
1
2015七夕节徽章
日期:2015-08-21 17:58:43
43 [报告]
发表于 2014-07-17 09:48 |只看该作者
以前也碰到过类似的需求,用dd写了个脚本
  1. #!/bin/bash

  2. file=$1
  3. file_size=$(du -b $file | cut -f1)
  4. ((split_size=$2*1024))
  5. ((split_num=$file_size / $split_size + 1))

  6. echo "file size:$file_size bytes"
  7. echo "split to small files of $split_size bytes"
  8. echo "need split $split_num times"

  9. echo "do spliting"
  10. for i in `seq 0 $split_num`
  11. do
  12.         of=files/$file.$i
  13.         ((skip=$split_size * $i))
  14.         #echo "dd if=$file of=$of bs=1 count=$split_size skip=$skip"
  15.         test -f $of && continue
  16.         dd if=$file of=$of bs=1 count=$split_size skip=$skip
  17. done
  18. echo "done"
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP