免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: ssxssx
打印 上一主题 下一主题

[文本处理] 把一个文件按照100M的数据大小split [复制链接]

论坛徽章:
1
双鱼座
日期:2014-08-25 19:13:11
11 [报告]
发表于 2014-07-16 13:18 |只看该作者

split -C  
能尽可能保证行的完整性

回复 4# yestreenstars


   

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
12 [报告]
发表于 2014-07-16 13:51 |只看该作者
本帖最后由 jason680 于 2014-07-16 14:11 编辑

回复 1# ssxssx

try this way...

$ cat abc.txt
12345678901234567890

$ split -b5 -da3  --filter='cat > $FILE.txt' abc.txt abc_

$ grep . abc_*
abc_000.txt:12345
abc_001.txt:67890
abc_002.txt:12345
abc_003.txt:67890

modify it by yourself like as
-b100M or -b100MB

论坛徽章:
0
13 [报告]
发表于 2014-07-16 14:46 |只看该作者
回复 12# jason680
不太理解 解释下嘛


   

论坛徽章:
0
14 [报告]
发表于 2014-07-16 14:59 |只看该作者
回复 4# yestreenstars
谢谢打了这么多字 等下给你   能解释下  这句啥意思吗    为啥要sort啊           ls x* | sort | awk '{f=sprintf("abc_%03d.txt",++i);system("mv "$0" "f)}'


   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
15 [报告]
发表于 2014-07-16 15:03 |只看该作者
回复 14# ssxssx

sort是为了保持顺序,比如001对应0-100M的内容,002对应101-200M的内容……
   

论坛徽章:
0
16 [报告]
发表于 2014-07-16 15:41 |只看该作者
回复 15# yestreenstars
谢谢  
f=sprintf("abc_%03d.txt",++i);  
这一句能解释下嘛
"abc_%03d.txt",++i

abc_%03d.txt和++i分别什么意思啊  

   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
17 [报告]
发表于 2014-07-16 15:46 |只看该作者
回复 16# ssxssx

abc_%03d.txt 这是按照你要求的格式写的,%03d表示3位数的整数,百位和十位不足的以0补齐。
++i 每处理一行前先自增i的值,处理第一行时i=1,处理第二行时i=2,这里也可以直接用NR来代替。
   

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
18 [报告]
发表于 2014-07-16 16:03 |只看该作者
回复 13# ssxssx

NAME
       split - split a file into pieces

SYNOPSIS
       split [OPTION]... [INPUT [PREFIX]]

DESCRIPTION
       Output  fixed-size  pieces of INPUT to PREFIXaa, PREFIXab, ...; default
       size is 1000 lines, and default PREFIX is `x'.  With no INPUT, or  when
       INPUT is -, read standard input.

       Mandatory  arguments  to  long  options are mandatory for short options
       too.

       -a, --suffix-length=N
              use suffixes of length N (default 2)

       -b, --bytes=SIZE
              put SIZE bytes per output file
       -C, --line-bytes=SIZE
              put at most SIZE bytes of lines per output file

       -d, --numeric-suffixes
              use numeric suffixes instead of alphabetic

       -e, --elide-empty-files
              do not generate empty output files with `-n'

       --filter=COMMAND
              write to shell COMMAND; file name is $FILE

       -l, --lines=NUMBER
              put NUMBER lines per output file

       -n, --number=CHUNKS
              generate CHUNKS output files.  See below

       -u, --unbuffered
              immediately copy input to output with `-n r/...'

       --verbose
              print a diagnostic just before each output file is opened

       --help display this help and exit

       --version
              output version information and exit

       SIZE may be (or may be an integer optionally followed by) one  of  fol‐
       lowing: KB 1000, K 1024, MB 1000*1000, M 1024*1024, and so on for G, T,
       P, E, Z, Y.

       CHUNKS may be: N       split into N files based on size  of  input  K/N
       output  Kth of N to stdout l/N     split into N files without splitting
       lines l/K/N   output Kth of N to stdout  without  splitting  lines  r/N
       like  `l'  but  use  round robin distribution r/K/N   likewise but only
       output Kth of N to stdout

      ....   

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
19 [报告]
发表于 2014-07-16 16:33 |只看该作者
本帖最后由 jason680 于 2014-07-16 16:34 编辑

回复 2# yestreenstars

split can do it well for all things...

$ split -b100M -da3  --filter='cat > $FILE.txt' abc.txt abc_
   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
20 [报告]
发表于 2014-07-16 17:02 |只看该作者
回复 19# jason680

谢谢,学习了,有没有办法从001开始呢?
   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP