免费注册 查看新帖 |

ChinaUnix.net

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1035 | 回复: 3

[文本处理] 文件分割 [复制链接]

论坛徽章:
0
发表于 2018-06-13 00:38 |显示全部楼层
关于文件分割,不太会了

1.txt 长这样,一个header+一些序列(行数不定),有n行

>111aaa
hkjhklhlk
hkhklhlk
houoiyoiu
yioyoyio
>270967
hklj78
hkhl
>7897
hklhlh
>675kjh
gjkgkl
hlkhkl

想要分割成的文件类似于如下(10000个header+下面的序列)分成n个文件,然后文件并行运行会快很多。这样分割大概生成约100个文件

文件aaa:
>111aaa
hkjhklhlk
hkhklhlk
houoiyoiu
yioyoyio
>270967
hklj78
hkhl
>7897
hklhlh
>675kjh
gjkgkl
hlkhkl
····

文件bbb:
····



我写的代码是:(就是把下面所有的那些序列都合并成一行了,但是文件格式就变掉了,所以就没办法操作了)
awk '/>/{print "\n"$0;next}{printf $0}' 1.txt|awk NF|split -l 20000

求大神帮助,谢谢




论坛徽章:
6
程序设计版块每日发帖之星
日期:2016-05-11 06:20:00操作系统版块每日发帖之星
日期:2016-05-12 06:20:00每日论坛发贴之星
日期:2016-05-12 06:20:00操作系统版块每日发帖之星
日期:2016-05-14 06:20:00程序设计版块每日发帖之星
日期:2016-05-31 06:20:00每日论坛发贴之星
日期:2016-05-31 06:20:00
发表于 2018-06-13 02:17 |显示全部楼层
本帖最后由 1cpuer 于 2018-06-13 02:36 编辑

回复 1# 蓝色未央
awk '/>/{printf "\n"$0 ;next}{printf "!+-! "$0}' l
seq 12 | awk NF                                         
1
2
3
4
5
6
7
8
9
10
11
12

awk NF 是啥意思

论坛徽章:
0
发表于 2018-06-13 08:41 |显示全部楼层
回复 2# 1cpuer

去掉一个空行

论坛徽章:
21
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之深圳
日期:2018-06-15 14:59:3715-16赛季CBA联赛之八一
日期:2018-07-03 16:56:4615-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之青岛
日期:2018-06-08 13:45:2815-16赛季CBA联赛之同曦
日期:2018-06-04 19:42:2015-16赛季CBA联赛之山东
日期:2018-05-30 12:44:59
发表于 2018-06-13 10:05 |显示全部楼层
回复 1# 蓝色未央


  1. 10000个header分成100个文件,每个文件包含100个header
  2. awk '/^>/{i++;if(i%101==0){j++}}{print>j+1".txt"}' file
复制代码

评分

参与人数 1信誉积分 +10 收起 理由
蓝色未央 + 10 赞一个!

查看全部评分

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

基于案例的 SQL 优化实战训练营

讲师:中电福富特级专家梁敬彬,参与本次课程培训,你将收获:
1. 能编写出较为高效的 SQL;
2. 能解决70%以上的数据库常见优化问题;
3. 能得到老师提供的高效的相关工具和解决方案;
4. 能举一反三,收获不仅仅是 SQL 优化。
现在购票享受8.8折优惠!
----------------------------------------
优惠时间:2019年3月20日前

大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP