免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
123下一页
最近访问板块 发新帖
查看: 9182 | 回复: 29

[文本处理] 请教如何按章节拆分txt小说 [复制链接]

论坛徽章:
0
发表于 2015-03-30 14:58 |显示全部楼层
网上下载的txt小说,想要按章节来拆分,即每一章单独生成一个txt文件,文件名就是章节名称。
请问各位大神应该怎么弄?

论坛徽章:
10
2015年亚洲杯之科威特
日期:2015-04-13 13:51:5315-16赛季CBA联赛之山东
日期:2016-01-16 18:35:0815-16赛季CBA联赛之广东
日期:2016-01-04 15:26:23程序设计版块每日发帖之星
日期:2015-11-13 06:20:002015亚冠之阿尔艾因
日期:2015-11-10 12:32:242015亚冠之阿尔沙巴布
日期:2015-05-15 18:26:49羊年新春福章
日期:2015-04-28 16:45:112015年亚洲杯之伊拉克
日期:2015-04-25 20:06:30羊年新春福章
日期:2015-04-13 13:53:2015-16赛季CBA联赛之八一
日期:2016-01-20 18:23:49
发表于 2015-03-30 15:01 |显示全部楼层
想法不错,我不知道。

论坛徽章:
0
发表于 2015-03-30 15:11 |显示全部楼层
我在WIN下用下面的代码可以分割前面一部分,后面部分就不行了,不知道是为什么
  1. gawk "{if(/第[^ ]+章/){a=$0;print a>a\".txt\"}else{print $0>a\".txt\"}}"
复制代码

论坛徽章:
28
2015年迎新春徽章
日期:2015-03-04 10:16:53午马
日期:2015-03-20 17:11:07亥猪
日期:2015-03-20 17:11:23戌狗
日期:2015-03-20 17:11:33酉鸡
日期:2015-03-20 17:11:47申猴
日期:2015-03-20 17:11:58未羊
日期:2015-03-20 17:12:10子鼠
日期:2015-03-20 17:12:23丑牛
日期:2015-03-20 17:12:40卯兔
日期:2015-03-20 17:12:51辰龙
日期:2015-03-20 17:13:00巳蛇
日期:2015-03-20 17:13:12
发表于 2015-03-30 15:18 |显示全部楼层
本帖最后由 我是一隻羊 于 2015-03-30 15:18 编辑

回复 3# 54nwq
  1. awk '/第[^ ]+章/{a=$0;next}{b[a]=b[a]"\n"$0}END{for(j in b)print b[j]>j".txt"}' inputfile
复制代码
这样?

论坛徽章:
0
发表于 2015-03-30 15:23 |显示全部楼层
谢谢羊神回复,运行了没有反应,不知怎么回事

求职 : 机器学习
论坛徽章:
79
2015年亚洲杯纪念徽章
日期:2015-05-06 19:18:572015七夕节徽章
日期:2015-08-21 11:06:172015亚冠之阿尔纳斯尔
日期:2015-09-07 09:30:232015亚冠之萨济拖拉机
日期:2015-10-21 08:26:3915-16赛季CBA联赛之浙江
日期:2015-12-30 09:59:1815-16赛季CBA联赛之浙江
日期:2016-01-10 12:35:21技术图书徽章
日期:2016-01-15 11:07:2015-16赛季CBA联赛之新疆
日期:2016-02-24 13:46:0215-16赛季CBA联赛之吉林
日期:2016-06-26 01:07:172015-2016NBA季后赛纪念章
日期:2016-06-28 17:44:45黑曼巴
日期:2016-06-28 17:44:4515-16赛季CBA联赛之浙江
日期:2017-07-18 13:41:54
发表于 2015-03-30 15:27 |显示全部楼层
本帖最后由 zsszss0000 于 2015-03-30 15:27 编辑

贴个测试文本吧,不然怎么弄啊 回复 1# 54nwq


   

论坛徽章:
0
发表于 2015-03-30 15:33 |显示全部楼层
因为前面部分可以分割,后面不知为什么不行,贴部分内容难以说清,所以我上传个附件吧,各位下载了试试,我再删除了

水浒求生记.rar

1.02 MB, 下载次数: 41

论坛徽章:
28
2015年迎新春徽章
日期:2015-03-04 10:16:53午马
日期:2015-03-20 17:11:07亥猪
日期:2015-03-20 17:11:23戌狗
日期:2015-03-20 17:11:33酉鸡
日期:2015-03-20 17:11:47申猴
日期:2015-03-20 17:11:58未羊
日期:2015-03-20 17:12:10子鼠
日期:2015-03-20 17:12:23丑牛
日期:2015-03-20 17:12:40卯兔
日期:2015-03-20 17:12:51辰龙
日期:2015-03-20 17:13:00巳蛇
日期:2015-03-20 17:13:12
发表于 2015-03-30 17:02 |显示全部楼层
回复 7# 54nwq


    搞不定啦...我打开是乱码...不支持UTF-8...一起求大神支招吧....

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
发表于 2015-03-30 18:01 |显示全部楼层
回复 1# 54nwq

$ awk '$1~/^第[^ ]+章/{F=$1"---"$2;print "file:"F}{if(F)print > F}' FILE
file:第一章---我的心腹都在哪里!
file:第二章---僵卧孤岭不自哀
file:第三章---第四把交椅
...
file:第三三五章---夹击
file:第三三六章---浴血磐石
file:第三三七章---不怕千万个林冲,只忧一个王伦

论坛徽章:
0
发表于 2015-03-31 07:58 |显示全部楼层
回复 9# jason680


多谢大神回复!太厉害了!谢谢
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP