免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: 54nwq
打印 上一主题 下一主题

[文本处理] 请教如何按章节拆分txt小说 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2015-03-31 08:10 |只看该作者
请教大神,我用你的代码试其它小说却不行了,是怎么回事呢?

论坛徽章:
0
12 [报告]
发表于 2015-03-31 08:30 |只看该作者
原来是文件章节格式不标准,看来没有办法通用了

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
13 [报告]
发表于 2015-03-31 09:21 |只看该作者
回复 12# 54nwq


     这与文本格式有关啊。
  1. awk '$1 ~ /^第.*章/{f=$1"_"$2}{if(!f)f="序言";print > f".txt"}' urfile
复制代码
第三二零章_卢俊义的心结.txt                    第一一零章_镇三山智破桃花山.txt
第三二六章_秀才和兵.txt                        第一一六章_龙虎熊蛟.txt
第三二七章_敢问寨主之志,如黄巢否?.txt        第一一七章_慈父孝儿.txt
第三二三章_缺的就是人.txt                      第一一三章_宝珠寺外夜未眠.txt
第三二四章_此生绝味.txt                        第一一四章_陆上豪杰险吃鳖.txt
第三二五章_看哥哥降不降得他住.txt              第一一五章_去年劫了生辰纲的大盗?.txt
第三二一章_大捷背后的危机.txt                  第一一一章_花小妹暗箭射唐斌.txt
第三零八章_隐士的忧虑.txt                      第一章_我的心腹都在哪里!.txt
第三零二章_宋江的后手.txt                      序言.txt
第三零九章_大好头颅,谁当斫之.txt

论坛徽章:
0
14 [报告]
发表于 2015-03-31 09:39 |只看该作者
本帖最后由 54nwq 于 2015-03-31 09:40 编辑

回复 13# blackold


多谢黑哥大神!还就是这样。有的小说格式没法处理。

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
15 [报告]
发表于 2015-03-31 09:44 |只看该作者
回复 14# 54nwq


    关键是断章

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
16 [报告]
发表于 2015-03-31 09:51 |只看该作者
回复 14# 54nwq


    发样本上来。 都可以处理的,除了黄色小说。

论坛徽章:
0
17 [报告]
发表于 2015-03-31 11:19 |只看该作者
刚刚出去了,刚回来,现在附上几本小说请大神测试

21.rar

1.44 MB, 下载次数: 10

1.rar

1.1 MB, 下载次数: 14

9.rar

576.1 KB, 下载次数: 19

16.rar

582.61 KB, 下载次数: 14

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
18 [报告]
发表于 2015-03-31 14:15 |只看该作者
回复 17# 54nwq


gawk
  1. awk --re-interval  'match($0,/(第.{,10}章)[ -]*([^ ]{,20})( |$)/,a){f=a[1]"_"a[2];sub(/ /,"",f);print FILENAME,f}' novelfile
复制代码
输出:
chapter.rar (13.31 KB, 下载次数: 10)

论坛徽章:
0
19 [报告]
发表于 2015-03-31 15:49 |只看该作者
黑哥大神,您是什么环境下成功的?我Cygwin 下没有反应啊

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
20 [报告]
发表于 2015-03-31 18:18 |只看该作者
回复 19# 54nwq


    cygwin 啊, gawk 4.1
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP