免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 9987 | 回复: 14
打印 上一主题 下一主题

如何删除行尾回车和空格、而保留段落? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-11-19 16:31 |只看该作者 |倒序浏览
上传一个txt电子书, 热心的朋友请帮我看看。多谢。

我的需求大体是这样的:
       保证——胜利者忘记了——战败者牢记于心——第二次大战的道德沦落——原因
        在于未能使德国废除军备。
          第一次世界大战结束以后,人们深信不疑,并且几乎普遍地希望世
        界将享受和平。如果大家恪守正义的信念,根据常理和审慎来处理事情
        ,各国人民的这种衷心热望本来是很容易实现的。“为消灭战争而战”一
        语,已成有口皆碑,人们并已采取措施,使之成为事实。当时被认为握
        有美国大权的威尔逊总统,曾使国际联盟的设想深入人心。在凡尔赛的
        英国代表团,把他的设想加以塑造和具体化,使之成为一种机构,并将
        永远成为人类艰苦前进道路上的一个里程碑。胜利的协约国,这时至少
        对他们的外敌而言,是强大无比的。他们必须应付国内的严重困难以及
        许多他们不知如何回答的难题。位于大半个中欧的变乱祸首的各条顿国
        家,已匍匐在他们面前;因受德国沉重打击而创巨痛深的俄国,已陷于
        内战骚乱之中,并逐渐落入布尔什维克或称共产党的手中。
                 ※        ※         ※


我想把一个段落之内的所有空格、回车统统删除, 但是保留段落。 例如,引文中第三行“第一次世界大战之后”,就不能直接排在“在于未能使德国废除军备”之后,而需要一个回车。

PS,这样的文字都是从html文件里直接dump出来的, 想在手机上看, 但如果直接看,格式很乱。

001.第01章 胜利者的蠢事.txt.gz

14.66 KB, 下载次数: 85

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
2 [报告]
发表于 2009-11-19 16:39 |只看该作者
tr -d '[ ]|\n' <urfile >newfile

论坛徽章:
0
3 [报告]
发表于 2009-11-19 16:41 |只看该作者
sed 's/[         ]*$//g' ...

论坛徽章:
0
4 [报告]
发表于 2009-11-19 17:04 |只看该作者
原帖由 寂寞烈火 于 2009-11-19 16:39 发表
tr -d '[ ]|\n' newfile


老大,这个会把所有的newline都删掉, 整个文件就剩下1行了

论坛徽章:
0
5 [报告]
发表于 2009-11-19 17:09 |只看该作者
我想把一个段落之内的所有空格、回车统统删除, 但是保留段落。
txt没有分段符吧?都是靠回车分吧?

论坛徽章:
0
6 [报告]
发表于 2009-11-19 17:11 |只看该作者
原帖由 haimming 于 2009-11-19 17:09 发表
我想把一个段落之内的所有空格、回车统统删除, 但是保留段落。
txt没有分段符吧?都是靠回车分吧?



对啊,是不是我的要求太智能了,只能手工去做?

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
7 [报告]
发表于 2009-11-19 17:32 |只看该作者
※        ※         ※

这个是分段符吧

论坛徽章:
1
荣誉会员
日期:2011-11-23 16:44:17
8 [报告]
发表于 2009-11-19 17:32 |只看该作者
awk '{if ($0~/^  /){printf "\n"$0} else {printf $0}}'  file

论坛徽章:
0
9 [报告]
发表于 2009-11-19 17:36 |只看该作者
原帖由 寂寞烈火 于 2009-11-19 17:32 发表

这个是分段符吧


那个是大的章节了。 每一段前面有两个中文全角的空格

论坛徽章:
7
荣誉版主
日期:2011-11-23 16:44:17子鼠
日期:2014-07-24 15:38:07狮子座
日期:2014-07-24 11:00:54巨蟹座
日期:2014-07-21 19:03:10双子座
日期:2014-05-22 12:00:09卯兔
日期:2014-05-08 19:43:17卯兔
日期:2014-08-22 13:39:09
10 [报告]
发表于 2009-11-19 19:30 |只看该作者
try?

tr -d '[ ]|\n' <urfile | sed  's/  /\n  /g' >newfile

[ 本帖最后由 r2007 于 2009-11-19 19:36 编辑 ]
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP