免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1974 | 回复: 7
打印 上一主题 下一主题

[文本处理] 菜鸟请教,如何批量删除匹配行之后所有行(不包括匹配行) [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-06-21 13:49 |只看该作者 |倒序浏览
问题:/data目录下有很多子目录,很多*.html文件散布在这些子目录中

我现在想批量修改这些*.html 文件,删除文件中</html>这一行之后的所有行,但不包括</html>这一行

*.html 文件的内容类似如下:

<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title></title>
<!--huaxia template end-->
<style type="text/css">
</style>
</head>
<body>
aaaaaaaaaa
</body>

</html>
bbbbbbbbbb
cccccccccc


我现在就像删除</html> 之后的内容,请问怎么写命令?   我在网上找了半天,大部分都是连匹配行也删除的,请大神不吝指教

论坛徽章:
0
2 [报告]
发表于 2013-06-21 14:02 |只看该作者
我感觉应该是 find +sed 来处理,不过,sed 这部分一时把我难住了,不知道 怎么查找到一个匹配行,然后删除其后的内容

论坛徽章:
50
15-16赛季CBA联赛之广夏
日期:2018-11-05 09:42:462015年亚冠纪念徽章
日期:2015-07-23 11:58:122015亚冠之广州富力
日期:2015-07-07 08:26:172015亚冠之塔什干棉农
日期:2015-06-29 09:08:072015年亚洲杯之伊朗
日期:2015-03-08 20:51:012015年迎新春徽章
日期:2015-03-04 09:58:11未羊
日期:2014-10-16 22:41:47处女座
日期:2014-10-16 15:33:33酉鸡
日期:2014-03-13 12:54:10巳蛇
日期:2014-03-10 14:39:052015亚冠之德黑兰石油
日期:2015-07-29 12:46:372015亚冠之德黑兰石油
日期:2015-08-07 12:54:11
3 [报告]
发表于 2013-06-21 14:04 |只看该作者
ls *.html|sed -i '/<\/html>/{p;Q}'

论坛徽章:
0
4 [报告]
发表于 2013-06-21 14:10 |只看该作者
@tigersun
  1. awk -F'</html>' 'BEGIN{RS='\n'}{print $1}END{print FS}'  *.html
复制代码

论坛徽章:
0
5 [报告]
发表于 2013-06-21 14:14 |只看该作者
回复 3# WilliBhamlll


谢谢朋友,解决了我sed 的问题,不过我的文件是分散在子文件夹下的,我改成如下了:
find ./ -type f -name "*.html" -exec sed -i '/<\/html>/{p;Q}' {} \;


对sed那部分还不太理解,看来我得研究一下了,不过效果就是我想要的,多谢

论坛徽章:
0
6 [报告]
发表于 2013-06-21 14:25 |只看该作者
回复 4# todayhero

多谢了,awk好灵活,我得好好研究一下


   

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
7 [报告]
发表于 2013-06-21 23:25 |只看该作者
回复 5# tigersun


    如果文件比较多,-exec可能会出问题,可以考虑用xargs
http://bbs.chinaunix.net/thread-446683-1-1.html

论坛徽章:
0
8 [报告]
发表于 2013-06-30 22:56 |只看该作者
本帖最后由 JeremyTOJ 于 2013-06-30 22:57 编辑

好牛逼啊,【话说夸人还要凑够十个字,难为我呢嘛。。。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP