免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: sayigood
打印 上一主题 下一主题

如何遍历文件夹下的文件,并去掉每个文件中的"< >" [复制链接]

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
31 [报告]
发表于 2010-06-07 17:37 |只看该作者
回复 30# sayigood


    呵呵,是多个了urfile。

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
32 [报告]
发表于 2010-06-07 17:44 |只看该作者
去除html标签
  1. sed -i  ':n;s/<[^>]*>//g;/</{N;bn}' urfiles
复制代码

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
33 [报告]
发表于 2010-06-07 17:48 |只看该作者
  1. sed ':n;s/<[^>]*>//g;/</{N;bn};s/ \+//g;/^$/d'
复制代码
删除标签,删除所有空格,删除所有空行。

论坛徽章:
0
34 [报告]
发表于 2010-06-07 18:05 |只看该作者
回复 33# blackold


    黑哥,我把实验用到的数据作为附件 实验数据.tar.gz (42.75 KB, 下载次数: 7) 上传了
    使用你的方法,并没有去除掉所有的标签,并且似乎对里面的空行和换行没有起作用

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
35 [报告]
发表于 2010-06-07 18:10 |只看该作者
回复 34# sayigood


    执行
  1. sed ':n;s/<[^>]*>//g;/</{N;bn};s/ \+//g;/^$/d' a > result.txt
复制代码
得到

result.rar

8.95 KB, 下载次数: 6

论坛徽章:
0
36 [报告]
发表于 2010-06-07 18:28 |只看该作者
回复 35# blackold


    黑哥,我得到的是 result.rar (5.01 KB, 下载次数: 6) ,这里面不仅没去掉空行,也没有去掉某些标签。
    我用的环境是Ubuntu8.04,是不是跟这个有关?你使用的系统是什么?

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
37 [报告]
发表于 2010-06-07 18:33 |只看该作者
本帖最后由 blackold 于 2010-06-07 18:34 编辑

回复 36# sayigood


    你的是dos格式,先转换为unix格式。

    看看不是编码问题。

论坛徽章:
0
38 [报告]
发表于 2010-06-07 18:44 |只看该作者
回复 37# blackold


    在处理这些网页前,我先使用了命令:
  1. find ./dir -type f|xargs dos2unix
复制代码
然后再使用你的命令:
  1. sed ':n;s/<[^>]*>//g;/</{N;bn};s/ \+//g;/^$/d' a > result.txt
复制代码

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
39 [报告]
发表于 2010-06-07 18:49 |只看该作者
回复 38# sayigood


    慢慢检查原因吧。
  1. echo -e "<a>foo</a><b>bar\nwhy</b>"|sed ':n;s/<[^>]*>//g;/</{N;bn}'
复制代码
输出什么?

论坛徽章:
0
40 [报告]
发表于 2010-06-07 19:02 |只看该作者
回复 39# blackold


(briver)-(jobs:0)-(/usr/larbin-2.6.3.ghtt.ic/save/d00709)
(! 591)-> echo -e "<a>foo</a><b>bar\nwhy</b>"|sed ':n;s/<[^>]*>//g;/</{N;bn}'
foobar
why
看来是我的问题,我再好好看看吧 不行的话只能用c写代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP