免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 6893 | 回复: 6
打印 上一主题 下一主题

[文本处理] sed 文本替换 提高效率的办法 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-08-06 17:10 |只看该作者 |倒序浏览
各位大神,我现在要替换众多文件中的字符串,我使用的是

find -name "*.[ch]"  | xargs sed  -i '1,10  s/.*版权所有.*大白兔.*/                版权所有 (C), 2011-2012,小灰狼\n/g'

就是如果所有.C .H文件中 1,10行中某一行同时出现了 “版权所有”和“大白兔”  就把这行替换成 “版权所有 (C), 2011-2012,小灰狼”

但是我需要扫描的文件和目录都很多、效率也比较低、cpu开销大,有没有什么更好的实现方法?能提高效率呢?谢谢大家。

论坛徽章:
0
2 [报告]
发表于 2013-08-06 17:17 |只看该作者
文件多效率也不会太差吧,关键你这样并没有修改原文件?

论坛徽章:
0
3 [报告]
发表于 2013-08-06 17:34 |只看该作者
-i 是写入文件,所以已经修改了。回复 2# ljt2k


   

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
4 [报告]
发表于 2013-08-07 08:32 |只看该作者
也没啥好换的,要不用 perl
  1. find -name "*.[ch]"  | xargs perl  -i.bak -pe 's/.*版权所有.*大白兔.*/                版权所有 (C), 2011-2012,小灰狼\n/g'
复制代码

论坛徽章:
0
5 [报告]
发表于 2013-08-07 16:39 |只看该作者
版主,你好,我仔细找了找原因,出现CPU 100%的原因是因为 扫描到了UTF8文件。然后转码出现问题(可能是该文件有特殊字符)。我这个脚本该如何写呢?
我的思路是先查找文件,如果碰到该文件为UTF8。则先转码成gbk..然后在用sed替换。。。
这个该如何写?困扰我3天了、、呜呜。。。。
回复 4# rdcwayx


   

论坛徽章:
0
6 [报告]
发表于 2013-08-07 16:43 |只看该作者
我在想,如果先把所有文件转码成GBK.这样有的会不会乱码?
所以我想。如果判断该进程出现僵持。则判断此文件是否为GBK..如果不为GBK.则转码继续执行、、、这个该如何写??回复 4# rdcwayx


   

论坛徽章:
15
2015年辞旧岁徽章
日期:2015-03-03 16:54:15双鱼座
日期:2015-01-15 17:29:44午马
日期:2015-01-06 17:06:51子鼠
日期:2014-11-24 10:11:13寅虎
日期:2014-08-18 07:10:55酉鸡
日期:2014-04-02 12:24:51双子座
日期:2014-04-02 12:19:44天秤座
日期:2014-03-17 11:43:36亥猪
日期:2014-03-13 08:13:51未羊
日期:2014-03-11 12:42:03白羊座
日期:2013-11-20 10:15:18CU大牛徽章
日期:2013-04-17 11:48:45
7 [报告]
发表于 2013-08-07 20:11 |只看该作者
本帖最后由 rdcwayx 于 2013-08-07 22:11 编辑

调整了一下,只对确认需要改的文件,才运行sed去替换。你试一下,看看是否能节省时间。
  1. find -name "*.[ch]" |while read file
  2. do
  3.    line=`head -10 $file |awk 'BEGIN{s=0}/版权所有.*大白兔/{s=NR}END{print s}'`
  4.    if [ ${line} -gt "0" ] ; then
  5.        echo "find the file $file and replacing..."
  6.        sed -i "$line s/.*版权所有.*大白兔.*/                版权所有 (C), 2011-2012,小灰狼\n/g" $file
  7.    fi
  8. done
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP