免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
1234下一页
最近访问板块 发新帖
查看: 7199 | 回复: 30
打印 上一主题 下一主题

文本内容替换的脚本,帮看是否能够优化一下 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-12-28 10:48 |只看该作者 |倒序浏览
大家好
现手头有一批要替换的文本文件,写了个脚本请大家帮忙看一下是否能够再优化一下。这个循环太多了 速度实在是太慢

如下
a.txt
前后是新旧两组号码,要把指定文本的包含的旧号码,换成后面对应的新号码,大概300数据
140200003700.140200042852
142600009182.142600069906
142300003784.142300033332
142600009618.142600084180
142600038153.142600066756
142600002050.142600066015
142300003729.142300033319
142600014686.142600072919


tail 14_10002_2009348_VIP.DAT   这些DAT文件即为要替换的文本,每个DAT文件平均大概3w行数据左右
14,10002,2009348     ,14030065    ,100037,2009-12-21 19:59:37,2.00         ,140300020299,
14,10002,2009348     ,14270093    ,100247,2009-12-21 19:59:37,2.00         ,142700107999,
14,10002,2009348     ,14010023    ,100290,2009-12-21 19:59:37,2.00         ,140100141364
把后面的卡号 用a.txt中的对应内容替换

脚本:
for i in `cat name.txt `
do
cd DIR/$i
for a in `cat DIR/a.txt`
do
old=`echo $a |awk -F . {'print $1'}`
new=`echo $a |awk -F . {'print $2'}`
sed -i  s/"${old}"/"${new}"/g  DIR/$i/*.DAT
done
done

其中name.txt是一个 目录的列表 ,每个列表下有多个 DAT文件。大概200个目录,500个文件左右。

大家看一下我这个循环是否还能在优化一下  ,我测试了一下 跑起来实在是太慢了 全跑一次 大概要 一整天。。
或者能提供一个能提高一下速度的思路  

谢谢

[ 本帖最后由 bugouhen 于 2009-12-28 11:39 编辑 ]

论坛徽章:
0
2 [报告]
发表于 2009-12-28 11:15 |只看该作者
sed和shell不要混用

论坛徽章:
0
3 [报告]
发表于 2009-12-28 11:19 |只看该作者
麻烦 请楼上的 多解释一下好么
谢谢

论坛徽章:
0
4 [报告]
发表于 2009-12-28 11:24 |只看该作者
把那个sed用shell来代替

论坛徽章:
0
5 [报告]
发表于 2009-12-28 11:26 |只看该作者
原帖由 莫良23 于 2009-12-28 11:24 发表
把那个sed用shell来代替


把sed那句写成 sh
sh   sed.sh   ?


是这个意思吧 ??
这样会提升速度么 ??

xiexie

[ 本帖最后由 bugouhen 于 2009-12-28 12:27 编辑 ]

论坛徽章:
0
6 [报告]
发表于 2009-12-28 11:49 |只看该作者
原帖由 莫良23 于 2009-12-28 11:24 发表
把那个sed用shell来代替



淡有时候也可以扯, 但不能胡扯. 愿闻其详: shell与sed区别到底是啥啊

论坛徽章:
0
7 [报告]
发表于 2009-12-28 12:17 |只看该作者
不知道这样会不会快点?还是会更慢
  1. DIR="xxxx"
  2. for i in `cat name.txt `
  3. do
  4.   cd $DIR/$i
  5.   for file in *.DAT
  6.   do
  7.     awk -F, -v OFS=, 'NR==FNR{split($0,m,".");a[m[1]]=m[2];delete m}NR>FNR{if ($6 in a) $6=a[$6];$1=$1;print}' $DIR/a.txt $file >$file.new
  8.     \mv -f $file.new $file
  9.   done
  10. done
复制代码

论坛徽章:
0
8 [报告]
发表于 2009-12-28 12:26 |只看该作者
原帖由 nhw_cs 于 2009-12-28 11:49 发表



淡有时候也可以扯, 但不能胡扯. 愿闻其详: shell与sed区别到底是啥啊




恩  请23 帮忙解释一下。。
谢谢

我现在是找了个性能好点的机器跑 感觉快了点哈

论坛徽章:
0
9 [报告]
发表于 2009-12-28 12:42 |只看该作者
用Hash做,原始值作为key,替换值作为value

论坛徽章:
0
10 [报告]
发表于 2009-12-28 13:04 |只看该作者
每次用sed来处理100个文件肯定比100次调用sed每次处理一个文件要快
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP