Chinaunix
标题:
awk代码效率优化
[打印本页]
作者:
记忆的断层
时间:
2011-02-14 17:19
标题:
awk代码效率优化
本帖最后由 记忆的断层 于 2011-02-14 18:50 编辑
awk怎么优化从配置文件中读取数据
有个文件有300M左右(大概有30W条记录),每个字段之间是以“,”为分割域,一条记录有60个域,对其中的多个域根据多个配置文件中对应的配置项做修改,
ps: 需要修改的域和对应的配置文件有确定的对应关系
比如
curr_cd域对应curr_cd.cfg
以下的代码是对其中一个域的处理
现在代码中用的是以下处理方法(getline),每次都需要从文件的head开始读取配置,配置文件中的数据是有规则的
while( getline curr_data < "curr_cd.cfg" > 0 )
{
split(curr_data ,curr_cd_arr,",")
if( curr_cd_arr[1] == curr_cd )
{
samt=sprintf("%s%s",array[1],substr(array[2],1,curr_cd_arr[2]))
flag=1
break
}
}
close("curr_cd.cfg")
复制代码
效率实在接受不了,有没有好的办法处理,把配置文件的记录全部读到一个数组里(测试过,效率更低),然后从数组里面读取效率能高多少?
望高手指点下
作者:
lkk2003rty
时间:
2011-02-14 18:01
需求是啥 感觉楼主重复读配置文件了
作者:
记忆的断层
时间:
2011-02-14 18:03
现在是重复读的,刚跳整了下代码,把配置文件的记录全部读到一个数组里,效率也没有提高多少
作者:
ywlscpl
时间:
2011-02-14 18:43
说一下原始需求
作者:
yinyuemi
时间:
2011-02-15 04:16
试试这个:
假设urfile是你要修改的文件,第一列的值需要修改,配置文件的第一列为urfile的修改项,第二列为对应的修改值。
awk -F, 'FILENAME!="urfile" {a[$1]=$2} FILENAME=="urfile" {
$1=a[$1];
print}' *.cfg urfile
或者你也可以加一个循环在红色部分,这样可以对多个值修改。
作者:
记忆的断层
时间:
2011-02-15 09:31
本帖最后由 记忆的断层 于 2011-02-15 09:45 编辑
回复
5#
yinyuemi
谢谢,不是简单的替换,是要根据配置文件的内容,对记录做处理的,比如 某个字段问金额值,都是默认的3位精度 “111111.123” 需要根据币种去换算对应的double类型
如rmb转换为111111.123 ,该币种有1位小数点才转换为111111.1
欢迎光临 Chinaunix (http://bbs.chinaunix.net/)
Powered by Discuz! X3.2