Chinaunix

标题: awk代码效率优化 [打印本页]

作者: 记忆的断层 时间: 2011-02-14 17:19
标题: awk代码效率优化
本帖最后由记忆的断层于 2011-02-14 18:50 编辑

awk怎么优化从配置文件中读取数据

有个文件有300M左右（大概有30W条记录），每个字段之间是以“，”为分割域，一条记录有60个域，对其中的多个域根据多个配置文件中对应的配置项做修改，
ps: 需要修改的域和对应的配置文件有确定的对应关系
比如
curr_cd域对应curr_cd.cfg

以下的代码是对其中一个域的处理

现在代码中用的是以下处理方法（getline），每次都需要从文件的head开始读取配置，配置文件中的数据是有规则的

while( getline curr_data < "curr_cd.cfg" > 0 )
{
split(curr_data ,curr_cd_arr,",")
if( curr_cd_arr[1] == curr_cd )
{
samt=sprintf("%s%s",array[1],substr(array[2],1,curr_cd_arr[2]))
flag=1
break
}
}
close("curr_cd.cfg")

复制代码

效率实在接受不了，有没有好的办法处理，把配置文件的记录全部读到一个数组里（测试过，效率更低），然后从数组里面读取效率能高多少？
望高手指点下

作者: lkk2003rty 时间: 2011-02-14 18:01
需求是啥感觉楼主重复读配置文件了

作者: 记忆的断层 时间: 2011-02-14 18:03
现在是重复读的，刚跳整了下代码，把配置文件的记录全部读到一个数组里，效率也没有提高多少

作者: ywlscpl 时间: 2011-02-14 18:43
说一下原始需求

作者: yinyuemi 时间: 2011-02-15 04:16
试试这个：
假设urfile是你要修改的文件，第一列的值需要修改，配置文件的第一列为urfile的修改项，第二列为对应的修改值。
awk -F, 'FILENAME!="urfile" {a[$1]=$2} FILENAME=="urfile" {$1=a[$1];print}' *.cfg urfile

或者你也可以加一个循环在红色部分，这样可以对多个值修改。

作者: 记忆的断层 时间: 2011-02-15 09:31
本帖最后由记忆的断层于 2011-02-15 09:45 编辑

回复 5# yinyuemi

谢谢，不是简单的替换，是要根据配置文件的内容，对记录做处理的，比如某个字段问金额值，都是默认的3位精度 “111111.123” 需要根据币种去换算对应的double类型

如rmb转换为111111.123 ，该币种有1位小数点才转换为111111.1

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)