Chinaunix

标题: awk代码效率优化 [打印本页]

作者: 记忆的断层    时间: 2011-02-14 17:19
标题: awk代码效率优化
本帖最后由 记忆的断层 于 2011-02-14 18:50 编辑

awk怎么优化从配置文件中读取数据

有个文件有300M左右(大概有30W条记录),每个字段之间是以“,”为分割域,一条记录有60个域,对其中的多个域根据多个配置文件中对应的配置项做修改,
ps:   需要修改的域和对应的配置文件有确定的对应关系
比如
    curr_cd域对应curr_cd.cfg

以下的代码是对其中一个域的处理

现在代码中用的是以下处理方法(getline),每次都需要从文件的head开始读取配置,配置文件中的数据是有规则的
  1.             
  2. while( getline curr_data < "curr_cd.cfg" > 0 )
  3. {
  4.       split(curr_data ,curr_cd_arr,",")
  5.       if( curr_cd_arr[1] == curr_cd )
  6.       {
  7.             samt=sprintf("%s%s",array[1],substr(array[2],1,curr_cd_arr[2]))
  8.             flag=1
  9.             break
  10.        }
  11. }
  12. close("curr_cd.cfg")
复制代码
效率实在接受不了,有没有好的办法处理,把配置文件的记录全部读到一个数组里(测试过,效率更低),然后从数组里面读取效率能高多少?
望高手指点下
作者: lkk2003rty    时间: 2011-02-14 18:01
需求是啥 感觉楼主重复读配置文件了
作者: 记忆的断层    时间: 2011-02-14 18:03
现在是重复读的,刚跳整了下代码,把配置文件的记录全部读到一个数组里,效率也没有提高多少
作者: ywlscpl    时间: 2011-02-14 18:43
说一下原始需求
作者: yinyuemi    时间: 2011-02-15 04:16
试试这个:
假设urfile是你要修改的文件,第一列的值需要修改,配置文件的第一列为urfile的修改项,第二列为对应的修改值。
awk -F, 'FILENAME!="urfile" {a[$1]=$2} FILENAME=="urfile" {$1=a[$1];print}' *.cfg urfile

或者你也可以加一个循环在红色部分,这样可以对多个值修改。
作者: 记忆的断层    时间: 2011-02-15 09:31
本帖最后由 记忆的断层 于 2011-02-15 09:45 编辑

回复 5# yinyuemi


    谢谢,不是简单的替换,是要根据配置文件的内容,对记录做处理的,比如  某个字段问金额值,都是默认的3位精度 “111111.123”   需要根据币种去换算对应的double类型


如rmb转换为111111.123              ,该币种有1位小数点才转换为111111.1




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2