论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2011-02-14 17:19 |只看该作者 |倒序浏览

本帖最后由记忆的断层于 2011-02-14 18:50 编辑

awk怎么优化从配置文件中读取数据

有个文件有300M左右（大概有30W条记录），每个字段之间是以“，”为分割域，一条记录有60个域，对其中的多个域根据多个配置文件中对应的配置项做修改，
ps: 需要修改的域和对应的配置文件有确定的对应关系
比如
curr_cd域对应curr_cd.cfg

以下的代码是对其中一个域的处理

现在代码中用的是以下处理方法（getline），每次都需要从文件的head开始读取配置，配置文件中的数据是有规则的

while( getline curr_data < "curr_cd.cfg" > 0 )
{
split(curr_data ,curr_cd_arr,",")
if( curr_cd_arr[1] == curr_cd )
{
samt=sprintf("%s%s",array[1],substr(array[2],1,curr_cd_arr[2]))
flag=1
break
}
}
close("curr_cd.cfg")

复制代码

效率实在接受不了，有没有好的办法处理，把配置文件的记录全部读到一个数组里（测试过，效率更低），然后从数组里面读取效率能高多少？
望高手指点下

文库|博客

lkk2003rty

巨富豪门

论坛徽章:: 0

2楼 [报告]

发表于 2011-02-14 18:01 |只看该作者

需求是啥感觉楼主重复读配置文件了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

记忆的断层

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2011-02-14 18:03 |只看该作者

现在是重复读的，刚跳整了下代码，把配置文件的记录全部读到一个数组里，效率也没有提高多少

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ywlscpl

富甲一方

论坛徽章:: 0

4楼 [报告]

发表于 2011-02-14 18:43 |只看该作者

说一下原始需求

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yinyuemi

大富大贵

论坛徽章:: 2

5楼 [报告]

发表于 2011-02-15 04:16 |只看该作者

试试这个：
假设urfile是你要修改的文件，第一列的值需要修改，配置文件的第一列为urfile的修改项，第二列为对应的修改值。
awk -F, 'FILENAME!="urfile" {a[$1]=$2} FILENAME=="urfile" {$1=a[$1];print}' *.cfg urfile

或者你也可以加一个循环在红色部分，这样可以对多个值修改。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

记忆的断层

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2011-02-15 09:31 |只看该作者

本帖最后由记忆的断层于 2011-02-15 09:45 编辑

回复 5# yinyuemi

谢谢，不是简单的替换，是要根据配置文件的内容，对记录做处理的，比如某个字段问金额值，都是默认的3位精度 “111111.123” 需要根据币种去换算对应的double类型

如rmb转换为111111.123 ，该币种有1位小数点才转换为111111.1

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › awk代码效率优化

awk代码效率优化 [复制链接]