免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1996 | 回复: 7
打印 上一主题 下一主题

[文本处理] 脚本运行效率太差 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2018-01-30 09:53 |只看该作者 |倒序浏览
代码如下:
#! /bin/bash
for line in `cat BC.csv`
do
   declare -i na_num
   declare -i not_na_num
   na_num=$(echo $line|awk -F "," '{for(i=1;i<=NF;++i) if($i=="NA") ++num}END{print num}')
   sum=$(echo $line|awk -F "," '{for(i=4;i<=NF;i+=2) if($i!="NA") sum+=$i}END{print sum}')
   not_na_num=$(echo $line|awk -F',' '{for(i=4;i<=NF;i+=2) if($i!="NA") ++sum_1}END{print sum_1}')
   avg=`echo "$sum/$not_na_num"|bc`
   if [ $na_num -le 6 ] && [ `echo "$avg <= 5"|bc` -eq 1 ];then
        echo $line >> BC_filter.csv
   fi
done
数据大小也就100多兆,但是跑了好几天都还没跑完,后来投上去的其它脚本都跑完了,这个还没跑到一半,用ps aux查看了一下:

如图,CPU占用才13.9,而且经常处于S而非R状态,运行效率真的很慢!请问有人知道这到底是哪个步骤出了问题吗?

论坛徽章:
2
射手座
日期:2014-10-10 15:59:4715-16赛季CBA联赛之上海
日期:2016-03-03 10:27:14
2 [报告]
发表于 2018-01-30 10:45 |只看该作者
用awk重写吧

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
3 [报告]
发表于 2018-01-30 15:02 |只看该作者
回复 1# elaine2017


"效率太差"(坐公交车太慢)...
你应说明要作什么(目的地在那)...

公交车太慢,可坐其他的,但要知道目的地在那...


1. input data
2. procedure
3. output data

论坛徽章:
0
4 [报告]
发表于 2018-01-30 16:29 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
0
5 [报告]
发表于 2018-01-30 16:30 |只看该作者
回复 2# yinyuemi

我换了种语言写,快多了

论坛徽章:
0
6 [报告]
发表于 2018-01-30 16:32 |只看该作者
回复 4# 本友会机友会摄友会

powershell我还没怎么研究过诶,我写的这个确实不行,太慢了,换了python试了一下,很快就跑完了

论坛徽章:
0
7 [报告]
发表于 2018-01-30 16:53 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
25
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之上海
日期:2018-12-11 09:45:3219周年集字徽章-年
日期:2020-04-18 23:54:5215-16赛季CBA联赛之深圳
日期:2020-04-19 21:40:19黑曼巴
日期:2022-04-03 17:55:1315-16赛季CBA联赛之八一
日期:2018-07-03 16:56:46
8 [报告]
发表于 2018-02-03 16:30 |只看该作者
回复 1# elaine2017


1次循环能解决的问题,不要使用多次循环。题主提供的代码处理1行数据就用了多次循环,所以效率差,这和语言本身无关,你可以重写优化一下。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP