免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: 大血落弯刀
打印 上一主题 下一主题

[C] 含泪求助帮我改改C程序,提高处理数据效率 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2008-12-18 23:36 |只看该作者

回复 #9 ivhb 的帖子

time sort  Noname.txt | uniq -c

执行后,
real    0m2.275s
user    0m2.225s
sys     0m0.061s

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
12 [报告]
发表于 2008-12-18 23:42 |只看该作者
原帖由 大血落弯刀 于 2008-12-18 23:36 发表
time sort  Noname.txt | uniq -c

执行后,
real    0m2.275s
user    0m2.225s
sys     0m0.061s

sort -u

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
13 [报告]
发表于 2008-12-18 23:43 |只看该作者
我觉得才几万行,可以忽略了。

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
14 [报告]
发表于 2008-12-18 23:43 |只看该作者
不如把你的 txt 发上来,我用 haskell 做一个测一下。

论坛徽章:
0
15 [报告]
发表于 2008-12-18 23:45 |只看该作者

回复 #14 flw 的帖子

我发上去了,早附件里,你看看吧
谢谢

论坛徽章:
0
16 [报告]
发表于 2008-12-18 23:58 |只看该作者
谢谢各位的支持,如果用C的话
能把我的程序分析修改一下,提高效率吗
谢谢

论坛徽章:
0
17 [报告]
发表于 2008-12-19 00:08 |只看该作者
原帖由 大血落弯刀 于 2008-12-18 23:36 发表
time sort  Noname.txt | uniq -c

执行后,
real    0m2.275s
user    0m2.225s
sys     0m0.061s


对于你的需求来说,sort多做了很多额外的工作。对于你的少量记录来说,排序是没有必要的。完全可以用内存全程记录并计数,
这就是awk远比sort快的缘故。
我比较喜欢较真,你的文本我下载了。在我的测试下

  1. /tmp> time awk -f y.awk Noname.txt  > kk

  2. real    0m0.168s
  3. user    0m0.106s
  4. sys     0m0.031s
复制代码


远远的小于你说的时间。不知道你如何得出效率不行的结论。相反的,我认为,就这个例子来说,做到和awk一样快已经很不错了。

论坛徽章:
0
18 [报告]
发表于 2008-12-19 00:28 |只看该作者

回复 #17 ivhb 的帖子

谢谢你的较真,实际上我把数据量加大到80W后的测得数据

real    0m37.372s
user    0m37.455s
sys     0m0.162s

我再试试你说的法子吧
谢谢你了

[ 本帖最后由 大血落弯刀 于 2008-12-19 00:44 编辑 ]

论坛徽章:
324
射手座
日期:2013-08-23 12:04:38射手座
日期:2013-08-23 16:18:12未羊
日期:2013-08-30 14:33:15水瓶座
日期:2013-09-02 16:44:31摩羯座
日期:2013-09-25 09:33:52双子座
日期:2013-09-26 12:21:10金牛座
日期:2013-10-14 09:08:49申猴
日期:2013-10-16 13:09:43子鼠
日期:2013-10-17 23:23:19射手座
日期:2013-10-18 13:00:27金牛座
日期:2013-10-18 15:47:57午马
日期:2013-10-18 21:43:38
19 [报告]
发表于 2008-12-19 09:15 |只看该作者
原帖由 大血落弯刀 于 2008-12-18 23:58 发表
谢谢各位的支持,如果用C的话
能把我的程序分析修改一下,提高效率吗
谢谢



你的代码问题实在比较多。
1、一个文件读了两次,实在浪费,如果早的编译器都不会支持char Str[iRowCnt][50]的。建议先获取文件大小,申请足够的内存,一次性读取,或者改用mmap
2、memset、memcpy、strlen之类太多,很多没必要
3、最后的双重循环效率太差,改用二叉树、排序试试(改用C++吧,有STL可用)

论坛徽章:
0
20 [报告]
发表于 2008-12-19 09:27 |只看该作者
用二叉树存储,每次读取一行遍历树查找,读完时遍历一遍树,打印信息,这样的方法试过没有?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP