123 4 5 / 5 页下一页

[C] 含泪求助帮我改改C程序,提高处理数据效率 [复制链接]

大血落弯刀

白手起家

论坛徽章:: 0

11楼 [报告]

发表于 2008-12-18 23:36 |只看该作者

回复 #9 ivhb 的帖子

time sort Noname.txt | uniq -c

执行后,
real 0m2.275s
user 0m2.225s
sys 0m0.061s

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

flw

版主

论坛徽章:: 1

12楼 [报告]

发表于 2008-12-18 23:42 |只看该作者

原帖由 大血落弯刀 于 2008-12-18 23:36 发表
time sort Noname.txt | uniq -c

执行后,
real 0m2.275s
user 0m2.225s
sys 0m0.061s

sort -u

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

flw

版主

论坛徽章:: 1

13楼 [报告]

发表于 2008-12-18 23:43 |只看该作者

我觉得才几万行，可以忽略了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

flw

版主

论坛徽章:: 1

14楼 [报告]

发表于 2008-12-18 23:43 |只看该作者

不如把你的 txt 发上来，我用 haskell 做一个测一下。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

大血落弯刀

白手起家

论坛徽章:: 0

15楼 [报告]

发表于 2008-12-18 23:45 |只看该作者

回复 #14 flw 的帖子

我发上去了,早附件里,你看看吧
谢谢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

大血落弯刀

白手起家

论坛徽章:: 0

16楼 [报告]

发表于 2008-12-18 23:58 |只看该作者

谢谢各位的支持,如果用C的话
能把我的程序分析修改一下,提高效率吗
谢谢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ivhb

家境小康

论坛徽章:: 0

17楼 [报告]

发表于 2008-12-19 00:08 |只看该作者

原帖由 大血落弯刀 于 2008-12-18 23:36 发表
time sort Noname.txt | uniq -c

执行后,
real 0m2.275s
user 0m2.225s
sys 0m0.061s

对于你的需求来说，sort多做了很多额外的工作。对于你的少量记录来说，排序是没有必要的。完全可以用内存全程记录并计数，
这就是awk远比sort快的缘故。
我比较喜欢较真，你的文本我下载了。在我的测试下

/tmp> time awk -f y.awk Noname.txt > kk
real 0m0.168s
user 0m0.106s
sys 0m0.031s

复制代码

远远的小于你说的时间。不知道你如何得出效率不行的结论。相反的，我认为，就这个例子来说，做到和awk一样快已经很不错了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

大血落弯刀

白手起家

论坛徽章:: 0

18楼 [报告]

发表于 2008-12-19 00:28 |只看该作者

回复 #17 ivhb 的帖子

谢谢你的较真,实际上我把数据量加大到80W后的测得数据

real 0m37.372s
user 0m37.455s
sys 0m0.162s

我再试试你说的法子吧
谢谢你了

[ 本帖最后由大血落弯刀于 2008-12-19 00:44 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hellioncu

巨富豪门

论坛徽章:: 324

19楼 [报告]

发表于 2008-12-19 09:15 |只看该作者

原帖由 大血落弯刀 于 2008-12-18 23:58 发表
谢谢各位的支持,如果用C的话
能把我的程序分析修改一下,提高效率吗
谢谢

你的代码问题实在比较多。
1、一个文件读了两次，实在浪费，如果早的编译器都不会支持char Str[iRowCnt][50]的。建议先获取文件大小，申请足够的内存，一次性读取，或者改用mmap
2、memset、memcpy、strlen之类太多，很多没必要
3、最后的双重循环效率太差，改用二叉树、排序试试（改用C++吧，有STL可用）

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

duanjigang

版主

论坛徽章:: 0

20楼 [报告]

发表于 2008-12-19 09:27 |只看该作者

用二叉树存储，每次读取一行遍历树查找，读完时遍历一遍树，打印信息，这样的方法试过没有？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

123 4 5 / 5 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › C/C++ › 含泪求助帮我改改C程序,提高处理数据效率