论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2009-02-26 21:59 |只看该作者 |倒序浏览

其实，办法还是有很多的，但是哪个高效呢？

1，可以用一个while循环然后用fgets，也可以用C++的getline
2，stat获取文件大小，然后可以用mmap的方式
3，stat获取文件大小，然后利用系统调用read()函数，read是read_n方式读取

现在我用的是read_n方式，一次性读取。个人理解这样的系统调用次数应该是最少的（当然，以一次能顺利读取整个文件大小为前提）。
现在问题来了，简单取一个模型，

1、一个进程要读取25个这样的文件，读取形式很简单，读进内存，然后释放内存。
2、文件有两类，A类文件和B类文件，大小B类文件是A类文件的5倍大小。
3、假设有25*100个A类文件和25*100个B类文件，开100个进程去读，每个进程读25个文件。
4、每个A类文件的大小是500K,每个B类文件的大小是2.5M

如上所说，读文件的方式我使用的是read_n方式。也就是第三种。

问题来了！
读B类文件大小所花的时间，是读A类文件的4倍左右的时间。这是否是因为文件大小影响了时间效率？

文库|博客

chouyatingde

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2009-02-26 22:17 |只看该作者

对呀，文件大，读起来当然就慢了。文件系统读一个文件的时候也得一块一块的读呀。文件系统追到底下是block device. 以block为单位的操作。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

scutan

版主

论坛徽章:: 0

3楼 [报告]

发表于 2009-02-26 23:24 |只看该作者

回复 #1 stratovarius 的帖子

嗯。是因为文件大小而影响的速度。
其实使用read_n与mmap的速度差不多的，我以前对大文件测试过。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

雨过白鹭洲

大富大贵

论坛徽章:: 0

4楼 [报告]

发表于 2009-02-27 09:25 |只看该作者

我想明确一下，这个贴是讨论读取文件全部内容的方式，还是讨论效率最高的读取方式？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

stratovarius

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2009-02-27 11:54 |只看该作者

原帖由 scutan 于 2009-2-26 23:24 发表
嗯。是因为文件大小而影响的速度。
其实使用read_n与mmap的速度差不多的，我以前对大文件测试过。

其实还是有区别的, 用read_n读大文件, 比如说是500M的,我的测试结果是, 比如说要读1000个这样的500M大小的文件,随着时间运行越来越长, 用mmap的读取时间会出现波动, 而用read_n则很稳定, 基本是在0-2秒内搞定. mmap则会出现0-10秒内的浮动, 我想应该是跟操作系统的映射策略有关, 如lazy loading. 用的是IBM的3850, 4U, 32G RAM, 不过用的是GPFS文件系统,并发数没这么高, 估计最多也是3-5个之间

[ 本帖最后由 stratovarius 于 2009-2-27 11:57 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

stratovarius

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2009-02-27 11:56 |只看该作者

原帖由 雨过白鹭洲 于 2009-2-27 09:25 发表
我想明确一下，这个贴是讨论读取文件全部内容的方式，还是讨论效率最高的读取方式？

讨论的是读取文件全部内容的方式并且讨论一下使用哪种方式会让我的测试case的效率比较好.

[ 本帖最后由 stratovarius 于 2009-2-27 11:58 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › C/C++ › 大家进来讨论一下unix下把文件全部内容加载入内存的办法 ...

大家进来讨论一下unix下把文件全部内容加载入内存的办法。 [复制链接]

回复 #1 stratovarius 的帖子

浏览过的版块