免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1809 | 回复: 0
打印 上一主题 下一主题

python pandas用于大数据分析的场景 [复制链接]

论坛徽章:
6
IT运维版块每日发帖之星
日期:2015-09-05 06:20:00IT运维版块每日发帖之星
日期:2015-09-06 06:20:00IT运维版块每日发帖之星
日期:2015-10-17 06:20:00IT运维版块每周发帖之星
日期:2015-11-06 19:28:13IT运维版块每日发帖之星
日期:2015-11-07 06:20:00操作系统版块每周发帖之星
日期:2015-12-02 15:01:04
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-09-16 09:58 |只看该作者 |倒序浏览
最近在学习pandas相关的知识,叹服他对数字型信息的高效灵活处理,但是一直觉得有些困扰的地方是,数据源可以有哪些渠道获得?
从Python For Data Analysis 书中描述data load的方式有一下几种:
1. 从文本文件中加载数据
2. 从数据库中加载数据
3. 从binary format文件中加载数据,主要指hdf5和excel格式的文件
4. 从html和web API提取数据

针对以上不同的情况,那一般什么场景下会使用到pandas进行分析呢?
1. 文本文件我想到的是对大日志文件的分析
2. 从数据库中提取数据,我很担心会不会在获取数据的过程中会存在性能瓶颈?比如我从一个表中提取一亿条数据,光这一步就会很耗时(不知道hbase是否会快一点)
3. 暂时还未想到什么情况会用到,是否和第一次情况类似?至少不存在第二步数据提取的过程
4. 如果与html或者WEB API数据存在哪里呢?我理解这类数据不是一次达到一个很大的规模,是一个累积的过程吧

请各位大侠也帮忙指点指点,讨论讨论,多谢,因为我一直认为hadoop这样大型的环境应该是上了几个TB的数据才会更加适用,pandas正好是一个补充,所以想把这事儿想明白  
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP