忘记密码   免费注册 查看新帖 |

ChinaUnix.net

  平台 论坛 博客 文库 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
查看: 5302 | 回复: 2

[其他] 苦恼!寻求一种工具分析大文本数据 [复制链接]

论坛徽章:
0
发表于 2016-07-12 16:51 |显示全部楼层
各位大大们,大家好!
  
   我现在遇到一个较为困难的事,需要分析近20G 大小的文本文件,文本其实是csv文本,里面有各样的记录信息。现在领导想分析和提取。之前的伙计用的方法是将其全导入MYSQL再用SQL提数汇总计算,但是这样效率超级慢。 
   请问有什么可以提高处理效率的方法呢?因为是离线分析,其实时间在2个小时内都可以接受。 我考虑是否可以使用:Hadoop?还是R语言还是perl还是bash+awk就行了?搞不懂了。大在们有什么建议吗

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17天秤座
日期:2014-08-26 16:18:20天秤座
日期:2014-08-29 10:12:18丑牛
日期:2014-08-29 16:06:45丑牛
日期:2014-09-03 10:28:58射手座
日期:2014-09-03 16:01:17寅虎
日期:2014-09-11 14:24:21天蝎座
日期:2014-09-17 08:33:55IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
发表于 2016-07-12 18:26 |显示全部楼层
perl就可以。

如果真的2小时可接受的话。

论坛徽章:
10
数据库技术版块每日发帖之星
日期:2015-06-14 22:20:00数据库技术版块每日发帖之星
日期:2016-03-10 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-09 06:20:00IT运维版块每日发帖之星
日期:2015-11-02 06:20:00IT运维版块每日发帖之星
日期:2015-07-13 22:59:28IT运维版块每日发帖之星
日期:2015-06-23 22:20:00程序设计版块每日发帖之星
日期:2015-06-21 22:20:00每日论坛发贴之星
日期:2015-06-14 22:20:00IT运维版块每日发帖之星
日期:2016-08-02 06:20:00
发表于 2016-07-30 09:30 |显示全部楼层
使用mongo,或hbase,可以给我发一部分数据,我帮你分析下。hiyachen@163.com 回复 1# ipv6ok


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则

【内含福利】这个大会由AI推荐~
福利投放:从ChinaUnix社区申领报名可获得600元门票;到场可获得小米手环3一个

40+场AI前沿主题演讲, 五大AI专题论坛, 1000平米AI实景应用展区, 更有30+大咖亲临, 美国工程院院士丛京生、中国工程院院士高文、美国杜克大学终身副教授陈怡然、百度深度学习技术平台部负责人马艳军等顶级研究专家为你带来最前沿的AI分享。 金秋九月,AICC2018人工智能计算大会 与你,邀约北京!

报名了解>>
  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:wangnan@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP