忘记密码   免费注册 查看新帖 |

ChinaUnix.net

  平台 论坛 博客 文库 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
查看: 3603 | 回复: 2

[其他] 苦恼!寻求一种工具分析大文本数据 [复制链接]

论坛徽章:
0
发表于 2016-07-12 16:51 |显示全部楼层
各位大大们,大家好!
  
   我现在遇到一个较为困难的事,需要分析近20G 大小的文本文件,文本其实是csv文本,里面有各样的记录信息。现在领导想分析和提取。之前的伙计用的方法是将其全导入MYSQL再用SQL提数汇总计算,但是这样效率超级慢。 
   请问有什么可以提高处理效率的方法呢?因为是离线分析,其实时间在2个小时内都可以接受。 我考虑是否可以使用:Hadoop?还是R语言还是perl还是bash+awk就行了?搞不懂了。大在们有什么建议吗

论坛徽章:
33
荣誉会员
日期:2011-11-23 16:44:17射手座
日期:2014-09-03 16:01:17天蝎座
日期:2014-08-21 17:18:48丑牛
日期:2014-08-29 16:06:45天秤座
日期:2014-08-29 10:12:18天秤座
日期:2014-08-26 16:18:20双子座
日期:2014-07-30 11:38:27寅虎
日期:2014-08-04 10:24:12IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
发表于 2016-07-12 18:26 |显示全部楼层
perl就可以。

如果真的2小时可接受的话。

论坛徽章:
10
IT运维版块每日发帖之星
日期:2015-07-13 22:59:28数据库技术版块每日发帖之星
日期:2016-03-10 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-09 06:20:00IT运维版块每日发帖之星
日期:2015-11-02 06:20:00IT运维版块每日发帖之星
日期:2015-06-23 22:20:00程序设计版块每日发帖之星
日期:2015-06-21 22:20:00每日论坛发贴之星
日期:2015-06-14 22:20:00数据库技术版块每日发帖之星
日期:2015-06-14 22:20:00IT运维版块每日发帖之星
日期:2016-08-02 06:20:00
发表于 2016-07-30 09:30 |显示全部楼层
使用mongo,或hbase,可以给我发一部分数据,我帮你分析下。hiyachen@163.com 回复 1# ipv6ok


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:wangnan@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP