苦恼!寻求一种工具分析大文本数据
各位大大们,大家好!我现在遇到一个较为困难的事,需要分析近20G 大小的文本文件,文本其实是csv文本,里面有各样的记录信息。现在领导想分析和提取。之前的伙计用的方法是将其全导入MYSQL再用SQL提数汇总计算,但是这样效率超级慢。
请问有什么可以提高处理效率的方法呢?因为是离线分析,其实时间在2个小时内都可以接受。 我考虑是否可以使用:Hadoop?还是R语言还是perl还是bash+awk就行了?搞不懂了。大在们有什么建议吗 perl就可以。
如果真的2小时可接受的话。 使用mongo,或hbase,可以给我发一部分数据,我帮你分析下。hiyachen@163.com 回复 1# ipv6ok
页:
[1]