论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2015-01-09 20:39 |只看该作者 |倒序浏览

现在有一个日志文件，格式如下

userid	badge
001 002 003 001 ……	badge1 badge2 badge1 badge2 ……

现在想把同一用户的数据提取出来，用的grep命令
但是用户数目很多有1,000,000+，十分耗时
问了一个大神说，可以先将userid排序之后，然后再用Streaming的方式提取，类似于map/reduce 的思想，这样可以节省内存提速
但是我还是没明白排序之后如何能够提速的？
有没有哪位大神能够解释一下呢？

reduce, 如何, 用户

文库|博客

Shell_HAT

版主

论坛徽章:: 33

2楼 [报告]

发表于 2015-01-09 20:55 |只看该作者

把你的grep命令发出来看看

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

keedor

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2015-01-09 21:21 |只看该作者

我是在java中调用shell，java代码在附件中

code.pdf (32.79 KB, 下载次数: 2)
主要代码是这一句，其中user_badgename_path是存放userid+badgename的文本文件，格式如第一楼内容表格中所示，userID是userlist中的一个user
cat " + user_badgename_path + " | awk -F ' ' "+"'{if(match($1,"+'"'+"^"+userID+"$"+'"'+"))print $0}'
大神给的类似代码是
awk '{print "grep \"^"$1, "\"", "badge_path";}' userlist_path | sh
说是效果应该是一样的，但是如果用户数过多，也会非常耗时，建议用第一楼中思路，但其中原理不懂，望大神指点一二
回复 2# Shell_HAT

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Shell_HAT

版主

论坛徽章:: 33

4楼 [报告]

发表于 2015-01-09 21:45 |只看该作者

回复 3# keedor

1、给 grep 命令加上 -F 选项可以提高效率，比如：
awk '{print "grep -F \"^"$1, "\"", "badge_path";}' userlist_path | sh

2、不要盲目的迷恋大神，也许就被他们带到沟里了。你先测试一下有sort和没有sort的情况下，到底速度差多少。比如：
awk '{print "grep -F \"^"$1, "\"", "badge_path";}' userlist_path | sh
sort -k1,1 userlist_path | awk '{print "grep -F \"^"$1, "\"", "badge_path";}' | sh

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Shell_HAT

版主

论坛徽章:: 33

5楼 [报告]

发表于 2015-01-09 21:49 |只看该作者

不知道你的原始需求是怎样的，如果只是查看某个用户的数据，直接grep不就行了吗，为啥要awk呢？

grep -F "001" 1.txt

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

keedor

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2015-01-09 21:59 |只看该作者

grep是包含有字符的都会输出，而我只要第一个字段包含的
比如有以下两行数据是
1 badge10badge
10 badge11
如果直接grep的话，我想找userid为10的，但是会把第一行也输出，所以用到了awk
问题是如果我的user数有1,000,000+也就是100万级别的话，分别查找输出到各自文件耗时很大，因为每次找一个用户的文件就会遍历一次文件，文件大小为900m左右
回复 5# Shell_HAT