论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2018-11-02 11:24 |只看该作者 |倒序浏览

请问大神，我有一份大文件，表头是：名称-时间戳-日期-流量值
我想根据“每个“名称】获得获得它的流【流量值】降序排序第300个值，最后打印出来：【名称-第300个最大值】，想要获得这个结果怎么写
我用到了sort -k1,1,-k4,4nr这样语句
但是因为【名称】特别多，所以排序非常忙

想大神帮帮忙，看看怎么优化

备注：我截取了部分基础数据在附件

问题.png (6.08 KB, 下载次数: 139)

1.rar

163.17 KB, 下载次数: 31

文库|博客

narcissusLin

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2018-11-02 11:26 |只看该作者

写错别字了：
我用到了sort -k1,1,-k4,4nr这样语句
但是因为【名称】特别多，所以排序非常【【慢】】
想优化下时间

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

本友会机友会摄友会本友会机友会摄友会当前离线禁止发言好友博客消息论坛徽章: 0	3楼 [报告] 发表于 2018-11-02 12:08 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

narcissusLin

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2018-11-02 12:51 |只看该作者

回复 3# 本友会机友会摄友会

不是很明白，我使用shell脚本对该文件进行的处理，具体应该要怎么操作，帮忙详解下，谢谢~

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

本友会机友会摄友会本友会机友会摄友会当前离线禁止发言好友博客消息论坛徽章: 0	5楼 [报告] 发表于 2018-11-02 13:11 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

narcissusLin

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2018-11-02 13:43 |只看该作者

回复 5# 本友会机友会摄友会

啊可是我这文件不在数据库里面啊，只是服务器上的一份文件，也能用sql语句？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wh7211

版主

论坛徽章:: 25

7楼 [报告]

发表于 2018-11-02 14:06 |只看该作者

本帖最后由 wh7211 于 2018-11-02 14:13 编辑

回复 1# narcissusLin

<<<awk4.0

awk -F"|" '{a[$1]=--i;b[$1][$4]=$4}END{PROCINFO["sorted_in"]="@val_num_desc";for(i in a){for(j in b[i]){++k;if(k==300){print i,j}};k=0}}' 1

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

narcissusLin

白手起家

论坛徽章:: 0

8楼 [报告]

发表于 2018-11-02 19:54 |只看该作者

回复 7# wh7211

谢谢大神，不过请教一下a[$1]=--i是什么意思

另外如果想一次性输出第300个值和第400个2个值到一份文件怎么办？

最终结果格式是：名称，第300个最大值，第400个值。

麻烦再教一下，万分感谢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

narcissusLin

白手起家

论坛徽章:: 0

9楼 [报告]

发表于 2018-11-02 19:56 |只看该作者

回复 7# wh7211

刚刚复制了代码是了下，发现提示错误这样是表示我的shell没有办法用awk 4.0嘛？

awk4.0.png (10.19 KB, 下载次数: 139)

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

csccyab

小富即安

论坛徽章:: 0

10楼 [报告]

发表于 2018-11-04 08:46 |只看该作者

Python 版本

我用小數據來演示, 把人名和流量放進 dictionary, 打印第三大流量值

$ cat test.txt
peter|23123123|2018-10-01|107
peter|23123123|2018-10-01|100
peter|23123123|2018-10-01|101
peter|23123123|2018-10-01|99
peter|23123123|2018-10-01|105
peter|23123123|2018-10-01|88
peter|23123123|2018-10-01|121
peter|23123123|2018-10-01|76
mary|23123123|2018-10-01|12
mary|23123123|2018-10-01|15
mary|23123123|2018-10-01|18
mary|23123123|2018-10-01|50
mary|23123123|2018-10-01|22
mary|23123123|2018-10-01|11
$ python test.py
peter
('Original list: ', ['107', '100', '101', '99', '105', '88', '121', '76'])
('Sorted list: ', ['121', '107', '105', '101', '100', '99', '88', '76'])
('The third in the list: ', '105')
mary
('Original list: ', ['12', '15', '18', '50', '22', '11'])
('Sorted list: ', ['50', '22', '18', '15', '12', '11'])
('The third in the list: ', '18')

复制代码

代碼

import re, collections
dict1 = collections.defaultdict(list)
f = open("test.txt", "r")
for line in f:
p = re.match("(.+)\|.+\|.+\|(.+)", line)
if p:
dict1[p.groups()[0]].append(p.groups()[1])
for i in dict1:
print(i)
print("Original list: ", dict1[i])
print("Sorted list: ", sorted(dict1[i], key=lambda x:int(x), reverse=True))
print("The third in the list: ", sorted(dict1[i], key=lambda x:int(x), reverse=True)[2])

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 3 / 3 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › 大数据排序提取指定字段对应的指定函数的值

[数值计算] 大数据排序提取指定字段对应的指定函数的值 [复制链接]