centrify 发表于 2018-01-27 11:12

第一列相同,计算第二节列不同个数

本帖最后由 centrify 于 2018-01-28 12:55 编辑

目前有上亿条如下数据,
1517021612555,777
1517021612555,778
1517021612553,777
1517021612555,779
1517021612556,779
....
1517021612557,7778
1517021612558,7790
1517021612558,7790

用什么方法可以可以进行如下计算,速度要快,要用python
1517021612555,3
1517021612553,1
1517021612556,3
1517021612557,1
1517021612558,2

centrify 发表于 2018-01-27 11:17

有很多方法都可以实现,目前的问题就是用时间太长

jason680 发表于 2018-01-27 12:17

http://bbs.chinaunix.net/thread-4291356-1-1.html

prcardin 发表于 2018-01-27 17:40

楼主找到了效率满意的方法了吗? 测试运行结果如何?

centrify 发表于 2018-01-28 12:54

回复 3# jason680 ,那个方法是awk,不是用python


页: [1]
查看完整版本: 第一列相同,计算第二节列不同个数