1 23 / 3 页

论坛徽章:: 11

21楼 [报告]

发表于 2014-01-23 20:28 |只看该作者

本帖最后由 timespace 于 2014-01-23 20:30 编辑

回复 20# hothat007
看你需要什么，只要简单变通下前面的例子就可以了吧，当然前提是看懂前面那个例子。

1. 取最早出现的那个最大数。利用已有的行序号，修改max的key参数

key=lambda e: (e[2], -e[0])

复制代码

2. 取最晚出现的那个最大数。开始的例子已经实现了。

3. 取所有的最大数。没有系统函数，那么自定义一个函数取代max，然后就会取出一个list，包含所有最大数

def my_max(iterable, key):
maxs = [next(iterable)]
for e in iterable:
key_e, key_max = key(e), key(maxs[0])
if key_e > key_max:
maxs = [e]
elif key_e == key_max:
maxs.append(e)
return maxs

复制代码

建议还是多看看标准库的前几章，包含很多基本的迭代排序和数据结构，足以应付很多问题了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

timespace

大富大贵

论坛徽章:: 11

22楼 [报告]

发表于 2014-01-23 21:50 |只看该作者

本帖最后由 timespace 于 2014-01-23 21:51 编辑

其实当查询条件越来越复杂时，直接编码就很麻烦，不如用DB处理这种关系型数据。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import itertools
import sqlite3
def getitems(fobj):
for idx, line in enumerate(fobj):
items = line.split()
if len(items) != 2:
continue
# （行索引，一列浮点数，二列整数）
yield idx, float(items[0]), int(items[1])
def main():
# 内存数据库统计
with open('tmp.txt') as fp, sqlite3.connect(':memory:') as con:
con.executescript('''
CREATE TABLE foo ( no, float, int );
CREATE INDEX bar ON foo ( float, int );
''')
con.executemany('INSERT INTO foo VALUES(?,?,?)', getitems(fp))
for row in con.execute('SELECT no,float,int FROM foo \
WHERE float >= 28.0 and float <= 29.0 \
ORDER BY int DESC LIMIT 10'):
print row
if __name__ == '__main__':
main()

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

icymirror

小富即安

论坛徽章:: 4

23楼 [报告]

发表于 2014-01-24 11:11 |只看该作者

回复 1# hothat007

def compareItem(item1, item2):
''' Function provide 2nd column comparing method for reduce to use.'''
if int(item1.split()[1]) > int(item2.split()[1]):
return item1
else:
return item2
def readRecords(filename):
''' read all data from file for coming reduce to filter.'''
result = []
file_handle = open(filename)
for item in file_handle.readlines():
result.append(item)
return result
def main():
data = readRecords('DYC-P072-2 2014-01-21 12.txt')
print(reduce(compareItem, data))
if __name__ == '__main__':
main()

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hothat007

稍有积蓄

论坛徽章:: 0

24楼 [报告]

发表于 2014-01-24 20:01 |只看该作者

本帖最后由 hothat007 于 2014-01-24 20:02 编辑

回复 21# timespace

好像不太对呀，原来的那个代码是提取的第一个最大值呀

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hothat007

稍有积蓄

论坛徽章:: 0

25楼 [报告]

发表于 2014-01-24 20:19 |只看该作者

回复 21# timespace

key=lambda e: (e[2], -e[0])这句怎么理解呀，理解不了了T_T

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

timespace

大富大贵

论坛徽章:: 11

26楼 [报告]

发表于 2014-01-24 20:45 |只看该作者

回复 24# hothat007
嗯，你说对了。更正下：
1.取最早的最大数，开始已实现。

2.取最晚的最大数，修改max的key参数为

key=lambda e: (e[2], e[0])

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

timespace

大富大贵

论坛徽章:: 11

27楼 [报告]

发表于 2014-01-24 21:06 |只看该作者

本帖最后由 timespace 于 2014-01-24 21:11 编辑

回复 25# hothat007
1. 理解max(..., key)执行的逻辑。顺序迭代，元素a和b比较等价于key(a)和key(b)比较，最终迭代完成时返回一个最大值。

lambda e: (e[2], e[0])

复制代码

等价于

def key(e):
return e[2], e[0] # 返回的是一个tuple

复制代码

2. 理解tuple比较的逻辑。简单说就是当tuple第i个元素已经可以比较出大小时，就不会再去比较第i+1个元素。下面的例子就可以看出这个特性：

>>> max([(1, 1), (2, 2), (3, 2)], key=lambda e: e[1])
(2, 2)
>>> max([(1, 1), (2, 2), (3, 2)], key=lambda e: (e[1],e[0]))
(3, 2)
>>> max([(1, 1), (2, 2), (3, 2)], key=lambda e: (e[1],-e[0]))
(2, 2)
>>> max([(1, 1), (2, 2), (3, 2), (4, 0)], key=lambda e: (e[1],e[0]))
(3, 2)

复制代码

3. 你的需求中，元素出现早晚可以用行序号表示，所以将e[0]作为比较参数，但它是次要关系。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

hothat007

稍有积蓄

论坛徽章:: 0

28楼 [报告]

发表于 2014-01-24 21:20 |只看该作者

回复 27# timespace

感动哭了，太给力了！！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

1 23 / 3 页

返回列表

Chinaunix › 论坛 › 程序设计 › Python › 查找txt文件中第二列最大值

查找txt文件中第二列最大值 [复制链接]

浏览过的版块