论坛徽章:: 1

电梯直达

1楼 [收藏(0)] [报告]

发表于 2010-06-23 23:29 |只看该作者 |倒序浏览

有以下一些数据
$  cat data
D071 BIH-S-9933 10.163.81.109 13
D071 BIH-S-231  10.163.81.109 14
B128 BIH-S-239  10.163.81.19 15
A82 BIH-S-9013 10.163.81.10 17

希望根据第三列数据的不同分添加空行，使显示效果好一些，使结果如下：
D071 BIH-S-9933 10.163.81.109 13
D071 BIH-S-231  10.163.81.109 14

B128 BIH-S-239  10.163.81.19 15

A82 BIH-S-9013 10.163.81.10 17

这是个人想到的方法

#!/usr/bin/env python
f = open('data','r')
wordlist = []
for lined in f.readlines():
line = lined[:-1]
words = line.split()
if words[2] not in wordlist:
wordlist.append(words[2])
print "\n"+line
else:
print line
print ""
f.close()

复制代码

个人感觉还可以更简单，哪位高人指点一下解决的思路，or 贴一下代码看看有何更好的方法，以供学习，谢谢！

文库|博客

t6760915

小富即安

论坛徽章:: 0

2楼 [报告]

发表于 2010-06-24 09:49 |只看该作者

#coding=utf-8
lines = []
for line in open('b.txt', 'r'):
line = line.strip()
fields = line.split()
fields = [f.strip() for f in fields]
lines.append(fields)
#lines = sorted(lines, key=lambda x:x[2], reverse=True)
i = 0
frontLine = ''
result = []
for line in lines:
linestr = ' '.join(line)
if i > 0 and not line[2] == frontLine:
result.append('\n')
result.append(linestr)
frontLine = line[2]
i += 1
print '\n'.join(result)

复制代码

我试了下。不过处理的文件太大的话就不能用我这个了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

luffy.deng

腰缠万贯

论坛徽章:: 0

3楼 [报告]

发表于 2010-06-24 14:52 |只看该作者

wordlist = []会很大的话可以考虑定义成字典。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

t6760915

小富即安

论坛徽章:: 0

4楼 [报告]

发表于 2010-06-24 16:08 |只看该作者

wordlist = []会很大的话可以考虑定义成字典。
luffy.deng 发表于 2010-06-24 14:52

字典是很快，不过数据量太大的时候你也载入不到内存中啊。还是就是字典在一定数量级比如千万的时候也快不到什么地方去。哈

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

luffy.deng

腰缠万贯

论坛徽章:: 0

5楼 [报告]

发表于 2010-06-24 18:44 |只看该作者

回复 4# t6760915
我只是觉得wordlist比较大的时候， if words[2] not in wordlist 操作会比 wordlist.has_key(words[2])慢，具体还得测试了才知道。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

t6760915

小富即安

论坛徽章:: 0

6楼 [报告]

发表于 2010-06-24 18:55 |只看该作者

回复 t6760915
我只是觉得wordlist比较大的时候， if words[2] not in wordlist 操作会比 wordlist.ha ...
luffy.deng 发表于 2010-06-24 18:44

这确实是比list快多了，可以采用存储md5的方法避免数据量比较大的情况。不过这个问题也不涉及到数据大小的问题，别一次全部载入就可以了，处理完就从内存里删应该不会出什么问题

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Kabie

丰衣足食

论坛徽章:: 0

7楼 [报告]

发表于 2010-06-24 22:15 |只看该作者

数据是有序的吗？

会出现这样的数据么

D071 BIH-S-231 10.163.81.109 14
B128 BIH-S-239 10.163.81.19 15
A82 BIH-S-9013 10.163.81.10 17
D071 BIH-S-9933 10.163.81.109 19

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

harmful_001

白手起家

论坛徽章:: 1

8楼 [报告]

发表于 2010-06-24 22:59 |只看该作者

回复 7# Kabie

数据是有序的，即第三列相同的数据是连在一起的，只是数量不指定，有可能一个ip只有1行数据，又或者有上百行这样。整个data文件行数会变化，最多会有3k～4k行的样子。

D071 BIH-S-9933 10.163.81.109 13
D071 BIH-S-231 10.163.81.109 14
B128 BIH-S-239 10.163.81.19 15
A82 BIH-S-9013 10.163.81.10 17
A82 BIH-S-433 10.163.81.10 17
B34 BIH-S-0933 10.163.81.10 17