论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2013-09-05 11:31 |只看该作者 |倒序浏览

本帖最后由 lzzfriend 于 2013-09-05 11:50 编辑

我主要是分析日志获取当前的进度等信息，
想取文件最后一行进行分析

贴上我的程序
def get_lastline(logfile):
fd = open(logfile,'r')
linecount = len(fd.readlines())
print linecount
targetLine = ''
lineNo = 0
while 1:
      mLine = fd.readline()
      if not mLine:
         print "find empty line:%s,mLine:%s" % (lineNo,mLine)
         if(lineNo >= linecount):
            break;
      lineNo += 1;
      if (linecount == lineNo):
         targetLine = mLine
         break
fd.close()
return targetLine

if __name__ == '__main__':
filename='/home/lzh/movies/sample_h264_100kbit.mp4.log'
lastline=get_lastline(filename)
print lastline

但每次都在第0行跳出，我查看了一下，我的文件第一行是：
2013-08-12 18:05:48    PID=29946

那位大拿帮忙看一下，谢谢

文库|博客

GhostFromHeaven

家境小康

论坛徽章:: 0

2楼 [报告]

发表于 2013-09-05 13:42 |只看该作者

Linux平台有一个tail命令，tail -f filename.log 就会打印文件最后新增加的内容

可以参考这个思路

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

timespace

大富大贵

论坛徽章:: 11

3楼 [报告]

发表于 2013-09-05 13:50 |只看该作者

回复 1# lzzfriend
fd.readlines()已经读到文件尾部了，然后while循环中fd.readline()肯定还是尾部，不跳出才怪了。。。
在"while 1:"前面加一句“fd.seek(0)”，可以重置文件指针为文件开头。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

conn2011

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2013-09-05 13:51 |只看该作者

第一，你既然已经readlines了为什么不把最后一行放入变量？
第二，你可以用seek跳转到文件末尾

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

lzzfriend

小富即安

论坛徽章:: 0

5楼 [报告]

发表于 2013-09-05 14:50 |只看该作者

谢谢3、4楼，找到了我问题的原因，谢谢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

timespace

大富大贵

论坛徽章:: 11

6楼 [报告]

发表于 2013-09-05 17:40 |只看该作者

回复 5# lzzfriend
看你提到文件可能会比较大，那么fd.readlines()就不太合适，它会把整个文件读入内存并生成list，这是爆内存的节奏。我这里有个内存占用相对可控的demo

#!/usr/bin/env python
import os
import sys
def get_last_n_lines(logfile, n):
blk_size_max = 4096
n_lines = []
with open(logfile, 'rb') as fp:
fp.seek(0, os.SEEK_END)
cur_pos = fp.tell()
while cur_pos > 0 and len(n_lines) < n:
blk_size = min(blk_size_max, cur_pos)
fp.seek(cur_pos - blk_size, os.SEEK_SET)
blk_data = fp.read(blk_size)
assert len(blk_data) == blk_size
lines = blk_data.split('\n')
# adjust cur_pos
if len(lines) > 1 and len(lines[0]) > 0:
n_lines[0:0] = lines[1:]
cur_pos -= (blk_size - len(lines[0]))
else:
n_lines[0:0] = lines
cur_pos -= blk_size
fp.seek(cur_pos, os.SEEK_SET)
if len(n_lines) > 0 and len(n_lines[-1]) == 0:
del n_lines[-1]
return n_lines[-n:]
def main():
if len(sys.argv) != 3:
sys.exit('usage: %s logfile n_lines' % sys.argv[0])
for line in get_last_n_lines(sys.argv[1], int(sys.argv[2])):
print line
if __name__ == '__main__':
main()

复制代码

注：
1. 不用读取整个文件，从文件尾部开始，以4KiB为一个Block向前迭代，直到取到指定的行数，这里假设你只关心后面若干行，内存占用不大。
2. 如果日志文件是动态增长的，而且写日志的程序和分析日志的程序没有做进程间同步，那么就要考虑一点解析日志的容错性，比如某次读取的最后一行是不完整的。合理的处理方式应该是每次最多读取最后两行，如果最后一行格式不对，应该取倒数第二行。