免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: 我叫萌萌
打印 上一主题 下一主题

[文本处理] 如何查询10G以上的日志文件 [复制链接]

论坛徽章:
18
2015年迎新春徽章
日期:2015-03-04 10:16:53操作系统版块每日发帖之星
日期:2016-05-11 06:20:0015-16赛季CBA联赛之佛山
日期:2016-05-06 22:28:4415-16赛季CBA联赛之广夏
日期:2016-04-22 23:24:00操作系统版块每日发帖之星
日期:2016-04-21 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44操作系统版块每日发帖之星
日期:2016-02-03 06:20:00IT运维版块每日发帖之星
日期:2016-01-31 06:20:00IT运维版块每日发帖之星
日期:2016-01-30 06:20:00IT运维版块每日发帖之星
日期:2016-01-24 06:20:00IT运维版块每日发帖之星
日期:2016-01-23 06:20:00操作系统版块每日发帖之星
日期:2015-11-26 06:20:00
31 [报告]
发表于 2016-04-26 17:49 |只看该作者
做日志的时候,不可以指定日志文件大小吗?到一定大小就另开一个文件。对于大文件没有太好的办法吧,你现在是70G,日子久了,可以到700G,那个时候怎么办?就算现在有读70G日志的办法,也不一定可以读700G。。。

论坛徽章:
4
程序设计版块每日发帖之星
日期:2015-10-14 06:20:00每日论坛发贴之星
日期:2015-10-14 06:20:00程序设计版块每日发帖之星
日期:2016-05-02 06:20:00程序设计版块每日发帖之星
日期:2016-05-08 06:20:00
32 [报告]
发表于 2016-04-26 18:44 |只看该作者
我的做法再大的文件也会卡死,速度怎样没测试过
用法,将下列代码保存为 xxx.py
然后运行:
python test.py --input 1.txt --date 2012-05-29 > out.txt
  1. #!/usr/bin/env python
  2. # -*- coding: utf-8 -*-
  3. __author__ = 'shengwei ma'
  4. __author_email__ = 'shengweima@icloud.com'
  5. import sys
  6. import getopt

  7. input_file = ""
  8. date = ""

  9. try:
  10.    opts, args = getopt.getopt(sys.argv[1:], "h", ["input=", "date="])
  11. except getopt.GetoptError as err:
  12.     print(str(err))
  13. for op, value in opts:
  14.     if op == "--input":
  15.         input_file = value
  16.     elif op == "--date":
  17.         date = str(value)
  18.     elif op == "-h":
  19.         print("python replace_line.py --input your_input_file --date 2011-1-1 >> output_file")
  20.         sys.exit()
  21. # 上边的代码与本次文件读取无关,从下边开始是 读取每行,并判断是否含有规定的日期,有的话,输出这一行"
  22. with open(input_file, 'r') as f:
  23.     for line in f:
  24.         data = line.strip().split()
  25.         for i in range(len(data)):
  26.             if data[i] == date:
  27.                 print line,
复制代码

评分

参与人数 1信誉积分 +10 收起 理由
Windows19 + 10 查个字符写那N多行真难得 给你10分

查看全部评分

论坛徽章:
4
程序设计版块每日发帖之星
日期:2015-10-14 06:20:00每日论坛发贴之星
日期:2015-10-14 06:20:00程序设计版块每日发帖之星
日期:2016-05-02 06:20:00程序设计版块每日发帖之星
日期:2016-05-08 06:20:00
33 [报告]
发表于 2016-04-26 21:20 |只看该作者
其实真正的就4,5行,就好了,其他的忽略。。回复 5# Windows19


   

评分

参与人数 1信誉积分 +10 收起 理由
我叫萌萌 + 10 真不容易!

查看全部评分

论坛徽章:
2
程序设计版块每日发帖之星
日期:2016-03-21 06:20:00数据库技术版块每日发帖之星
日期:2016-04-10 06:20:00
34 [报告]
发表于 2016-04-27 08:48 |只看该作者
回复 31# SeAL80s


    所以现在准备做日志分割

论坛徽章:
4
程序设计版块每日发帖之星
日期:2015-10-14 06:20:00每日论坛发贴之星
日期:2015-10-14 06:20:00程序设计版块每日发帖之星
日期:2016-05-02 06:20:00程序设计版块每日发帖之星
日期:2016-05-08 06:20:00
35 [报告]
发表于 2016-04-27 09:32 |只看该作者
大哥,你就试试,我写的看看咋样,我实在想知道这种方法速度咋样回复 34# 我叫萌萌


   

论坛徽章:
0
36 [报告]
发表于 2016-04-28 23:28 |只看该作者
回复 35# mswsg 哥们,我发现你对python真是太有爱了,虽然我也很喜欢python

   

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
37 [报告]
发表于 2016-04-28 23:40 |只看该作者
本帖最后由 sunzhiguolu 于 2016-04-28 23:43 编辑

回复 32# mswsg
这个是你名字拼音吗 shengwei ma, . 比较好奇.
=> ma weisheng

   

论坛徽章:
4
程序设计版块每日发帖之星
日期:2015-10-14 06:20:00每日论坛发贴之星
日期:2015-10-14 06:20:00程序设计版块每日发帖之星
日期:2016-05-02 06:20:00程序设计版块每日发帖之星
日期:2016-05-08 06:20:00
38 [报告]
发表于 2016-04-29 09:36 |只看该作者
学生物的,正在学习python呢,正好,这上边的问题练练手,加强对python基本语法的理解,共同学习哈回复 36# weihu120


   

论坛徽章:
4
程序设计版块每日发帖之星
日期:2015-10-14 06:20:00每日论坛发贴之星
日期:2015-10-14 06:20:00程序设计版块每日发帖之星
日期:2016-05-02 06:20:00程序设计版块每日发帖之星
日期:2016-05-08 06:20:00
39 [报告]
发表于 2016-04-29 09:36 |只看该作者
Yes,ma sheng wei 回复 37# sunzhiguolu


   

论坛徽章:
1
2015亚冠之柏太阳神
日期:2015-09-29 10:00:55
40 [报告]
发表于 2016-04-30 10:21 |只看该作者
你试试mawk
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP