免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: chenyx
打印 上一主题 下一主题

linux系统TroubleShooting经验共享 活动结束 获奖名单公布 [复制链接]

论坛徽章:
16
IT运维版块每日发帖之星
日期:2015-08-24 06:20:00综合交流区版块每日发帖之星
日期:2015-10-14 06:20:00IT运维版块每日发帖之星
日期:2015-10-25 06:20:00IT运维版块每日发帖之星
日期:2015-11-06 06:20:00IT运维版块每日发帖之星
日期:2015-12-10 06:20:00平安夜徽章
日期:2015-12-26 00:06:302016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-04-15 06:20:00IT运维版块每日发帖之星
日期:2016-05-21 06:20:00综合交流区版块每日发帖之星
日期:2016-08-16 06:20:002015七夕节徽章
日期:2015-08-21 11:06:17IT运维版块每日发帖之星
日期:2015-08-14 06:20:00
21 [报告]
发表于 2011-12-27 11:35 |只看该作者
1。google/baidu
2。log
3。牛人可以看源代码。

没别的了。

论坛徽章:
4
CU大牛徽章
日期:2013-03-13 15:32:35CU大牛徽章
日期:2013-03-13 15:38:15CU大牛徽章
日期:2013-03-13 15:38:52戌狗
日期:2013-12-27 15:08:11
22 [报告]
发表于 2011-12-27 11:52 |只看该作者
遇到问题,先看日志--这个是通用的
如果是安装软件,先看下reder me,install之类的文档,如果是常用的软件,网上会有很多文档介绍,可以先熟悉下流程,在自己配置、编译、安装。越到什么报错,理解报错内容,然后相应的分析,找出相应解决办法。
遇到系统服务报错,看日志也是很重要的
应该说特定问题 特点分析

论坛徽章:
6
丑牛
日期:2013-09-17 00:18:40未羊
日期:2013-10-31 12:10:47午马
日期:2013-12-07 01:58:50水瓶座
日期:2013-12-24 22:43:12水瓶座
日期:2014-03-15 21:12:13操作系统版块每日发帖之星
日期:2016-08-07 06:20:00
23 [报告]
发表于 2011-12-27 12:07 |只看该作者
xinglu1983 发表于 2011-12-27 11:08
回复 13# yuhongchun



开发机器一样啊,你们提需求,让系统SA参与进来,没问题的;我们公司都是这样做的!

论坛徽章:
1
2015年迎新春徽章
日期:2015-03-04 09:55:28
24 [报告]
发表于 2011-12-27 12:15 |只看该作者
回复 23# yuhongchun


    额。。。我说的开发机就是自己开发用的电脑,一般不想麻烦运维的同事来搞了。

论坛徽章:
6
丑牛
日期:2013-09-17 00:18:40未羊
日期:2013-10-31 12:10:47午马
日期:2013-12-07 01:58:50水瓶座
日期:2013-12-24 22:43:12水瓶座
日期:2014-03-15 21:12:13操作系统版块每日发帖之星
日期:2016-08-07 06:20:00
25 [报告]
发表于 2011-12-27 12:32 |只看该作者
xinglu1983 发表于 2011-12-27 12:15
回复 23# yuhongchun


呵呵,我以为你说的是开发服务器;这个其实也容易,多配置几遍就会了。

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
26 [报告]
发表于 2011-12-27 12:49 |只看该作者
1、故障的定义
弄清楚系统发生了什么问题
系统现在能做什么?不能做什么?
故障什么时候发生的?
有没有做平时不同的操作?
故障有没有规律?定时还是不定时?发生的频率有多高?
是一台机器出现故障还是多台机器故障?故障现象是否相同?
最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。检查机器是否存在故障

2、收集错误信息
cd /var/log

3、判断故障类别
1) 检查文件系统空间
df -h
2) 检查文件系统的完整性
fsck
3) 检查CPU、内存、swap等系统资源
top

论坛徽章:
59
2015七夕节徽章
日期:2015-08-24 11:17:25ChinaUnix专家徽章
日期:2015-07-20 09:19:30每周论坛发贴之星
日期:2015-07-20 09:19:42ChinaUnix元老
日期:2015-07-20 11:04:38荣誉版主
日期:2015-07-20 11:05:19巳蛇
日期:2015-07-20 11:05:26CU十二周年纪念徽章
日期:2015-07-20 11:05:27IT运维版块每日发帖之星
日期:2015-07-20 11:05:34操作系统版块每日发帖之星
日期:2015-07-20 11:05:36程序设计版块每日发帖之星
日期:2015-07-20 11:05:40数据库技术版块每日发帖之星
日期:2015-07-20 11:05:432015年辞旧岁徽章
日期:2015-07-20 11:05:44
27 [报告]
发表于 2011-12-27 13:06 |只看该作者
1.linux系统排错的思路
基本思路就是要多看日志,分析错误发生的原因。然后根据自己的经验或者网络资料进行相应的处理。
2.系统排错应该遵循的原则
基本原因是:不要一上来就说系统坏了,不要什么也不分析就重做系统,还有就是要定期备份重要数据。
3.系统排错应该养成的习惯
习惯:多看,多想,多总结,多学习,多动手。
4.实际案例分享
案例一:在2008年的时候,在一个公司,负责公司的服务器。出现了问题,后来仔细分析原因,发现是防火墙设置问题。当时的现象是外网通过HTTP能访问机器的WEB服务器,内网却无法PING通。本机看SSH服务是开启的,却无法通过SSH连接。
    当时的同时就说重做算了。后来通过分析发生则IPTABLES规则设置错误,导致内部访问的包都被DROP了。
案例二:今年在现在的公司,一台机器的OS是LINUX,错误的设置导致开机启动进入不了LINUX(连启动GRUB菜单都没有出现),上去就进入单用户模式也无法找到具体的原因。后来正常启动,看到界面最后一行提示是在读取/etc/selinux/config出现了问题。进行单用户模式,打开文件,发现原来是进行设置时在这个文件添加了一行(具体内容是保密了)。如果当时不发现这个问题,机器就直接邮回到客户的地方了。

论坛徽章:
0
28 [报告]
发表于 2011-12-27 13:33 |只看该作者
看完帖子,感觉还是赶紧关机吃饭,该干啥干啥去吧

论坛徽章:
22
丑牛
日期:2014-08-15 14:32:0015-16赛季CBA联赛之同曦
日期:2017-12-14 15:28:14黑曼巴
日期:2017-08-10 08:14:342017金鸡报晓
日期:2017-02-08 10:39:42黑曼巴
日期:2016-11-15 15:48:38CU十四周年纪念徽章
日期:2016-11-09 13:19:1015-16赛季CBA联赛之同曦
日期:2016-04-08 18:00:03平安夜徽章
日期:2015-12-26 00:06:30程序设计版块每日发帖之星
日期:2015-12-03 06:20:002015七夕节徽章
日期:2015-08-21 11:06:17IT运维版块每日发帖之星
日期:2015-08-09 06:20:002015亚冠之吉达阿赫利
日期:2015-07-03 08:39:42
29 [报告]
发表于 2011-12-27 13:40 |只看该作者
各种问题解决方法也有各自的差别。如机子不开机,一般就去找boot配置的原因。如上不了网,就去招相关net的配置。编译不通过,一般就是自己的开发环境的问题。
有次给一个同学折腾无线网卡,下载下来编译不过,根据出错log,找出代码发现是kernel版本不一样了,内核数据结构有所变动。对相关驱动代码做一些小小修动就可以了。
主要的解决思路来自于——仔细分析出错log。
还有的时候,出错log莫名其妙,百度不到,也从字面看不出什么原因。就可以从相关源码中用grep找出printf/echo该log的位置。通过该位置的上下文找出原因。这是对于一些脚本或自己编译程序运行不成功的方法。本人调试kernel也基本如此。
还有的时候,log是相关程序打印的。如bash、sed、awk等给的出错log,这些基本就是语法错误。那就是考研基本功的时候了。

论坛徽章:
381
CU十二周年纪念徽章
日期:2014-01-04 22:46:58CU大牛徽章
日期:2013-03-13 15:32:35CU大牛徽章
日期:2013-03-13 15:38:15CU大牛徽章
日期:2013-03-13 15:38:52CU大牛徽章
日期:2013-03-14 14:08:55CU大牛徽章
日期:2013-04-17 11:17:19CU大牛徽章
日期:2013-04-17 11:17:32CU大牛徽章
日期:2013-04-17 11:17:37CU大牛徽章
日期:2013-04-17 11:17:42CU大牛徽章
日期:2013-04-17 11:17:47CU大牛徽章
日期:2013-04-17 11:17:52CU大牛徽章
日期:2013-04-17 11:17:56
30 [报告]
发表于 2011-12-27 14:01 |只看该作者
本帖最后由 chenyx 于 2011-12-27 14:02 编辑

系统排错,思路很重要.一般问题,通过日志就能看出来大部分问题,有些是隐性的问题,就需要一定的经验了.系统排错,即是技术活,又是艺术.
举个例子,在论坛里面看到的,配置dns的反解:
  1. 2 IN PTR www.example.com
复制代码

这个配置,如果不是有经验的,很难发现问题的所在,并且,这个如果用dns的检测工具,检测dns的日志,是看不出来的.
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP