免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: chenyx
打印 上一主题 下一主题

linux系统TroubleShooting经验共享 活动结束 获奖名单公布 [复制链接]

论坛徽章:
49
15-16赛季CBA联赛之福建
日期:2016-06-22 16:22:002015年亚洲杯之中国
日期:2015-01-23 16:25:12丑牛
日期:2015-01-20 09:39:23未羊
日期:2015-01-14 23:55:57巳蛇
日期:2015-01-06 18:21:36双鱼座
日期:2015-01-02 22:04:33午马
日期:2014-11-25 09:58:35辰龙
日期:2014-11-18 10:40:07寅虎
日期:2014-11-13 22:47:15申猴
日期:2014-10-22 15:29:50摩羯座
日期:2014-08-27 10:49:43辰龙
日期:2014-08-21 10:47:58
71 [报告]
发表于 2012-01-14 09:48 |只看该作者
大蚂蚁 发表于 2012-01-12 00:17
啊,这个不是我的鼠标么。。
话说这个鼠标的滚轮要爱惜使用,比较脆弱。 不如再加点钱换成IE5


欢迎老网友,谢谢对礼品的建议哈,下次礼品换IE5,只要大家积极参与哈!

论坛徽章:
0
72 [报告]
发表于 2012-01-14 11:32 |只看该作者
king_819 发表于 2011-12-27 15:01
排错主要还是的看报错信息及日志,在编译软件的时候就容易导致错误的就是selinux没关,导致并发连接数上不去 ...


上手就是最大值

论坛徽章:
0
73 [报告]
发表于 2012-01-14 11:51 |只看该作者
回复 1# chenyx
最后一天来谈谈我的看法
首先说系统的troubleshooting,系统的troubleshooting对于任何os都是有一定的相关的规律性的的规则要遵守的,当然如果遇到的是linux系统就要更多的注重一点linux的特性了。
1.linux系统排错的思路
如果说排错的思路,根据cisco的那个troubleshooting的规则演进以及实际的经验主义的总结有如下:
先看表象,这个表象如页面500 504啥的代码,not connection的提示;服务是否存在,ps是否可以看到进程信息;
看完表象,看进程;同时立即看对应的log文件;
这个看log文件很关键很多的问题的解决都是有此找到突破口的;
看log的目的是什么,是要在log中发现访问的诸多的痕迹,以及错误的状态等信息;
停止服务重新启动开启debug的单步模式,这里引用下开发中的术语,可以同时开启多个窗口,每个窗口中开列log问题,进程信息等进行查看;
找到问题,记录并总结规律,为下次出现同样的问题减少解决的时间;
2.系统排错应该遵循的原则
针对系统的问题,从终端的提示信息看起,到log记录等;
针对网络服务的问题,从端口号、服务进程状态,到log日志信息;
针对应用系统的问题,看应用程序的debug信息;
3.系统排错应该养成的习惯
系统排错是一个综合的技巧,并非是单纯的故障问题,好的习惯在于平时就多积累技术问题的知识库,当遇到相同的错误代码提示就可以很快的知道问题所在。建立问题知识库可以是系统运行中出现的问题的积累,也可以使如cu论坛上的问题解决的帖子记录。
好的习惯,就是要看端口、看进程、看log、能够及时开启各种应用的log并能随时的进行跟踪。
4.实际案例分享
发现是数据库问题还是被攻击了。
php的站页面提示无法连接到数据库
登陆服务器看mysql进程在;ps看到占用资源很到;测试指定的网站绑定的数据库用户连接提示已经到了最大的用户数;mysql没有开启慢查询日志,通过mysql的root用户只需show命令查看连接全部占用慢;
思考是加大连接数还是??
这里是一个联性的问题,数据库的连接用户多,对于网站来说是一件好事情。不过是真实的访问么?
看web服务器的log,没有几个是真实的访问连接请求;看网站的连接状态,很多半开的连接在,确定和攻击有关系;
分析日志找到问题ip进行屏蔽,关系占用的mysql的连接,问题解决。

分析问题很关键。


   

论坛徽章:
0
74 [报告]
发表于 2012-01-14 18:41 |只看该作者

论坛徽章:
0
75 [报告]
发表于 2012-01-14 22:16 |只看该作者
最开始的学习是最艰难的,遇到问题,自己动脑动手去解决,才会提升自己
计算机不会说话,不会告诉你 你错在哪里,要怎么解决,
所以要多看输出的错误提示信息,多看日志,
单词不认识不要紧,要学会使用报错信息中的关键字在google中搜索,
你出现的问题,别人也可能遇到过,已经有好心人解答了这个问题

坚持学习  

论坛徽章:
0
76 [报告]
发表于 2012-01-14 22:29 |只看该作者
根据网上的教程来搭建某个环节,文章已经写了很久,文中使用的系统和配置环境都不是当下主流的
所以搭建过程中总会出现各种奇怪的问题,往往只看一篇教程是搞不定的。
比如有的需要编译安装,有的可以直接rpm包安装等等
看官方wiki文档是最好的。

论坛徽章:
0
77 [报告]
发表于 2012-01-14 22:34 |只看该作者
对于每一次的故障的排除,最好能写个文档记录下来
这是一个很好的习惯,方便以后再次查看,许多东西不经常使用,就会忘记了。

论坛徽章:
0
78 [报告]
发表于 2012-01-14 22:51 |只看该作者
No such file or directory
access deny
no found
很常见的几个错误信息

论坛徽章:
1
数据库技术版块每日发帖之星
日期:2016-03-17 06:20:00
79 [报告]
发表于 2012-01-15 16:25 |只看该作者
不同的错误要分别对待!
软件安装和系统错误!我觉得很难有三板斧就能搞定的!

论坛徽章:
0
80 [报告]
发表于 2012-01-16 17:06 |只看该作者
大纲非常清晰:
1.linux系统排错的思路
a. 了解你所排障的对象:
    man、info等E文帮助,从平时就要开始积累。绝大多数出错信息都是E文。 安装也很重要:OS、RPM、源码安装。不同的安装方式,官方的帮助信息路径有不同的规律,比如源码包自带的README、INSTALL、doc目录等等、rpm包的帮助信息rpm -ql | grep /usr/share/doc/。
    启动方式及所提供的服务:sys-v service、damon、rc.local、scripts等;监听端口
    日志路径,日志分类等等;
b.  分析错误
   分析日志:关键字--出错信息. 使用awk、sed、自定义脚本等过滤关键字;关键字的来源:监控脚本的哪一行,或者服务启动、运行时的stderr。
   关键字的后续处理很多时候要靠“ 度娘” 帮忙
   软件自带的帮助或文档:搜索关键字
c. 有个头绪的话就要开始调整,有测试环境最好,线上的机器要做好备份(服务和配置文件等等)后,在开始调。

2.系统排错应该遵循的原则
a. 不要影响在线业务。关键业务的调整,要做好2手准备。
b. 已经影响在线业务时,做好备份再调,注意一次只调整一个位置。 《时间管理:给系统管理猿》
c. 每次调整时注意记录和比对。

3.系统排错应该养成的习惯
a. 使用多个终端
b. 记录调整
c.  积累和分享

4.实际案例分享
新上架的dns外网不能提供服务,后来发现是iptables没关。管理海量linux时,iptables一般都是不开启的;一般iptables只放在特殊的服务器上。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP