- 论坛徽章:
- 0
|
&&&HP-UX11i,SYBASE12.5,Weblogic6,网络综合故障解决案例!&&&
环境:
HPrp7400+VA7100,HP-UX11i,SYBASE12.5,Weblogic6,地税市局大集中税务软件
故障现象:
应用软件无法使用,开几张票就关闭、黑屏、没的反应了。
故障解决过程:
一、小型机
1、作系统备份
2、常规系统检查
3、TCP_IP参数修改
系统原来的参数值:
wnds_srv#[/]ndd -get /dev/tcp tcp_keepalive_detached_interval
120000 查看TCP相互发包间隔
wnds_srv#[/]ndd -get /dev/tcp tcp_ip_abort_interval
600000 查看TCP失败间隔
wnds_srv#[/]ndd -get /dev/tcp tcp_ip_abort_cinterval
75000 查看TCP转化同步包间隔
作如下的改动:
wnds_srv#[/]ndd -set /dev/tcp tcp_keepalive_detached_interval 10000
设置TCP相互发包间隔
wnds_srv#[/]ndd -set /dev/tcp tcp_ip_abort_interval 1800000
设置TCP失败间隔
wnds_srv#[/]ndd -set /dev/tcp tcp_ip_abort_cinterval 10000
设置TCP转化同步包间隔
4、故障依然
二、数据库SYBASE12.5
1、报错信息检查,无报错。
2、监控进程连接情况
spid kpid ipaddr loggedindatetime
------ ----------- --------------- --------------------------
2 851981 NULL Mar 30 2004 2:17PM
3 917518 NULL Mar 30 2004 2:17PM
4 983055 NULL Mar 30 2004 2:17PM
5 1048592 NULL Mar 30 2004 2:17PM
6 1114129 NULL Mar 30 2004 2:17PM
7 1179666 NULL Mar 30 2004 2:17PM
8 1245203 NULL Mar 30 2004 2:17PM
9 1310740 NULL Mar 30 2004 2:17PM
33 120062201 156.32.16.12 Apr 2 2004 7:24AM
48 136380527 156.32.17.185 Apr 2 2004 10:58AM
57 136970335 156.32.17.185 Apr 2 2004 11:11AM
73 120717709 156.32.16.12 Apr 2 2004 7:24AM
97 119537937 156.32.16.12 Apr 2 2004 7:24AM
99 119800048 156.32.16.12 Apr 2 2004 7:24AM
110 136577133 156.32.17.185 Apr 2 2004 11:01AM
117 120324528 156.32.16.12 Apr 2 2004 7:24AM
133 135200850 156.32.21.18 Apr 2 2004 10:23AM
136 121373055 156.32.16.12 Apr 2 2004 7:24AM
147 1441814 NULL Mar 30 2004 2:17PM
148 120193220 156.32.16.12 Apr 2 2004 7:24AM
154 138608798 156.32.16.8 Apr 2 2004 1:13PM
167 120455579 156.32.16.12 Apr 2 2004 7:24AM
171 119603319 156.32.16.12 Apr 2 2004 7:24AM
182 119734546 156.32.16.12 Apr 2 2004 7:24AM
199 138084448 156.32.17.185 Apr 2 2004 11:36AM
216 137887859 156.32.17.25 Apr 2 2004 11:25AM
219 120848678 156.32.16.12 Apr 2 2004 7:24AM
224 120979461 156.32.16.12 Apr 2 2004 7:24AM
230 120258830 156.32.16.12 Apr 2 2004 7:24AM
234 121110539 156.32.16.12 Apr 2 2004 7:24AM
238 121307206 156.32.16.12 Apr 2 2004 7:24AM
239 121241902 156.32.16.12 Apr 2 2004 7:24AM
241 119669140 156.32.16.12 Apr 2 2004 7:24AM
251 120127772 156.32.16.12 Apr 2 2004 7:24AM
254 120783148 156.32.16.12 Apr 2 2004 7:24AM
256 119931113 156.32.16.12 Apr 2 2004 7:24AM
260 121176487 156.32.16.12 Apr 2 2004 7:24AM
262 120520990 156.32.16.12 Apr 2 2004 7:24AM
270 119865608 156.32.16.12 Apr 2 2004 7:24AM
272 120389922 156.32.16.12 Apr 2 2004 7:24AM
274 119472269 156.32.16.12 Apr 2 2004 7:24AM
276 121045288 156.32.16.12 Apr 2 2004 7:24AM
280 119996697 156.32.16.12 Apr 2 2004 7:24AM
284 120914219 156.32.16.12 Apr 2 2004 7:24AM
287 120586527 156.32.16.12 Apr 2 2004 7:24AM
292 120652064 156.32.16.12 Apr 2 2004 7:24AM
(46 rows affected)
3、监控较频繁发生中断的 32.32 网段进程, 可以看出从该网段的连接较少,且186 进程,最后执行的语句为
SELECT TSR40_TTICK_TYPE.CODE , TSR40_TTICK_TYPE.NAME ,
TSR40_TTICK_TYPE.USED_IN_BILL , 1 MAX_LINES ,\'1\' BY_DATE ,
\'0\' UNIT_RMB , TSR40_TTICK_TYPE.CALL_FORM,
TSR40_TTICK_TYPE.DECLARE_TICKET ,
TSR40_TTICK_TYPE.FLAG
FROM TSR40_TTICK_TYPE
WHERE (TSR40_TTICK_TYPE.DECLARE_TICKET >; 0 )
该进程与ASE 连接已超过一小时,并未中断.
spid kpid ipaddr loggedindatetime hostname
------ ----------- --------------- -------------------------- ----------
80 143327422 156.32.32.46 Apr 2 2004 3:12PM ????
186 139919543 156.32.32.66 Apr 2 2004 2:19PM D4
4、通过crontab 每个小时作一次10分钟的sysmon
$ crontab -l
0 * * * * nohup /sybase/sybase_ts/sysmon.sh &
@@more sysmon.sh@@
#/bin/sh
SYBASE=/sybase
export SYBASE
SYBASE_FTS=FTS-12_5
export SYBASE_FTS
PATH=/sybase/ASE-12_5/bin:/sybase/OCS-12_5/bin PATH
export PATH
SYBASE_OCS=OCS-12_5
export SYBASE_OCS
SYBASE_ASE=ASE-12_5
export SYBASE_ASE
LM_LICENSE_FILE=/sybase/SYSAM-1_0/licenses/license.dat LM_LICENSE_FILE
export LM_LICENSE_FILE
LD_LIBRARY_PATH=/sybase/ASE-12_5/lib:/usr/local/openwin/lib:/sybase/FTS-12_5/lib:/sybase/OCS-12_5/lib:/usr/local/openwin/lib:/usr/lib:/sybase/SQLRemote/lib LD_LIBRARY_PATH
export LD_LIBRARY_PATH
SYBASE_SYSAM=SYSAM-1_0
export SYBASE_SYSAM
prex=`date \"+%m%d_%H%M\"`
$SYBASE/$SYBASE_OCS/bin/isql -Usa -Stsstudio >;>;/sybase/sybase_ts/sysmon$prex.out <<!
*******
use master
go
sp_sysmon \"00:10:00\"
go
!
5、通过监控情况分析,可以确定ASE 数据库工作正常,且ASE不会中断前端的连接.所以下一步工作转到网络系统进行监控检查
6、故障依然
三、网络:
1、 对CISCO网络系统作常规系统检测,没有发展任何异常。
2、 故障依然
四、找厂商援助:
HP,Sybase的工程都远程登录上来作了各自的检测,都说自己的东东没有问题,可故障依然一样。
五、故障解决
整个故障检修陷入绝境,那时刚好又是地税纳税申报的高端期,相关人员都顶着极大的压力。我提出要求要到申报大厅看看,新的问题报露出来了,在市局大厅没有故障而在区县级大厅有故障,那么他们有什么不同。一下豁然开朗,原来市局大厅不过防火墙访问小机数据库而区县级大厅要过防火墙,可能是前几天市局安装了防火墙而没有建立长连接。
果然如我所料,天融信F3000防火墙为了防止黑客攻击每个连接默认连接为5分钟,5分钟后中断。
六、个人的一点总结
对于一个大的系统故障,在用户报故障时一定要把故障现象搞准确。一个再大的故障也许就是一个小小部件出问题。所以要求我们故障解决工程要具备更广的技术知识面。我相信这样类似故障在将来故障解决中要点好大的比重。因为就单个设备和系统是没有故障的,可大系统就是有故障! |
|