Chinaunix

标题: Solaris10-SunFire490-CPU问题 [打印本页]

作者: q30    时间: 2007-03-09 16:59
标题: Solaris10-SunFire490-CPU问题
环境:Sun Frie490
OS:   Solaris 10




操作步骤及结果:
# prtdiag -v


系统配置:  Sun Microsystems  sun4u Sun Fire V490
系统时钟频率:150 MHz
内存大小:8192 兆字节

========================= CPUs ===============================================

          运行  E$  CPU     CPU  
Brd  CPU  MHz   MB  Impl.   掩码
--- ----- ---- ---- ------- ----
A  0, 16 1500 32.0 US-IV+   2.2
A  2, 18 1500 32.0 US-IV+   2.2


#mpstat

CPU minf mjf xcal  intr ithr  csw icsw migr smtx  srw syscl  usr sys  wt idl
  0    2   0    7   176   82    8    1    1    1    0    18    0 100   0   0
  2   89   1   48   252  146  108    3   11    4    0   449    1   1   0  98
16    0   0    2  1305   87   16    5    0    0    0     9    0 100   0   0
18   79   0   47    21   16  210    1   11    5    0   358    1   1   0  98


我不明白为啥0号CPU,16号CPU 空闲时间怎么为0,它在忙什么?

然后察看系统进程:
#ps -eo pid,pcpu,args | sort +1n


0  0.0 sched
    1  0.0 /sbin/init
    2  0.0 pageout
    7  0.0 /lib/svc/bin/svc.startd
    9  0.0 /lib/svc/bin/svc.configd
  122  0.0 /usr/lib/sysevent/syseventd
  131  0.0 /usr/lib/picl/picld
  134  0.0 /usr/sbin/nscd
  135  0.0 /usr/lib/crypto/kcfd
  141  0.0 devfsadmd
  181  0.0 /usr/sbin/in.routed
  225  0.0 /usr/sbin/cron
  230  0.0 /usr/sbin/rpcbind
  233  0.0 /usr/lib/nfs/statd
  235  0.0 /usr/lib/saf/sac -t 300
  241  0.0 /usr/lib/utmpd
  242  0.0 /usr/lib/inet/inetd start
  244  0.0 /usr/lib/nfs/lockd
  246  0.0 /usr/lib/saf/ttymon
  247  0.0 /usr/lib/saf/ttymon -g -d /dev/console -l console -T sun -m ldterm,ttcompat -h
  329  0.0 /usr/lib/autofs/automountd
  330  0.0 /usr/lib/autofs/automountd
  345  0.0 /usr/lib/ssh/sshd
  348  0.0 /usr/lib/ssh/sshd
  349  0.0 /usr/sbin/syslogd
  364  0.0 /usr/lib/fm/fmd/fmd
  367  0.0 /usr/sbin/mdmonitord
  378  0.0 /usr/sbin/rpc.metad
  416  0.0 /usr/sadm/lib/smc/bin/smcboot
  417  0.0 /usr/sadm/lib/smc/bin/smcboot
  418  0.0 /usr/sadm/lib/smc/bin/smcboot
  462  0.0 /usr/lib/ssh/sshd
  478  0.0 -ksh
  491  0.0 /usr/dt/bin/dtlogin -daemon
  499  0.0 /usr/openwin/bin/fbconsole -n -d :0
  501  0.0 /usr/lib/snmp/snmpdx -y -c /etc/snmp/conf
  503  0.0 /usr/openwin/bin/Xsun :0 -defdepth 24 -nobanner -auth /var/dt/A:0-zcay9a
  552  0.0 /usr/lib/dmi/dmispd
  586  0.0 /usr/lib/dmi/snmpXdmid -s scada1
  612  0.0 /usr/dt/bin/dtlogin -daemon
  614  0.0 /usr/sfw/sbin/snmpd
  628  0.0 dtgreet -display :0
  629    - <defunct>
  639  0.0 /usr/sbin/vold -f /etc/vold.conf
  928  0.0 /usr/lib/ssh/sshd
  931  0.0 /usr/lib/ssh/sshd
  933  0.0 -ksh
  PID %CPU COMMAND
1000  0.0 /usr/lib/sendmail -bd -q15m
1001  0.0 /usr/lib/sendmail -Ac -q15m
2345  0.0 /usr/sbin/in.rlogind
2347  0.0 -ksh
2422  0.0 rlogin maint1
2423  0.0 rlogin maint1
2424  0.0 /usr/sbin/in.rlogind
2426  0.0 -ksh
3246  0.0 /usr/sbin/in.rlogind
3248  0.0 -ksh
3324  0.0 /usr/sbin/in.rlogind
3326  0.0 -ksh
3393  0.0 rlogin scada2
3394  0.0 rlogin scada2
3395  0.0 /usr/sbin/in.rlogind
3397  0.0 -ksh
3755  0.0 -ksh
3756  0.0 ps -eo pid,pcpu,args
3757  0.0 sort +1n
    3  0.1 fsflush


也没有什么异常,为啥好端端的两颗CPU会那么忙,郁闷,请高手指教。
作者: 风之幻想    时间: 2007-03-09 17:30
看看vmstat
作者: btqs    时间: 2007-03-09 17:47
prstat -a 看看什么东西在用,你先排除硬件故障吧, 看看messages  prtdiag -v 还有人家说了用了vmstat 2 30 看看 双核的cpu 有点搞不懂.你vmstat的话 看的就是cpu的使用时间了 不会出来什么16 18了 你看看具体的吧
作者: btqs    时间: 2007-03-09 17:52
prstat -a 看看什么东西在用,你先排除硬件故障吧, 看看messages  prtdiag -v 还有人家说了用了vmstat 2 30 看看 双核的cpu 有点搞不懂.你vmstat的话 看的就是cpu的使用时间了 不会出来什么16 18了 你看看具体的吧
作者: q30    时间: 2007-03-13 08:44
首先感谢以上各位的回帖。
2楼:
vmstat 显示CPU空闲idl为50%,也就是和我上边贴出的mpstat结果相吻合。

#mpstat

CPU minf mjf xcal  intr ithr  csw icsw migr smtx  srw syscl  usr sys  wt idl
  0    2   0    7   176   82    8    1    1    1    0    18    0 100   0   0
  2   89   1   48   252  146  108    3   11    4    0   449    1   1   0  98
16    0   0    2  1305   87   16    5    0    0    0     9    0 100   0   0
18   79   0   47    21   16  210    1   11    5    0   358    1   1   0  98


3楼,4楼的兄弟:
用你说的prstat -a 查看系统进程和用户进程发现CPU总的占用率还不到3%,观察半小时。



问题,无论mpstat, vmstat查看CPU的空闲率为50%,肯定不知道什么地方出问题了。我一批490机器,别的机器都没有问题,只有它。
作者: 小鹭    时间: 2007-03-13 10:00
执行pbind 看一下能不能把进程绑定到idle=0的cpu上运行。
作者: q30    时间: 2007-03-14 07:51
在所有几块CPU上执行pbind都能绑定进程,仍然找寻答案中……
作者: 风之幻想    时间: 2007-03-14 08:24
可以先用top或者prstat -a找找你的那个进程占用CPU最多。然后,在决定.有的时候,CPU占用率高.很有可能是应用的问题.
作者: q30    时间: 2007-03-14 11:45
用别的相同机器的硬盘没事,把本机硬盘放到别的机器上也没事,回来就坏事。。。。。。。。

这种问题简直是要命,,,,,重装个系统看看吧,,幸好系统还没有验收,处在测试阶段。。。。。。。
作者: 风之幻想    时间: 2007-03-14 11:52
原来做了RAID了?
作者: q30    时间: 2007-03-18 15:01
10楼,对啊,我做raid了

重新安装操作系统后,问题解决.....

但今早发现,可能与操作系统无关,我将490两块PCI光纤网卡起用(plumb,配好ip,重启),发现两块光纤网卡灯不亮,再查mpstat,问题重现.


可以肯定的是,我的光纤网卡为ce0,ce1 ,  主板上的网卡为ce2,ce3 ,一共四块. 用 ifconfig -a 查看,发现4块卡的MAC地址变成一样,不知何原因,按照网上的做法,将PROM中的auto-local-address? 的值由false改为true,重启,这次,所有的网卡MAC地址都不一样了,但仍然光线网卡灯不亮.(光纤收发没问题,交换机头光线也亮,惟独此机器光纤网卡和死了一样.)

注意:多台490,同样配置, 这台机器实在是太怪了.

估计网卡搞定了, ,, CPU的问题也就迎刃而解了.......

关注中.......




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2