Chinaunix

标题: 难道Solaris的稳定是吹出来的?运行find命令找个文件居然突然重启 [打印本页]

作者: tigerwu2049    时间: 2006-06-06 12:24
标题: 难道Solaris的稳定是吹出来的?运行find命令找个文件居然突然重启
如题:
请高手指点:
软件环境:solaris10 for x86 (1/06)
硬件环境:x86机器,30G硬盘,256M内存,intel pro/100以太网卡
系统分区:/             6.5G   (刚接触solaris不知道各个文件夹的作用,所以把他们放到一起)
               swap      512M
网络环境:没有连接网络,配置网卡为静态ip,随便指定dns,选择启动时自动探测router

现象:(操作步骤)
1. 机器启动,显示图形登录界面,选择英文(c),CDE桌面, 以非root身份进入系统。
2. 打开终端,su成root身份,输入命令:find / -name "vim",回车运行。
3. 返回结果:
     /opt/sfw/bin/vim
     ...
     ...
4. 退出CDE桌面,回到登录界面,选择中文语言(gb18031)CDE桌面, 以非root身份进入系统。
5. 打开终端,su成root身份,输入命令:find / -name "mount_pcfs",回车运行。
6. 过了几秒,突然黑屏,机器重启。

检查原因:
1. 重启进入,选择中文语言CDE桌面,以非root身份进入系统。
2. 打开终端,su成root身份,运行:ls -lA /
3. 查看根目录下各个文件夹的修改时间,发现大部分目录是在安装系统时创建的,只有几个目录在机器启动时有修改(包括/net, /home, ...)
4. 分别对根目录下的子文件夹运行:
    find /bin -name "mount"
    ......
    find /net -name "mount"
    ......
5. 发现在运行find /net -name "mount"时(也就是在/net目录中find时导致重启的),机器黑屏重启(试了两次,重启了两次),其它文件夹都没有问题。
6. 检查/net文件夹:ls -l /,显示结果:
    dr-xr-xr-x     ... ...  2    net          (文件夹大小为2个字节,好像是link型的文件夹)
    修改时间为机器重启的时间,net目录里有一个文件夹为:hostname(我的主机名),hostname文件夹里的内容是和根目录/完全一样的内容,其中的net目录里又有一个hostname目录,hostname的内容又和根目录的内容一样,其中的net目录这次是空的,修改时间为安装系统的时间。net目录示意图:

/net/hostname/net/hostname/net
            ^                       ^          ^
             |                        |            |
             |                        |            +------------这个net为空,创建(修改)时间是系统安装时间
             |                        +-------------与/目录完全一样的内容,就像是link文件夹
             |
             +-----------与/目录完全一样的内容,就像是link文件夹

问题解决:
1. 运行sys-unconfig
2. 重新配置机器:重新命名hostname(改了个名字),静态ip,这次没选dns和探测router
3. 重启进入,发现/net目录被清空了,没有文件(夹)在里面,修改时间为重启时间。
4. 再运行find / -name "mount",没有问题,返回了查找的结果

不明白:
1. /net目录是干啥用的,为什么会产生这么怪的目录,象是link目录又不是(ls -l显示它不是个link),还有它下面的hostname子目录更奇怪,它是什么时候建立的
2. find 命令是不是有bug,即使传进去的目录比较深也不应该导致机器重启啊,这太恐怖了,
3. 和我的文件系统的分区没有关系吧?
4. 这好像和我的网络配置有关系,请高手指点。。。。。。
作者: Solaris12    时间: 2006-06-06 13:00
原帖由 tigerwu2049 于 2006-6-6 12:24 发表
1. /net目录是干啥用的,为什么会产生这么怪的目录,象是link目录又不是(ls -l显示它不是个link),还有它下面的hostname子目录更奇怪,它是什么时候建立的
2. find 命令是不是有bug,即使传进去的目录比较深也不应该导致机器重启啊,这太恐怖了,
3. 和我的文件系统的分区没有关系吧?
4. 这好像和我的网络配置有关系,请高手指点。。。。。。



1. /net 目录是automount用nfs给你mount上的网络共享目录。

2. 不应该是find命令的bug,而是访问网络文件系统nfs时出现的问题,所以估计是网络nfs,tcp/ip或者网卡驱动的bug.

以我的经验,应该是驱动bug的可能性比较大。

重启时有没有panic的信息呢?

可以查看一下:

grep -i panic /var/adm/messages


另外,可以在grub加上kmdb来启动系统,再次重启时,应该会退到kmdb里,这是可以看看调用栈。


总得来说,sparc上的solaris比x86的solaris要稳定一些。

主要原因就是x86的硬件种类繁多,驱动引起问题的可能性比较大。
作者: tigerwu2049    时间: 2006-06-06 13:56
重启时没有panic,就像啥事都没有一样(但是肯定运行了fsck检查文件系统)

多谢高人指点,长见识。按理说intel pro/100的网卡很常见的,驱动不会这么差吧。

好像也没有什么crash和core的记录,因为机器是突然重启的(就像突然断电一样,没有任何提示),根本没有时间去写日志(至少我没有看到写盘的灯闪),我回去再检查一下日志。

幸亏我只是用solaris作学习研究的,否则后果是相当严重。看来对于x86的硬件还是FreeBSD更适应。

用x86 solaris10的兄弟也注意一下我碰到的这种情况,看看是不是也有这种情况,以免造成损失。
作者: tigerwu2049    时间: 2006-06-07 09:02
多谢老大指点,把我的panic贴上
> grep -n panic ./messages
2854:Jun  5 21:02:25 TigerWu ^Mpanic[cpu0]/thread=d4b43200:
3263:Jun  5 21:03:29 TigerWu savecore: [ID 570001 auth.error] reboot after panic: BAD TRAP: type=8 (#df Double fault) rp=fec22440 addr=d4c11ffc
3288:Jun  5 21:04:47 TigerWu ^Mpanic[cpu0]/thread=d4cb9600:
3698:Jun  5 21:05:58 TigerWu savecore: [ID 570001 auth.error] reboot after panic: BAD TRAP: type=8 (#df Double fault) rp=fec22440 addr=d4d1dffc
4170:Jun  5 21:41:25 TigerWu ^Mpanic[cpu0]/thread=d54fcc00:
4579:Jun  5 21:42:32 TigerWu savecore: [ID 570001 auth.error] reboot after panic: BAD TRAP: type=8 (#df Double fault) rp=fec22440 addr=d591cffc
4649:Jun  5 21:46:32 TigerWu ^Mpanic[cpu0]/thread=d4b64200:
5058:Jun  5 21:47:37 TigerWu savecore: [ID 570001 auth.error] reboot after panic: BAD TRAP: type=8 (#df Double fault) rp=fec22440 addr=d4bebffc
5085:Jun  5 21:49:26 TigerWu ^Mpanic[cpu0]/thread=d6235c00:
5496:Jun  5 21:50:37 TigerWu savecore: [ID 570001 auth.error] reboot after panic: BAD TRAP: type=8 (#df Double fault) rp=fec22440 addr=d5b31ffc
5926:Jun  5 22:27:02 TigerWu ^Mpanic[cpu0]/thread=d5b07a00:
6335:Jun  5 22:28:07 TigerWu savecore: [ID 570001 auth.error] reboot after panic: BAD TRAP: type=8 (#df Double fault) rp=fec22440 addr=d58fcffc

//这是其中一次panic的详细记录
Jun  5 21:02:25 TigerWu unix: [ID 836849 kern.notice]
Jun  5 21:02:25 TigerWu ^Mpanic[cpu0]/thread=d4b43200:
Jun  5 21:02:25 TigerWu genunix: [ID 683410 kern.notice] BAD TRAP: type=8 (#df Double fault) rp=fec22440 addr=d4c11ffc
Jun  5 21:02:25 TigerWu unix: [ID 100000 kern.notice]
Jun  5 21:02:25 TigerWu unix: [ID 839527 kern.notice] find:
Jun  5 21:02:25 TigerWu unix: [ID 753105 kern.notice] #df Double fault
Jun  5 21:02:25 TigerWu unix: [ID 358286 kern.notice] addr=0xd4c11ffc
Jun  5 21:02:25 TigerWu unix: [ID 243837 kern.notice] pid=700, pc=0xfe8c957d, sp=0xd4c12000, eflags=0x10283
Jun  5 21:02:25 TigerWu unix: [ID 211416 kern.notice] cr0: 8005003b<pg,wp,ne,et,ts,mp,pe> cr4: 6d8<xmme,fxsr,pge,mce,pse,de>
Jun  5 21:02:25 TigerWu unix: [ID 936844 kern.notice] cr2: d4c11ffc cr3: 40e0000
Jun  5 21:02:25 TigerWu unix: [ID 537610 kern.notice]    gs:      1b0  fs:        0  es:      160  ds:      160
Jun  5 21:02:25 TigerWu unix: [ID 537610 kern.notice]   edi:        0 esi:        0 ebp:        0 esp: fec22470
Jun  5 21:02:25 TigerWu unix: [ID 537610 kern.notice]   ebx:       40 edx: d4b43200 ecx:        0 eax:        7
Jun  5 21:02:25 TigerWu unix: [ID 537610 kern.notice]   trp:        8 err:        0 eip: fe8c957d  cs:      158
Jun  5 21:02:25 TigerWu unix: [ID 717149 kern.notice]   efl:    10283 usp: d4c12000  ss:      160
Jun  5 21:02:25 TigerWu unix: [ID 125119 kern.notice] tss.tss_link:     0x0
Jun  5 21:02:25 TigerWu unix: [ID 125119 kern.notice] tss.tss_esp0:     0xd4c14000
Jun  5 21:02:25 TigerWu unix: [ID 125119 kern.notice] tss.tss_ss0:      0x160
Jun  5 21:02:25 TigerWu unix: [ID 125119 kern.notice] tss.tss_esp1:     0x0
Jun  5 21:02:25 TigerWu unix: [ID 125119 kern.notice] tss.tss_ss1:      0x0
Jun  5 21:02:25 TigerWu unix: [ID 125119 kern.notice] tss.tss_esp2:     0x0
Jun  5 21:02:25 TigerWu unix: [ID 125119 kern.notice] tss.tss_ss2:      0x0
Jun  5 21:02:25 TigerWu unix: [ID 125119 kern.notice] tss.tss_cr3:      0x40e0000
Jun  5 21:02:25 TigerWu unix: [ID 125119 kern.notice] tss.tss_eip:      0xfe8c957d
Jun  5 21:02:25 TigerWu unix: [ID 125119 kern.notice] tss.tss_eflags:   0x10283
Jun  5 21:02:25 TigerWu unix: [ID 125119 kern.notice] tss.tss_eax:      0x7
Jun  5 21:02:25 TigerWu unix: [ID 125119 kern.notice] tss.tss_ebx:      0x40
Jun  5 21:02:25 TigerWu unix: [ID 125119 kern.notice] tss.tss_ecx:      0xfec6d320
Jun  5 21:02:25 TigerWu unix: [ID 125119 kern.notice] tss.tss_edx:      0xd4b43200
Jun  5 21:02:25 TigerWu unix: [ID 125119 kern.notice] tss.tss_esp:      0xd4c12000
Jun  5 21:02:25 TigerWu unix: [ID 100000 kern.notice]
Jun  5 21:02:25 TigerWu last message repeated 1 time
Jun  5 21:02:25 TigerWu genunix: [ID 672855 kern.notice] syncing file systems...
Jun  5 21:02:25 TigerWu genunix: [ID 904073 kern.notice]  done
Jun  5 21:02:26 TigerWu genunix: [ID 111219 kern.notice] dumping to /dev/dsk/c0d0s1, offset 107675648, content: kernel
Jun  5 21:02:28 TigerWu genunix: [ID 409368 kern.notice] ^M100% done: 12035 pages dumped, compression ratio 2.56,
Jun  5 21:02:28 TigerWu genunix: [ID 851671 kern.notice] dump succeeded
Jun  5 21:02:45 TigerWu genunix: [ID 540533 kern.notice] ^MSunOS Release 5.10 Version Generic_118844-26 32-bit
Jun  5 21:02:45 TigerWu genunix: [ID 943906 kern.notice] Copyright 1983-2005 Sun Microsystems, Inc.  All rights reserved.
Jun  5 21:02:45 TigerWu Use is subject to license terms.
Jun  5 21:02:45 TigerWu unix: [ID 126719 kern.info] features: 1007fdf<cpuid,sse2,sse,sep,pat,cx8,pae,mca,mmx,cmov,pge,mtrr,msr,tsc,lgpg>
Jun  5 21:02:45 TigerWu unix: [ID 168242 kern.info] mem = 261564K (0xff6f000)
Jun  5 21:02:45 TigerWu rootnex: [ID 466748 kern.info] root nexus = i86pc
Jun  5 21:02:45 TigerWu rootnex: [ID 349649 kern.info] pseudo0 at root
Jun  5 21:02:45 TigerWu genunix: [ID 936769 kern.info] pseudo0 is /pseudo
Jun  5 21:02:45 TigerWu rootnex: [ID 349649 kern.info] scsi_vhci0 at root
Jun  5 21:02:45 TigerWu genunix: [ID 936769 kern.info] scsi_vhci0 is /scsi_vhci
Jun  5 21:02:45 TigerWu rootnex: [ID 349649 kern.info] isa0 at root
Jun  5 21:02:45 TigerWu acpica: [ID 213092 kern.notice] ACPI-0611: *** Error:
Jun  5 21:02:45 TigerWu acpica: [ID 810882 kern.notice] Method execution failed
Jun  5 21:02:45 TigerWu acpica: [ID 907529 kern.notice] [\_SB_.C045.C059.C0E2._INI] (Node d41a4224)
作者: Solaris12    时间: 2006-06-08 12:52
原帖由 tigerwu2049 于 2006-6-7 09:02 发表
多谢老大指点,把我的panic贴上
> grep -n panic ./messages
2854:Jun  5 21:02:25 TigerWu ^Mpanic[cpu0]/thread=d4b43200:
3263:Jun  5 21:03:29 TigerWu savecore: [ID 570001 auth.error] reboot afte ...



还是不够详细,至少没有把调用栈打出来。

你先用dumpadm看看panic的crashdump文件存在什么位置。

然后,到目录下找到*.数字结尾的文件,看看有多少,注意文件的时间,是否和你panic的时间相近。


ls -al 出来结果看看。


假设,有以*.1结尾的文件。

运行下面的名令:

mdb 1
>::msgbuf




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2