有偿求助!!!kdump
我的环境是liunx suse 11 p1 + hadoop+infiniband平台,问题是服务器运行一段时间不定期的服务器会自动重启,每次重启的服务器都不同一台,通过KDUMP转存的VMCORE由于水平有限又不懂反汇编始终找不到具体导致服务器重启的根本原因,求助各路精英协助分析问题,报酬问题可以QQ沟通2799335249,谢谢!310205.816258] BUG: unable to handle kernel NULL pointer dereference at (null)
IP: [<ffffffff811a5d55>] apparmor_file_permission+0x25/0xf0
PGD 46b4b2067 PUD 0
Oops: 0000 [#1] SMP
last sysfs file: /sys/devices/pci0000:00/0000:00:1a.0/usb1/1-1/1-1.5/1-1.5:1.0/input/input5/capabilities/sw
CPU 9
Modules linked in: ipmi_si ipmi_devintf ipmi_msghandler raw bonding rdma_ucm rdma_cm iw_cm ib_addr ib_ipoib cpufreq_conservative ib_cm cpufreq_userspace cpufreq_powersave ipv6 acpi_cpufreq ib_usa(N) ib_sa ib_uverbs ib_umad kcopy(N) ib_mthca microcode fuse loop dm_mod ib_qib(N) tpm_tis joydev tpm ib_mad tpm_bios usbhid pcspkr ib_core shpchp igb hid pci_hotplug ses rtc_cmos dca rtc_core enclosure rtc_lib wmi sg container button acpi_pad ehci_hcd usbcore sd_mod crc_t10dif edd xfs exportfs fan processor ide_pci_generic ide_core aacraid(N) ata_generic libata scsi_mod thermal thermal_sys hwmon
Supported: Yes
Pid: 11483, comm: java Tainted: G N2.6.32.12-0.7-default #1 NF5270M3
RIP: 0010:[<ffffffff811a5d55>][<ffffffff811a5d55>] apparmor_file_permission+0x25/0xf0
RSP: 0018:ffff880864eebec8EFLAGS: 00010292
RAX: ffffffff818442e0 RBX: ffff8801c8acc080 RCX: 0000000000000000
RDX: ffff880864eebf50 RSI: 0000000000000004 RDI: ffff8801c8acc080
RBP: ffff8801c8acc080 R08: 0000000000000001 R09: ffff8801c8acc0b0
R10: 0000000000057402 R11: ffffffff811a5d30 R12: 0000000000000000
R13: 0000000000000004 R14: 00000000000000a9 R15: 0000000000000042
FS:00007f0f66867710(0000) GS:ffff88048e4c0000(0000) knlGS:0000000000000000
CS:0010 DS: 0000 ES: 0000 CR0: 0000000080050033
CR2: 0000000000000000 CR3: 00000004644ca000 CR4: 00000000000406e0
DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400
Process java (pid: 11483, threadinfo ffff880864eea000, task ffff880864e48500)
Stack:
00007f0f78949000 0000000000002000 ffff8801c8acc080 0000000000000000
<0> 00007f0f668640d0 ffffffff810fc2d6 fffffffffffffff2 ffff8801c8acc080
<0> ffff880864eebf50 ffffffff810fc9b4 ffff88046c3f7e40 ffff8801c8acc080
Call Trace:
[<ffffffff810fc2d6>] rw_verify_area+0x56/0xc0
[<ffffffff810fc9b4>] vfs_read+0xa4/0x130
[<ffffffff810fcb43>] sys_read+0x53/0xa0
[<ffffffff81002f7b>] system_call_fastpath+0x16/0x1b
[<00007f0f836c357d>] 0x7f0f836c357d
Code: 84 00 00 00 00 00 48 83 ec 28 48 89 5c 24 08 4c 89 6c 24 20 48 89 fb 48 89 6c 24 10 4c 89 64 24 18 41 89 f5 4c 8b a7 98 00 00 00 <49> 8b 2c 24 48 85 ed 74 20 48 83 7f 10 00 74 19 48 8b 47 18 48
RIP[<ffffffff811a5d55>] apparmor_file_permission+0x25/0xf0
RSP <ffff880864eebec8>
CR2: 0000000000000000
我在开发中,曾经遇到和你类似的问题,请关注apparmor这个字眼,
【百度百科】AppArmor是一个高效和易于使用的Linux系统安全应用程序。AppArmor对操作系统和应用程序所受到的威胁进行从内到外的保护,甚至是未被发现的0day漏洞和未知的应用程序漏洞所导致的攻击。AppArmor安全策略可以完全定义个别应用程序可以访问的系统资源与各自的特权。AppArmor包含大量的默认策略,它将先进的静态分析和基于学习的工具结合起来,AppArmor甚至可以使非常复杂的应用可以使用在很短的时间内应用成功。
这个应该是你非法访问某些系统资源,然后apparmor被激活,导致crash。这个问题不太好定位,但是基本上和你一样,是必现的,你需要做好异常时的资源访问机制。 把apparmor service停了先:mrgreen: 看似指针重复释放,可能是apparmor相关内核流程的bug,需要具体分析代码逻辑。
如果要规避或解决的话,最好还是按ls说的,先停掉apparmor 。
另外,也可到git中搜搜相关的bug修复。
页:
[1]