免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: sky__sea
打印 上一主题 下一主题

[内核模块] 进程挂住问题 [复制链接]

论坛徽章:
20
程序设计版块每日发帖之星
日期:2015-08-17 06:20:00程序设计版块每日发帖之星
日期:2016-07-16 06:20:00程序设计版块每日发帖之星
日期:2016-07-18 06:20:00每日论坛发贴之星
日期:2016-07-18 06:20:00黑曼巴
日期:2016-12-26 16:00:3215-16赛季CBA联赛之江苏
日期:2017-06-26 11:05:5615-16赛季CBA联赛之上海
日期:2017-07-21 18:12:5015-16赛季CBA联赛之青岛
日期:2017-09-04 17:32:0515-16赛季CBA联赛之吉林
日期:2018-03-26 10:02:16程序设计版块每日发帖之星
日期:2016-07-15 06:20:0015-16赛季CBA联赛之江苏
日期:2016-07-07 18:37:512015亚冠之萨济拖拉机
日期:2015-08-17 12:21:08
21 [报告]
发表于 2016-03-09 16:58 |只看该作者
PS,module引用的内存(属于kernel space)会被swap么?

论坛徽章:
1
操作系统版块每日发帖之星
日期:2015-11-29 06:20:00
22 [报告]
发表于 2016-03-09 17:08 |只看该作者
跟strace没关系,是进程挂住以后,我用strace跟踪,发现一直显示 write(3, 0x728c7429c4d4ba4, 17930862827480475073) = 4294967282 ,在write这个系统调用这死循环。
nswcfd 发表于 2016-03-09 16:45
这个现象只在strace的场景下发生么?

去掉全局变量访问,在strace下也不会再出现了?

论坛徽章:
1
操作系统版块每日发帖之星
日期:2015-11-29 06:20:00
23 [报告]
发表于 2016-03-09 17:09 |只看该作者
不清楚,凡是应该不是这个问题吧。
nswcfd 发表于 2016-03-09 16:58
PS,module引用的内存(属于kernel space)会被swap么?

论坛徽章:
20
程序设计版块每日发帖之星
日期:2015-08-17 06:20:00程序设计版块每日发帖之星
日期:2016-07-16 06:20:00程序设计版块每日发帖之星
日期:2016-07-18 06:20:00每日论坛发贴之星
日期:2016-07-18 06:20:00黑曼巴
日期:2016-12-26 16:00:3215-16赛季CBA联赛之江苏
日期:2017-06-26 11:05:5615-16赛季CBA联赛之上海
日期:2017-07-21 18:12:5015-16赛季CBA联赛之青岛
日期:2017-09-04 17:32:0515-16赛季CBA联赛之吉林
日期:2018-03-26 10:02:16程序设计版块每日发帖之星
日期:2016-07-15 06:20:0015-16赛季CBA联赛之江苏
日期:2016-07-07 18:37:512015亚冠之萨济拖拉机
日期:2015-08-17 12:21:08
24 [报告]
发表于 2016-03-09 17:47 |只看该作者
这个返回值太大了吧?32bit or 64bit?

论坛徽章:
20
程序设计版块每日发帖之星
日期:2015-08-17 06:20:00程序设计版块每日发帖之星
日期:2016-07-16 06:20:00程序设计版块每日发帖之星
日期:2016-07-18 06:20:00每日论坛发贴之星
日期:2016-07-18 06:20:00黑曼巴
日期:2016-12-26 16:00:3215-16赛季CBA联赛之江苏
日期:2017-06-26 11:05:5615-16赛季CBA联赛之上海
日期:2017-07-21 18:12:5015-16赛季CBA联赛之青岛
日期:2017-09-04 17:32:0515-16赛季CBA联赛之吉林
日期:2018-03-26 10:02:16程序设计版块每日发帖之星
日期:2016-07-15 06:20:0015-16赛季CBA联赛之江苏
日期:2016-07-07 18:37:512015亚冠之萨济拖拉机
日期:2015-08-17 12:21:08
25 [报告]
发表于 2016-03-09 17:55 |只看该作者
4294967282在int32下是-14,在楼主的架构下是什么错误值?

x86下,-14是EFAULT buf is outside your accessible address space.

PS,write的返回值应该是ssize_t。

楼主用什么程序测试的?普通的echo命令?

论坛徽章:
20
程序设计版块每日发帖之星
日期:2015-08-17 06:20:00程序设计版块每日发帖之星
日期:2016-07-16 06:20:00程序设计版块每日发帖之星
日期:2016-07-18 06:20:00每日论坛发贴之星
日期:2016-07-18 06:20:00黑曼巴
日期:2016-12-26 16:00:3215-16赛季CBA联赛之江苏
日期:2017-06-26 11:05:5615-16赛季CBA联赛之上海
日期:2017-07-21 18:12:5015-16赛季CBA联赛之青岛
日期:2017-09-04 17:32:0515-16赛季CBA联赛之吉林
日期:2018-03-26 10:02:16程序设计版块每日发帖之星
日期:2016-07-15 06:20:0015-16赛季CBA联赛之江苏
日期:2016-07-07 18:37:512015亚冠之萨济拖拉机
日期:2015-08-17 12:21:08
26 [报告]
发表于 2016-03-09 18:26 |只看该作者
本帖最后由 nswcfd 于 2016-03-09 18:30 编辑

write(3,...) 应该不是echo命令。

不过,write的count参数,17930862827480475073,也太大了吧。

倒是count太大跟返回-EFAULT关联起来了。vfs_write里面,access_ok检查失败就返回EFAULT。

问题就变成了,count是怎么被改变的?以及返回-EFAULT之后,为什么会循环,这是不是app自身的行为(比如/bin/cp)?

这里还有一点,就是sys_write的返回值:
虽然vfs_write返回<0的错误值,由于楼主替换的函数使用int,导致返回app的返回值是大的正整数。
app在这种情况下的反映是什么?ret=write(...,n),结果返回ret>n?

类似cp的框架通常为:
  1. while (n = read(..., n) > 0) {
  2.    write_n(..., n);
  3. }
复制代码
其中的write_n可能是
  1. write_n(..., n) {
  2.   total = 0;
  3.   while (total != n) {          //<======= 问题可能在于终止条件是!=,而不是>=
  4.     r = write(..., n - total);  //<======= n - total存在溢出的可能
  5.     if (r <  0) break;
  6.     total += r;                   //<======= 把错误值当成正值返回,导致total>n
  7.   }
  8. }
复制代码
以上只是一种猜想,能否把strace的输出过滤一下(比如去重),看看是怎么从最开始合理的write call变成最后的样子的?

论坛徽章:
1
操作系统版块每日发帖之星
日期:2015-11-29 06:20:00
27 [报告]
发表于 2016-03-10 08:57 |只看该作者
非常感谢nswcfd兄弟,我用的是mysql的shutdown命令,“虽然vfs_write返回<0的错误值,由于楼主替换的函数使用int,导致返回app的返回值是大的正整数。“,int 类型不应该返回的是负数吗,是有符号的呀?

论坛徽章:
20
程序设计版块每日发帖之星
日期:2015-08-17 06:20:00程序设计版块每日发帖之星
日期:2016-07-16 06:20:00程序设计版块每日发帖之星
日期:2016-07-18 06:20:00每日论坛发贴之星
日期:2016-07-18 06:20:00黑曼巴
日期:2016-12-26 16:00:3215-16赛季CBA联赛之江苏
日期:2017-06-26 11:05:5615-16赛季CBA联赛之上海
日期:2017-07-21 18:12:5015-16赛季CBA联赛之青岛
日期:2017-09-04 17:32:0515-16赛季CBA联赛之吉林
日期:2018-03-26 10:02:16程序设计版块每日发帖之星
日期:2016-07-15 06:20:0015-16赛季CBA联赛之江苏
日期:2016-07-07 18:37:512015亚冠之萨济拖拉机
日期:2015-08-17 12:21:08
28 [报告]
发表于 2016-03-10 10:48 |只看该作者
本帖最后由 nswcfd 于 2016-03-10 11:18 编辑

64位下的一个典型错误。
  1.   $ cat c1.c
  2. #include <unistd.h>
  3. #include <stdio.h>
  4. extern ssize_t f();
  5. int main()
  6. {
  7.         printf("%zd\n", f());
  8. }

  9. $ cat c2.c
  10. int f() { return -1; }

  11. $ gcc c1.c c2.c
  12. $ ./a.out
  13. 4294967295
复制代码

论坛徽章:
20
程序设计版块每日发帖之星
日期:2015-08-17 06:20:00程序设计版块每日发帖之星
日期:2016-07-16 06:20:00程序设计版块每日发帖之星
日期:2016-07-18 06:20:00每日论坛发贴之星
日期:2016-07-18 06:20:00黑曼巴
日期:2016-12-26 16:00:3215-16赛季CBA联赛之江苏
日期:2017-06-26 11:05:5615-16赛季CBA联赛之上海
日期:2017-07-21 18:12:5015-16赛季CBA联赛之青岛
日期:2017-09-04 17:32:0515-16赛季CBA联赛之吉林
日期:2018-03-26 10:02:16程序设计版块每日发帖之星
日期:2016-07-15 06:20:0015-16赛季CBA联赛之江苏
日期:2016-07-07 18:37:512015亚冠之萨济拖拉机
日期:2015-08-17 12:21:08
29 [报告]
发表于 2016-03-10 11:17 |只看该作者
在c2里,f的被声明为int,因此返回值eax=-1,也就是eax=0xffff-ffff,
同时这意味着rax=0x0000-0000-ffff-ffff,注意不是符号扩展为0xffff-ffff-ffff-ffff。

在c1里,f被声明为sszie_t,也就是long,所以调用者使用rax来引用返回值,就变成了一个正的长整数。

论坛徽章:
1
操作系统版块每日发帖之星
日期:2015-11-29 06:20:00
30 [报告]
发表于 2016-03-14 11:46 |只看该作者
真的是太感谢@nswcfd兄弟了,问题解决了,果然是定义的类型不对,应该定义成long,
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP