免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 7425 | 回复: 11
打印 上一主题 下一主题

讨论:关于多线程中fork()的同步问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-11-24 15:15 |只看该作者 |正序浏览
本来发在LINUX内核版的,借借这里的人气。

这是我在一个论坛上偶然看到的,在讨论中有人提出LINUX系统中的fork()函数行为不够清晰。
比如在一个多线程的其中一个线程中执行fork()函数,是应该复制整个进程(即所有线程)还是仅仅复制当前调用fork()的线程。当然他对
LINUX不够熟悉。但是他提出了一个很有意思的例子来说明fork()的不足。
这里先把几个概念理一下:
多线程:由于LINUX并没有显式支持进程和线程的区别,使用了所谓的轻量级进程表示线程,所以这里的多线程表示的是共享虚拟地址空间(和信号处理所需的数据结构以及诸如文件等等,不过这里共享虚拟地址空间所引起的问题最大)。也就是通常使用fork()函数时指定CLONE_VM以及相关的flag,或者使用clone(),或者使用pthread库创建的进程。这些所有的调用最后都是使用do_fork(),外加flag的特定限制,特别的使用CLONE_VM指定新进程(线程)使用当前进程的虚拟地址空间,包括页目录和页表。
也就是说,这些多线程共用一个虚拟地址空间,包括页表和页目录。问题也就开始出现了。

现在举一个例子:假如一个SMP系统上面有若干个多线程,t1,t2,...tn,它们使用两个全局变量glob1, glob2进行某方面的同步,需要使用诸如信号量之类的锁进行互斥控制。在绝大多数情况下,都是没有问题的。现在假设线程t1执行了fork()希望创建一个进程(而不是线程,即新创建的子进程尽管初始的虚拟地址空间跟父进程完全一样,但是使用了COW技术保证它们有自己独立的虚拟地址空间)。在现在的内核中,do_fork()调用具体函数将父进程的mm_struct以及vma链表复制给子进程,同时也将父进程的页目录和页表复制给子进程的页目录和页表。但是由于内核无法完全控制父进程的页目录和页表(尽管它拥有控制互斥的自旋锁和信号量,其他CPU上内核执行路径是已经无法修改访问父进程的mm和页表,页目录。但是其他CPU上在用户态运行的线程t2,t3,..tn都可以访问页目录和页表。
假设这个多线程中有这样一个临界区代码:

  ...........
  mutex_lock()
   glob1 += 2;
   glob2 -= 2;
   mutex_unlock();
   ...........
也就是说glob1和glob2要吗都不改变,要吗都需要改变,也就是原子操作。
假设glob1和glob2属于同一个页(那么也属于同一个物理页)。当内核在执行t1的do_fork时,对于glob1和glob2所在的物理页作COW,具体一点就是把指向该物理页的pte设为只读。如果其他CPU上某个线程ti正在临界区,那么就有可能出现以下执行序列:

  ti: mutex_lock();
         glob1 += 2;
                  t1: 内核将指向该物理页的pte置为只读(COW)
  ti:   glob2 -= 2;  //在这里,由于现在的pte是只读的,会发生缺页异常,COW将使得glob2的修改只对t1,t2,...tn可见,
                   //而子进程中的glob2没有被修改
      mutex_unlock();

在刚创建的子进程返回到用户态时,它的glob1和glob2处在不一致状态?!

论坛徽章:
0
12 [报告]
发表于 2008-11-24 23:13 |只看该作者
原帖由 雨过白鹭洲 于 2008-11-24 23:02 发表
看了下SUS对线程调用fork()的说明,确实如楼主所说

我觉得,要么线程执行fork()后调用exec,要么就不要fork(),这样最简单了

嗯,其实我觉得使用fork()和execve()外加进程通信或环境变量完全可以满足几乎所有的应用,可以避开
这个问题。

论坛徽章:
0
11 [报告]
发表于 2008-11-24 23:07 |只看该作者
原帖由 雨过白鹭洲 于 2008-11-24 22:55 发表
Linux线程就是由NPTL实现的,属于glibc的一部分

如果是用户级的库,那估计很难解决这个问题。
我上面说的线程同步问题是由内核实现fork所引起的问题。
不过这种不一致发生的几率很小,如果是创建线程,不会i出现不一致问题。
只有如下条件都满足时才会可能出现不一致问题:
1.多线程
2.其中一个线程创建一个新进程(不是线程,如果是线程,就不会有问题)
3.创建的新进程不使用execve()完全更新自己的虚拟空间。

那么这个新进程的全局变量就可能不一致。

论坛徽章:
0
10 [报告]
发表于 2008-11-24 23:02 |只看该作者
看了下SUS对线程调用fork()的说明,确实如楼主所说

我觉得,要么线程执行fork()后调用exec,要么就不要fork(),这样最简单了

论坛徽章:
0
9 [报告]
发表于 2008-11-24 22:55 |只看该作者
Linux线程就是由NPTL实现的,属于glibc的一部分

论坛徽章:
0
8 [报告]
发表于 2008-11-24 22:32 |只看该作者
原帖由 雨过白鹭洲 于 2008-11-24 22:13 发表
这个应该由NPTL解决。。


POSIX的东西?

论坛徽章:
0
7 [报告]
发表于 2008-11-24 22:23 |只看该作者
原帖由 雨过白鹭洲 于 2008-11-24 22:13 发表
这个应该由NPTL解决。。

我土了,什么是NPTL?

论坛徽章:
0
6 [报告]
发表于 2008-11-24 22:13 |只看该作者
这个应该由NPTL解决。。

论坛徽章:
0
5 [报告]
发表于 2008-11-24 22:05 |只看该作者
原帖由 nicozhou 于 2008-11-24 22:00 发表
LZ描述得好辛苦啊,我看都看半天。

顺便:线程同步,信号量不够用吗?

这个不是信号量问题啊,信号量只是控制多线程的同步。
这里是指内核实现fork()以及对进程的抽象所带来的问题。

论坛徽章:
0
4 [报告]
发表于 2008-11-24 22:00 |只看该作者
LZ描述得好辛苦啊,我看都看半天。

顺便:线程同步,信号量不够用吗?
  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP