Chinaunix

标题: VMALLOC_RESERVE 和 896M [打印本页]

作者: 思一克    时间: 2006-01-16 13:57
标题: VMALLOC_RESERVE 和 896M
VMALLOC_RESERVE和896M

LINUX 内核虚拟地址空间到物理地址空间一般是固定连续影射的。

假定机器内存为512M,
从3G开始,到3G + 512M 为连续固定影射区。zone_dma, zone_normal为这个区域的。固定影射的VADDR可以直接使用(get a free page, then use pfn_to_virt()等宏定义转换得到vaddr)或用kmalloc等分配. 这样的vaddr的物理页是连续的。得到的地址也一定在固定影射区域内。

如果内存紧张,连续区域无法满足,调用vmalloc分配是必须的,因为它可以将物理不连续的空间组合后分配,所以更能满足分配要求。

但vmalloc分配的vaddr一定不能与固定影射区域的vaddr重合。因为vaddr到物理页的影射同时只能唯一。所以vmalloc得到的vaddr要在3G + 512m 以上才可以。也就是从VMALLOC_START开始分配。 VMALLOC_START比连续固定影射区大最大vaddr地址还多8-16M(2*VMALLOC_OFFSET)--有个鬼公式在

#define VMALLOC_OFFSET  8*1024
#define VMALLOC_START  (high_memory - 2*VMALLOC_OFFSET) & ~(VMALLOC_OFFSET-1)

high_memory 就是固定影射区域最高处。

空开8-16M做什么? 为了捕获越界的mm_fault.
同样,vmalloc每次得到的VADDR空间中间要留一个PAGE的空(空洞),目的和上面的空开一样。你vmalloc(100)2次,得到的2个地址中间相距8K。
如果连续分配无空洞,那么比如
p1=vmalloc(4096);
p2=vmalloc(4096);
如果p1使用越界到p2中了,也不会mm_falut. 那不容易debug.

下面说明VMALLOC_RESERVE和896M的问题。

上面假设机器物理512M的case. 如果机器有1G物理内存如何是好?那vmalloc()的vaddr是不是要在3G + 1G + 8M 空洞以上分配?超过寻址空间了吗。
这时,4G 下面保留的VMALLOC_RESERVER 128m 就派上用场了。
也就是说如果物理内存超过896M, high_memory也只能在3G + 896地方。可寻址空间最高处要保留VMALLOC_RESREVER 128M给vmalloc用。

所以这128M的VADDR空间是为了vmalloc在物理超过了896M时候使用。如果物理仅仅有512M, 一般使用不到。因为VMALLOC_START很低了。如果vmalloc太多了才会用到。

high_memory在arch/i386/kernel, mm的初始化中设置。根据物理内存大小和VMALLOC_RESERVE得到数值.

所以说那128M仅仅是为了影射1G以上的物理内存的不对的。如果物理内存2G,1G以下的vmalloc也用那空间影射。

看vmalloc分配的东西可以用


  1. show_vmalloc()
  2. {
  3. struct vm_struct **p, *tmp;

  4.     for(p = &vmlist; (tmp = *p); p = &tmp->next) {
  5.        printk("%p %p %d\n", tmp, tmp->addr, tmp->size

  6.    }
  7. }
复制代码


看到。

不全面的地方我还有补充,欢迎讨论

[ 本帖最后由 albcamus 于 2006-1-17 09:17 编辑 ]
作者: yjh777    时间: 2006-01-16 16:52
纠正一下:
2.4.21内核 i386 平台上的定义:
#define VMALLOC_OFFSET  (8*1024*1024)
#define VMALLOC_START   (((unsigned long) high_memory + 2*VMALLOC_OFFSET-1) & \
                                                ~(VMALLOC_OFFSET-1))
#define VMALLOC_VMADDR(x) ((unsigned long)(x))
#if CONFIG_HIGHMEM
# define VMALLOC_END    (PKMAP_BASE-2*PAGE_SIZE)
#else
# define VMALLOC_END    (FIXADDR_START-2*PAGE_SIZE)
#endif


2.6.9内核 i386 平台上的定义:
#define VMALLOC_OFFSET        (8*1024*1024)
#define VMALLOC_START        (((unsigned long) high_memory + vmalloc_earlyreserve + \
                        2*VMALLOC_OFFSET-1) & ~(VMALLOC_OFFSET-1))
#ifdef CONFIG_HIGHMEM
# define VMALLOC_END        (PKMAP_BASE-2*PAGE_SIZE)
#else
# define VMALLOC_END        (FIXADDR_START-2*PAGE_SIZE)
#endif

可以看一下ULK 2nd(中文版) 的图7-7。 英文版就是 Figure 7-7 了
2.6内核的对应 ULK 3rd 的Figure 8-7

[ 本帖最后由 yjh777 于 2006-1-16 17:42 编辑 ]
作者: 思一克    时间: 2006-01-16 16:55
to yjh777.

谢谢。我没仔细打字,所以。。。
KMALLOC_RESERVER 应该是VMALLOC_RESERVE

本帖子就是针对你的帖子和几个人的疑问写的。对你的理解是否有帮助?
作者: 思一克    时间: 2006-01-16 17:00
to albcamus,

请帮助将题目改了,KMALLOC_RESERVE 应该为VMALLOC_RESERVE

谢谢
作者: yjh777    时间: 2006-01-16 17:02
原帖由 思一克 于 2006-1-16 16:55 发表
to yjh777.

谢谢。我没仔细打字,所以。。。
KMALLOC_RESERVER 应该是VMALLOC_RESERVE

本帖子就是针对你的帖子和几个人的疑问写的。对你的理解是否有帮助?


8错, 解释的很透彻。 谢谢

还有一个问题:就是用户空间程序,可不可以使用高端内存,有几种方法。
作者: 思一克    时间: 2006-01-16 17:10
我在看。因为我机器仅仅512M,所以无法实验



还有一个问题:就是用户空间程序,可不可以使用高端内存,有几种方法。”
作者: albcamus    时间: 2006-01-16 17:37
我印象里用户空间是可以使用高端内存的, 只不过不可能超过4G的空间范围 per 进程。
至于如何为用户进程分配高端内存则不懂, 这两天补一下VM。
to 思兄:那个公式也有笔误吗? 我不确定,还是您自个儿编辑一下吧, 我怕编辑错了
作者: snow_insky    时间: 2006-01-16 17:54
用户空间当然可以使用了,而且是正常的使用,内核在分配那些不经常使用的内存时,都用高端内存空间(如果有),所谓不经常使用是相对来说的,比如内核的一些数据结构就属于经常使用的,而用户的一些数据就属于不经常使用的。

用户在启动一个应用程序时,是需要内存的,而每个应用程序都有3G的线性地址,给这些地址映射页表时就可以直接使用高端内存。

而且还要纠正一点的是:那128M内存的功能不仅仅是用在这些地方的,如果你要加载一个设备,而这个设备需要映射内存到内核中,它也需要使用这段线性地址空间来完成,否则内核就不能访问设备上的内存空间了。
作者: albcamus    时间: 2006-01-16 18:40
>> 那128M内存的功能不仅仅是用在这些地方的,如果你要加载一个设备,而这个设备需要映射内存到内核中,它也需要使用这段线性地址空间来完成,否则内核就不能访问设备上的内存空间了。

这个曾经在某个版本的内核代码的__VMALLOC_RESERVE宏的注释中见过,呵呵,可是现在在2.6.14找不到了
作者: snow_insky    时间: 2006-01-16 19:21
那 能告诉我现在的那些内存是怎么映射的吗?它不会不需要线性地址就可以被使用了吧!
作者: 思一克    时间: 2006-01-17 08:19
to albcamus,

标题我自己不能改吧。KMALLOC_RESERVE 应该是 VMALLOC_RESERVE

我认为应用程序可以使用高端MEM。但我机器内存太小无法实验。
作者: yjh777    时间: 2006-01-17 08:43
>> 那128M内存的功能不仅仅是用在这些地方的,如果你要加载一个设备,而这个设备需要映射内存到内核中,它也需要使用这段线性地址空间来完成,否则内核就不能访问设备上的内存空间了。

用词不当:
不是128M内存, 是128M线性地址!
而且,设备内存可以通过MMAP映射到用户地址空间直接使用.
我们还是先讨论高端内存吧.听说2.4和2.6处理有所不同,.......

[ 本帖最后由 yjh777 于 2006-1-17 08:55 编辑 ]
作者: snow_insky    时间: 2006-01-17 11:01
For devices connected to the PCI bus

The I/O shared memory is mapped into 32-bit physical addresses near the 4 GB boundary. This kind of device is much simpler to handle.

这是ULK-3rd中的原话,我想现在这部分空间还是需要用来映射设备的I/O内存的。
作者: snow_insky    时间: 2006-01-17 11:04
原帖由 yjh777 于 2006-1-17 08:43 发表
>> 那128M内存的功能不仅仅是用在这些地方的,如果你要加载一个设备,而这个设备需要映射内存到内核中,它也需要使用这段线性地址空间来完成,否则内核就不能访问设备上的内存空间了。

用词不当:
不是1 ...


这是搞笑,难道这不是那128M的线性地址空间的用途吗?
作者: yjh777    时间: 2006-01-17 11:45
原帖由 snow_insky 于 2006-1-17 11:04 发表


这是搞笑,难道这不是那128M的线性地址空间的用途吗?


我说的是方法,你说的是用途。 不冲突的。
我没有搞笑,是你生气了。sorry!
作者: 思一克    时间: 2006-01-18 16:52
to albcamus,

谢谢你帮我改好了。 并且净化了。
作者: guotie    时间: 2006-06-09 15:00
in arch/i386/mm/init.c:

#ifdef CONFIG_HIGHMEM
        high_memory = (void *) __va(highstart_pfn * PAGE_SIZE - 1) + 1;
#else
        high_memory = (void *) __va(max_low_pfn * PAGE_SIZE - 1) + 1;
#endif

in arch/i386/mm/discontig.c
        system_max_low_pfn = max_low_pfn = find_max_low_pfn() - reserve_pages;




欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2