Chinaunix

标题: Linux内核IP Queue机制的分析（三）——ip_queue内核模块的分析 [打印本页]

作者: Godbach 时间: 2010-01-04 21:54
标题: Linux内核IP Queue机制的分析（三）——ip_queue内核模块的分析
本文分析ip_queue的内核态源码。文中如有任何疏漏和差错，欢迎各位朋友指正。

本文欢迎自由转载，但请标明出处，并保证本文的完整性。
作者：Godbach
Blog：http://Godbach.cublog.cn
日期：2010/01/04

本系列的前两篇文章如下：
1. Linux内核IP Queue机制的分析（一）——用户态接收数据包
http://blog.chinaunix.net/u/33048/showart_1678213.html
2. Linux内核IP Queue机制的分析（二）——用户态处理并回传数据包
http://blog.chinaunix.net/u/33048/showart_1839753.html
本文大纲如下：
一、IP Queue的生效
二、网络层中IP报文进入IP Queue的流程
三、ip_queue代码分析
（一）数据结构的定义
（二）ip_queue模块的加载和卸载
（三）ip_queue报文入队处理函数的注册
（四）入队函数ipq_enqueue_packet —— 发送数据包到用户空间
（五）接收和处理用户空间的配置—— 接收用户空间的数据包
（六）数据包的最终处理

[ 本帖最后由 Godbach 于 2010-1-5 15:08 编辑 ]

作者: Godbach 时间: 2010-01-04 21:56
一、IP Queue的生效
数据包能够进入ip_queue模块，需要两个动作：
（1）模块的加载：modprobe ip_queue
（2）NF上对数据包执行NF_QUEUE的动作，这个可以通过用户态配置一条iptables规则实现：
iptables -A INPUT -p tcp --dport 21 -j QUEUE
这里假设对发往本机的TCP报文端口为21的进行QUEUE。
有了以上两个步骤，所有匹配到（2）中的报文将会调用IP Queue模块的相关函数。

二、网络层中IP报文进入IP Queue的流程
本文中分析的代码的内核版本为2.6.18.3.
这里我们以本地接收报文为例，如果是转发的报文，可比照着分析即可。
IP层接收报文的函数为：ip_rcv()（ip_input.c）。该函数对报文进行一些初步的检查后，就将报文交给PREROUTING Hook点注册的钩子函数处理：

return NF_HOOK(PF_INET, NF_IP_PRE_ROUTING, skb, dev, NULL,
ip_rcv_finish);

复制代码

由以上代码可见，报文经过钩子函数之后，由ip_rcv_finish()接着处理。该函数主要完成数据报文的路由查找。
如果是发往本地的报文，则会调用ip_local_deliver()函数：

return NF_HOOK(PF_INET, NF_IP_LOCAL_IN, skb, skb->dev, NULL,
ip_local_deliver_finish);

复制代码

该函数主要功能就是将报文交给NF_IP_LOCAL_IN hook点的钩子函数进行处理。我们在第一部分中添加的一条iptables规则就是对于经过INPUT链的TCP报文且目的端口21执行动作QUEUE。如果此时用户空间已经开启socket等待接收IP Queue报文的话，那么对应的报文就会进入用户空间，然后就可以参照我们之前提供的用户空间例程进行处理。
这里，我们简单列出在NF_IP_LOCAL_IN中NF_HOOK宏的调用函数过程：
NF_HOOK()->NF_HOOK_THRESH()->nf_hook_thresh()->nf_hook_slow()
当nf_hook_slow函数返回值为NF_QUEUE时，进一步调用nf_queue()。该函数对所有动作为QUEUE的报文进行处理，其中关键的一行代码如下：

status = queue_handler[pf]->outfn(*skb, info, queuenum,
queue_handler[pf]->data);

复制代码

这行代码就是将报文按照IP层的协议交给对应的queue handler。IPv4协议中注册的queue handler为ipq_enqueue_packet()，即我们要分写ip_queue模块的代码。
至此，需要QUEUE的报文已经走入了我们要分析ip_queue，我们下面就开始走入正题，分析ip_queue的代码。

--未完待续

作者: Godbach 时间: 2010-01-04 21:58
三、ip_queue代码分析
ip_queue模块的代码较为简单，包含ip_queue.h和ip_queue.c。我们将分别该两个源文件进行分析。
（一）数据结构的定义
ip_queue模块的数据结构定义在头文件ip_queue.h中，主要定义了用于在内核态和用户态传输数据的相关数据结构。其代码如下：

/*
* This is a module which is used for queueing IPv4 packets and
* communicating with userspace via netlink.
*
* (C) 2000 James Morris, this code is GPL.
*/
#ifndef _IP_QUEUE_H
#define _IP_QUEUE_H
#ifdef __KERNEL__
#ifdef DEBUG_IPQ
#define QDEBUG(x...) printk(KERN_DEBUG ## x)
#else
#define QDEBUG(x...)
#endif /* DEBUG_IPQ */
#else
#include <net/if.h>
#endif /* ! __KERNEL__ */
/* 内核态发送到用户态的消息的数据结构*/
typedef struct ipq_packet_msg {
unsigned long packet_id; /* ID of queued packet */
unsigned long mark; /* Netfilter mark value */
long timestamp_sec; /* Packet arrival time (seconds) */
long timestamp_usec; /* Packet arrvial time (+useconds) */
unsigned int hook; /* Netfilter hook we rode in on */
char indev_name[IFNAMSIZ]; /* Name of incoming interface */
char outdev_name[IFNAMSIZ]; /* Name of outgoing interface */
unsigned short hw_protocol; /* Hardware protocol (network order) */
unsigned short hw_type; /* Hardware type */
unsigned char hw_addrlen; /* Hardware address length */
unsigned char hw_addr[8]; /* Hardware address */
size_t data_len; /* Length of packet data */
unsigned char payload[0]; /* Optional packet data */
} ipq_packet_msg_t;
/* 用户态发送到内核态的模式消息 */
typedef struct ipq_mode_msg {
unsigned char value; /* Requested mode */
size_t range; /* Optional range of packet requested */
} ipq_mode_msg_t;
/* 用户态发送到内核态的断言消息 */
typedef struct ipq_verdict_msg {
unsigned int value; /* Verdict to hand to netfilter */
unsigned long id; /* Packet ID for this verdict */
size_t data_len; /* Length of replacement data */
unsigned char payload[0]; /* Optional replacement packet */
} ipq_verdict_msg_t;
/*统一封装起来的用户态发内核态的信息的数据结构*/
typedef struct ipq_peer_msg {
union {
ipq_verdict_msg_t verdict;
ipq_mode_msg_t mode;
} msg;
} ipq_peer_msg_t;
/* 报文传输的模式*/
enum {
IPQ_COPY_NONE, /* Initial mode, packets are dropped */
IPQ_COPY_META, /* Copy metadata */
IPQ_COPY_PACKET /* Copy metadata + packet (range) */
};
#define IPQ_COPY_MAX IPQ_COPY_PACKET
/* IP Queue消息的类型 */
#define IPQM_BASE 0x10 /* standard netlink messages below this */
#define IPQM_MODE (IPQM_BASE + 1) /* Mode request from peer */
#define IPQM_VERDICT (IPQM_BASE + 2) /* Verdict from peer */
#define IPQM_PACKET (IPQM_BASE + 3) /* Packet from kernel */
#define IPQM_MAX (IPQM_BASE + 4)
#endif /*_IP_QUEUE_H*/

复制代码

该头文件中定义的相关数据结构和宏应该和用户空间引用的头文件的内容是保持一致的。因此，对于该文件中的数据结构的详细解释，可以参考本系列文章的第一篇《Linux内核IP Queue机制的分析（一）——用户态接收数据包》中第二部分IP Queue编程接口。

（二）ip_queue模块的加载和卸载
分析一个内核模块的源代码，通常我们先看模块加载时做哪些工作，这样就可以了解到模块具体的功能会在什么条件下执行。而模块的卸载通常就是将模块加载时注册的函数和申请的资源进行释放等工作。因此，这里简单的分析一下init函数的实现，代码在ip_queue.c中。

static int __init ip_queue_init(void)
{
int status = -ENOMEM;
struct proc_dir_entry *proc;
/*注册netlink的通知链*/
netlink_register_notifier(&ipq_nl_notifier);
/*内核态创建netlink的socket，并注册ipq_rcv_sk函数实现接收用户空间下发的配置数据*/
ipqnl = netlink_kernel_create(NETLINK_FIREWALL, 0, ipq_rcv_sk,
THIS_MODULE);
if (ipqnl == NULL) {
printk(KERN_ERR "ip_queue: failed to create netlink socket\n");
goto cleanup_netlink_notifier;
}
/*注册proc文件*/
proc = proc_net_create(IPQ_PROC_FS_NAME, 0, ipq_get_info);
if (proc)
proc->owner = THIS_MODULE;
else {
printk(KERN_ERR "ip_queue: failed to create proc entry\n");
goto cleanup_ipqnl;
}
/*注册网络设备的通知链*/
register_netdevice_notifier(&ipq_dev_notifier);
ipq_sysctl_header = register_sysctl_table(ipq_root_table, 0);
/*注册IP Queue机制的报文处理结构，主要包含一个报文的入队处理函数，下面具体分析*/
status = nf_register_queue_handler(PF_INET, &nfqh);
if (status < 0) {
printk(KERN_ERR "ip_queue: failed to register queue handler\n");
goto cleanup_sysctl;
}
return status;
cleanup_sysctl:
unregister_sysctl_table(ipq_sysctl_header);
unregister_netdevice_notifier(&ipq_dev_notifier);
proc_net_remove(IPQ_PROC_FS_NAME);
cleanup_ipqnl:
sock_release(ipqnl->sk_socket);
mutex_lock(&ipqnl_mutex);
mutex_unlock(&ipqnl_mutex);
cleanup_netlink_notifier:
netlink_unregister_notifier(&ipq_nl_notifier);
return status;
}

复制代码

IP Queue模块的初始化函数最重要的两个工作：
（1）创建用于IP Queue的netlink socket，实现接收用户态的数据的函数ipq_rcv_sk()；
（2）注册IP Queue报文的入队处理函数，并将数据包按照用户的配置将相关信息发向用户空间。当NF框架的hook函数对报文的处理返回NF_QUEUE时，该函数作为报文下一步被处理的入口函数。
模块初始化中还有一些其他诸如注册通知链的工作，这里我们不作具体分析，想了解相关细节的朋友可以查阅具体的资料。至于通知链的相关知识，也可以参考论坛上scutan兄的精华帖《内核通知链学习笔记》。链接：
http://linux.chinaunix.net/bbs/viewthread.php?tid=1051266。

--未完待续

作者: Godbach 时间: 2010-01-04 22:01
（三）ip_queue报文入队处理函数的注册
在上面分析的模块注册代码中，IP Queue的报文入队处理函数的注册是通过调用nf_register_queue_handler()来实现的。因此，有必要了解一下该函数的源码，源码位于nf_queue.c中：

/* return EBUSY when somebody else is registered, return EEXIST if the
* same handler is registered, return 0 in case of success. */
int nf_register_queue_handler(int pf, struct nf_queue_handler *qh)
{
int ret;
/*IP协议族的值必须在当前指定的范围内*/
if (pf >= NPROTO)
return -EINVAL;
write_lock_bh(&queue_handler_lock);
/*该queue handler已经被注册过了*/
if (queue_handler[pf] == qh)
ret = -EEXIST;
/*该协议族已经被注册了handler了*/
else if (queue_handler[pf])
ret = -EBUSY;
/*将该协议的queue hanler指向参数qh*/
else {
queue_handler[pf] = qh;
ret = 0;
}
write_unlock_bh(&queue_handler_lock);
return ret;
}

复制代码

该函数的代码比较简单，先来了解一下函数的两个参数：
（1）pf：IP协议族的值，PF_INET和PF_INET6分别代表IPv4和IPv6。
（2）qh：NF中对报文进行Queue的结构体，定义如下(netfilter.h)：

/* Packet queuing */
struct nf_queue_handler {
int (*outfn)(struct sk_buff *skb, struct nf_info *info,
unsigned int queuenum, void *data);
void *data;
char *name;
};

复制代码

由此可见，该结构体主要包含一个函数指针，用于处理NF框架需要Queue的报文。data应该是用来保存一些私有数据，name则是该queue handler的名称。
代码中已经包含了该函数源码的简单注释，这里再对该函数进行一下简单的总结：
(1) 每个协议族只能注册一个queue handler；
(2) 随后报文的处理中，可以根据报文的协议族，就可以找到报文进行Queue时的处理函数queue_handler[pf]->outfn()。
在IP Queue模块中，queue handler的注册如下所示：

status = nf_register_queue_handler(PF_INET, &nfqh);

复制代码

可见，注册的是IPv4协议族的报文处理函数，而nfqh结构体的定义如下：

static struct nf_queue_handler nfqh = {
.name = "ip_queue",
.outfn = &ipq_enqueue_packet,
};

复制代码

这里，IP Queue处理报文的函数终于闪亮登场了，我们前面啰嗦了半天，主要就是想理顺一下思路，顺理成章的引出该函数。
（四）入队函数ipq_enqueue_packet —— 发送数据包到用户空间
第二部分已经分析过了该函数会在什么条件下被触发。这里详细分析该函数的实现，代码在ip_queue.c中。
分析代码之前，我们先了解一下IP Queue对数据包队列管理的核心数据结构：

struct ipq_queue_entry {
struct list_head list;
struct nf_info *info;
struct sk_buff *skb;
};

复制代码

所有被Queue到用户空间的数据包都会有这样一个结构体。其中，
该数据结构的第1个元素是个双向链表结构，用于将所有queue的数据包用双向链表连
接起来，实现队列管理。
第2个元素同样是一个结构体，其定义在netfilter.h中：

/* Each queued (to userspace) skbuff has one of these. */
struct nf_info
{
/* The ops struct which sent us to userspace. */
struct nf_hook_ops *elem;
/* If we're sent to userspace, this keeps housekeeping info */
int pf;
unsigned int hook;
struct net_device *indev, *outdev;
int (*okfn)(struct sk_buff *);
};

复制代码

这个结构体应该很容易看出他的作用，就是记录下当数据包被Queue时所在的hook函数的相关信息，包括hook的操作结构、协议号、hook点等相关信息。当用户空间下发了对数据包的处理结果时，内核就需要参考这个结构对数据包进行进一步的处理。具体的我们会在后面数据包回注函数中分析。
第3个元素是skb本身，也就是回注函数中要处理的数据包。

OK，我们下面就开始如对函数的分析。

static int
ipq_enqueue_packet(struct sk_buff *skb, struct nf_info *info,
unsigned int queuenum, void *data)
{
int status = -EINVAL;
struct sk_buff *nskb;
struct ipq_queue_entry *entry;
/*判断用户配置的模式，可以为拷贝元数据或者整个数据包的信息*/
if (copy_mode == IPQ_COPY_NONE)
return -EAGAIN;
/*为即将入队的数据包分配一个struct ipq_queue_entry 结构体，用于实现对数据包的管理，我们称之为queue管理结构体*/
entry = kmalloc(sizeof(*entry), GFP_ATOMIC);
if (entry == NULL) {
printk(KERN_ERR "ip_queue: OOM in ipq_enqueue_packet()\n");
return -ENOMEM;
}
/*将该数据包对应的相关信息保存到管理结构体中*/
entry->info = info;
entry->skb = skb;
/*构建用于发往用户空间的消息*/
nskb = ipq_build_packet_message(entry, &status);
if (nskb == NULL)
goto err_out_free;
write_lock_bh(&queue_lock);
/如果用户空间没有开启进程，等待接收消息的话，就释放该消息/
if (!peer_pid)
goto err_out_free_nskb;
/*如果当前队列中的数据包总数超过了设置的最大值，则是放该消息，并且增加丢弃数据包的统计计数*/
if (queue_total >= queue_maxlen) {
queue_dropped++;
status = -ENOSPC;
if (net_ratelimit())
printk (KERN_WARNING "ip_queue: full at %d entries, "
"dropping packets(s). Dropped: %d\n", queue_total,
queue_dropped);
goto err_out_free_nskb;
}
/* 将消息发送给用户空间 */
status = netlink_unicast(ipqnl, nskb, peer_pid, MSG_DONTWAIT);
if (status < 0) {
queue_user_dropped++;
goto err_out_unlock;
}
/*成功发送到用户空间之后，将该数据包的queue管理结构添加到全局队列链表中*/
__ipq_enqueue_entry(entry);
write_unlock_bh(&queue_lock);
return status;
err_out_free_nskb:
kfree_skb(nskb);
err_out_unlock:
write_unlock_bh(&queue_lock);
err_out_free:
kfree(entry);
return status;
}

复制代码

该函数成功执行之后，就将数据包相关的信息发送到用户空间，同时将该数据包对应的queue管理结构加到全局链表中。
下面对于ipq_enqueue_packet函数中调用的几个重要函数做一些分析。
首先是构建消息的函数ipq_build_packet_message。

static struct sk_buff *
ipq_build_packet_message(struct ipq_queue_entry *entry, int *errp)
{
unsigned char *old_tail;
size_t size = 0;
size_t data_len = 0;
struct sk_buff *skb;
struct ipq_packet_msg *pmsg;
struct nlmsghdr *nlh;
read_lock_bh(&queue_lock);
/*根据用户配置的copy模式，确定发给用户空间消息的长度*/
switch (copy_mode) {
/*对于初始模式和拷贝元数据的模式，消息应该包括netlink的消息头和ipq的消息头，长度为两个消息头长度之和，即sizeof(struct nlmsghdr) + sizeof(struct ipq_packet_msg)，并考虑对齐的因素。这里直接调用netlink封装的宏NLMSG_SPACE来计算长度。该宏本身已经包含了netlink消息头的长度*/
case IPQ_COPY_META:
case IPQ_COPY_NONE:
/*消息长度为netlink的消息头和ipq的消息头的长度之和*/
size = NLMSG_SPACE(sizeof(*pmsg));
data_len = 0;
break;
case IPQ_COPY_PACKET:
if (entry->skb->ip_summed == CHECKSUM_HW &&
(*errp = skb_checksum_help(entry->skb,
entry->info->outdev == NULL))) {
read_unlock_bh(&queue_lock);
return NULL;
}
/*如果用户需要拷贝整个数据包的内容，那么如果配置的长度为0或者超出数据包的实际长度，则以数据包的实际长度进行拷贝*/
if (copy_range == 0 || copy_range > entry->skb->len)
data_len = entry->skb->len;
else
data_len = copy_range;
/*消息长度为netlink的消息头、ipq的消息头的长度以及要拷贝数据包的长度之和*/
size = NLMSG_SPACE(sizeof(*pmsg) + data_len);
break;
default:
*errp = -EINVAL;
read_unlock_bh(&queue_lock);
return NULL;
}
read_unlock_bh(&queue_lock);
/*为构建的消息申请内存，同样适用skb结构体，消息的内容应该在skb->data和skb->tail之间*/
skb = alloc_skb(size, GFP_ATOMIC);
if (!skb)
goto nlmsg_failure;
/*记录一下新分配的skb中的tail指针的地址，此时应该skb->tail指向skb->data*/
old_tail= skb->tail;
/*填充netlink消息头*/
nlh = NLMSG_PUT(skb, 0, 0, IPQM_PACKET, size - sizeof(*nlh));
/*获取netlink消息体的起始地址，即ipq的消息头*/
pmsg = NLMSG_DATA(nlh);
memset(pmsg, 0, sizeof(*pmsg));
/*将相关的ipq消息记录到消息头中*/
/*将skb对应的queue管理结构体的地址作为packet_id*/
pmsg->packet_id = (unsigned long )entry;
pmsg->data_len = data_len;
pmsg->timestamp_sec = entry->skb->tstamp.off_sec;
pmsg->timestamp_usec = entry->skb->tstamp.off_usec;
pmsg->mark = entry->skb->nfmark;
pmsg->hook = entry->info->hook;
pmsg->hw_protocol = entry->skb->protocol;
/*记录被queue数据包对应的输入设备名称*/
if (entry->info->indev)
strcpy(pmsg->indev_name, entry->info->indev->name);
else
pmsg->indev_name[0] = '\0';
/*记录被queue数据包对应的输出设备名称*/
if (entry->info->outdev)
strcpy(pmsg->outdev_name, entry->info->outdev->name);
else
pmsg->outdev_name[0] = '\0';
/*记录被queue数据包对应的链路层的协议类型及地址长度*/
if (entry->info->indev && entry->skb->dev) {
pmsg->hw_type = entry->skb->dev->type;
if (entry->skb->dev->hard_header_parse)
pmsg->hw_addrlen =
entry->skb->dev->hard_header_parse(entry->skb,
pmsg->hw_addr);
}
/* data_len != 0 说明需要拷贝数据包的原始数据。skb_copy_bits 函数的实现不再分析，其主要功能就是将从skb->data+offset开始的数据拷贝data_len个字节到pmsg->payload中，即ipq消息的载荷。另外一个需要注意的问题，如果skb挂载的有分片包，则skb_copy_bits也会按照顺序拷贝分片包中的数据*/
if (data_len)
if (skb_copy_bits(entry->skb, 0, pmsg->payload, data_len))
BUG();
/*设置netlink消息的长度*/
nlh->nlmsg_len = skb->tail - old_tail;
return skb;
nlmsg_failure:
if (skb)
kfree_skb(skb);
*errp = -EINVAL;
printk(KERN_ERR "ip_queue: error creating packet message\n");
return NULL;
}

复制代码

其次，对于netlink_unicast函数，我们这里不具体分析，它的作用就是将内核封装好的netlink消息发送到用户态。
最后分析一下__ipq_enqueue_entry 函数。

static inline void
__ipq_enqueue_entry(struct ipq_queue_entry *entry)
{
list_add(&entry->list, &queue_list);
queue_total++;
}

复制代码

该函数的功能很简答，就是将当前skb的queue管理结构添加到全局的queue管理链表queue_list中，并增加队列的统计计数。该链表记录了所有发往用户空间，且并未收到用户空间下发处理结果的数据包。
至此，数据包的入队处理函数已经分析完毕。一切顺利执行的话，现在用户态已经接收到关于该数据包的消息。

--未完待续

作者: Godbach 时间: 2010-01-04 22:05
（五）接收和处理用户空间的配置—— 接收用户空间的数据包
ip_queue模块加载的代码中有这样一行代码：

ipqnl = netlink_kernel_create(NETLINK_FIREWALL, 0, ipq_rcv_sk,
THIS_MODULE);

复制代码

上文也已经分析了，该行代码就是注册一个用于接收用户空间配置数据的函数ipq_rcv_sk。因此，接收和处理用户空间的配置应该从这个函数开始分析。
ipq_rcv_sk的代码如下：

static void
ipq_rcv_sk(struct sock *sk, int len)
{
struct sk_buff *skb;
unsigned int qlen;
mutex_lock(&ipqnl_mutex);
for (qlen = skb_queue_len(&sk->sk_receive_queue); qlen; qlen--) {
skb = skb_dequeue(&sk->sk_receive_queue);
ipq_rcv_skb(skb);
kfree_skb(skb);
}
mutex_unlock(&ipqnl_mutex);
}

复制代码

该函数的功能非常明确，就从当前套接字的接收数据包队列中取出数据包，然后交给ipq_rcv_skb进一步分析和处理，然后就释放掉该数据包的缓存。
下面接着分析ipq_rcv_skb函数，其源码如下：

#define RCV_SKB_FAIL(err) do { netlink_ack(skb, nlh, (err)); return; } while (0)
static inline void
ipq_rcv_skb(struct sk_buff *skb)
{
int status, type, pid, flags, nlmsglen, skblen;
struct nlmsghdr *nlh;
/*获取并检查数据包的长度*/
skblen = skb->len;
if (skblen < sizeof(*nlh))
return;
/*获取netlink消息头部的结构体，并检查头部中保存的数据长度字段*/
nlh = (struct nlmsghdr *)skb->data;
nlmsglen = nlh->nlmsg_len;
if (nlmsglen < sizeof(*nlh) || skblen < nlmsglen)
return;
/*取到用户态的进程ID，以及用户空间配置的标记为*/
pid = nlh->nlmsg_pid;
flags = nlh->nlmsg_flags;
/*判断用户进程的ID是否合法，以及该数据包是否是netlink的请求包*/
if(pid <= 0 || !(flags & NLM_F_REQUEST) || flags & NLM_F_MULTI)
RCV_SKB_FAIL(-EINVAL);
if (flags & MSG_TRUNC)
RCV_SKB_FAIL(-ECOMM);
/*获取消息的类型并检查*/
type = nlh->nlmsg_type;
if (type < NLMSG_NOOP || type >= IPQM_MAX)
RCV_SKB_FAIL(-EINVAL);
/*如果不是ip_queue消息，则返回*/
if (type <= IPQM_BASE)
return;
if (security_netlink_recv(skb, CAP_NET_ADMIN))
RCV_SKB_FAIL(-EPERM);
write_lock_bh(&queue_lock);
/*如果内核态记录的用户空间进程ID非0，且当前数据包的进程ID并不等于内核态记录的值，则意味着接收数据包失败*/
if (peer_pid) {
if (peer_pid != pid) {
write_unlock_bh(&queue_lock);
RCV_SKB_FAIL(-EBUSY);
}
} else {
net_enable_timestamp();
/*如果内核态记录的peer_pid 为0，则将当前消息中的进程ID记录到全局变量peer_pid 中。此种情形应该是用户态初次向内核发送ip_queue的消息*/
peer_pid = pid;
}
write_unlock_bh(&queue_lock);
/*处理用户空间下发的ip_queue配置消息*/
status = ipq_receive_peer(NLMSG_DATA(nlh), type,
nlmsglen - NLMSG_LENGTH(0));
if (status < 0)
RCV_SKB_FAIL(status);
if (flags & NLM_F_ACK)
netlink_ack(skb, nlh, 0);
return;
}

复制代码

该函数对于接收到的用户空间下发的消息，检查其多个参数的合法性，并判断是否是ip_queue的消息。如果是，则交由ipq_receive_peer函数进行消息的解析和处理。
下面我们分析一下ipq_receive_peer函数的实现，代码如下：

static int
ipq_receive_peer(struct ipq_peer_msg *pmsg,
unsigned char type, unsigned int len)
{
int status = 0;
if (len < sizeof(*pmsg))
return -EINVAL;
/*根据用户态的消息类型进行处理*/
switch (type) {
case IPQM_MODE:
status = ipq_set_mode(pmsg->msg.mode.value,
pmsg->msg.mode.range);
break;
case IPQM_VERDICT:
if (pmsg->msg.verdict.value > NF_MAX_VERDICT)
status = -EINVAL;
else
status = ipq_set_verdict(&pmsg->msg.verdict,
len - sizeof(*pmsg));
break;
default:
status = -EINVAL;
}
return status;
}

复制代码

该函数主要是根据用户态设置的消息的类型，进行不同的处理。我们在IP Queue分析的第一篇文章《Linux内核IP Queue机制的分析（一）¬——用户态接收数据包》（以下简称文一）中已经提到，用户态下发到内核态的消息分为“模式设置消息（IPQM_MODE）”和“断言消息（IPQM_VERDICT）”两个子类。
这里我们先分析消息类型为IPQM_MODE即模式设置消息时内核态的处理。对于断言消息IPQM_VERDICT的处理部分，我们将在后面第六节中分析。
模式设置消息对应的处理函数为ipq_set_mode，其代码如下：

static int
ipq_set_mode(unsigned char mode, unsigned int range)
{
int status;
write_lock_bh(&queue_lock);
status = __ipq_set_mode(mode, range);
write_unlock_bh(&queue_lock);
return status;
}

复制代码

该函数主要就是调用__ipq_set_mode函数，其代码如下：

static inline int
__ipq_set_mode(unsigned char mode, unsigned int range)
{
int status = 0;
switch(mode) {
case IPQ_COPY_NONE:
case IPQ_COPY_META:
copy_mode = mode;
copy_range = 0;
break;
case IPQ_COPY_PACKET:
copy_mode = mode;
copy_range = range;
if (copy_range > 0xFFFF)
copy_range = 0xFFFF;
break;
default:
status = -EINVAL;
}
return status;
}

复制代码

同样，我们在文一中分析过了模式设置消息的三种请求模式：IPQ_COPY_NONE、IPQ_COPY_META和IPQ_COPY_PACKET。参考文一中的具体解释，可以很轻松的理解该函数的实现：
（1）当请求模式为IPQ_COPY_NONE或IPQ_COPY_META时，记录下所设置的模式保存到全局变量copy_mode，并且将全局变量copy_range置0。因为这两种模式都不会要求读取数据包的原始内容；
（2）当请求模式为IPQ_COPY_PACKET时，记录下所设置的模式保存到全局变量copy_mode，并将用户空间设置的读取数据包的长度值保存到全局变量copy_range中。如果用户设置的长度大于0xFFFF，则将copy_range设置为0xFFFF。
这里copy_mode和copy_range，以及前面提到的peer_pid都使用全局变量类型，因为内核态发送相关消息到用户空间时要读取这几个参数，并根据各参数值的不同，发送不同类型的消息到用户空间。
通过模式设置消息，用户空间成功的告诉内核态，我需要数据包的哪些部分，只是摘要信息，还是连数据包的原始内容也要。如果需要数据包的原始内容，长度是多少等等。而内核态也会根据用户态下发的需求，将数据包的相关信息打包发给用户空间的接收进程。

--未完待续

作者: Godbach 时间: 2010-01-04 22:09
（六）数据包的最终处理
IP Queue机制提供了一种将数据包交给用户态处理的方法。那么，最后最关键的一步就是对数据包的处理。经过我们上面的分析，用户空间对数据包的处理，就是通过下发IP Queue消息，告诉内核态数据包是丢弃还是接受等。而内核态会根据具体的消息对数据包做真正的丢弃或接受等处理。
那么，我们就从用户态下发的消息开始，一直分析到数据包最终被处理。
我们上面分析了用户态下发的消息最终由__ipq_set_mode函数处理。该函数会根据消息类型调用对应的处理函数。用户态下发的数据包处理意见的消息，我们称之为“断言消息”，对应消息类型的宏定义为IPQM_VERDICT。该消息对应的处理函数为ipq_set_verdict。该函数代码如下：

static int
ipq_set_verdict(struct ipq_verdict_msg *vmsg, unsigned int len)
{
struct ipq_queue_entry *entry;
/*检查对数据包处理意见的值的合法性*/
if (vmsg->value > NF_MAX_VERDICT)
return -EINVAL;
/*根据断言消息中保存的id找到对应的数据包queue管理结构体*/
entry = ipq_find_dequeue_entry(id_cmp, vmsg->id);
if (entry == NULL)
return -ENOENT;
else {
/*记录断言消息的处理结果*/
int verdict = vmsg->value;
/*如果用户空间拷贝了数据包的原始内容，则要根据数据包被修改的情况调用函数ipq_mangle_ipv4对queue管理结构体中保存的原始skb进行修改*/
if (vmsg->data_len && vmsg->data_len == len)
if (ipq_mangle_ipv4(vmsg, entry) < 0)
verdict = NF_DROP;
/*将数据包重新注入NF框架*/
ipq_issue_verdict(entry, verdict);
return 0;
}
}

复制代码

该函数首先根据断言消息的id，从全局链表queue_list中找到当前消息对应的queue管理结构体。然后，根据用户空间对数据包的修改和处理意见，对当前queue管理结构体中的skb进行修改。最后，调用函数ipq_issue_verdict将数据包重新注入NF框架。
下面将逐一分析上面三个阶段的代码。
1. 获取断言消息对应的queue管理结构体
ipq_set_verdict函数中实现代码如下：

entry = ipq_find_dequeue_entry(id_cmp, vmsg->id);

复制代码

可见这里调用了ipq_find_dequeue_entry函数获取queue管理结构体的。传进去参数一个是函数指针id_cmp，一个是断言消息的id。我们在文一中已经提到过，断言消息的id即内核态发送给用户空间消息中的packet_id。通过ipq_build_packet_message函数我们可以知道，packet_id就是当前数据包对应的queue管理结构体的地址。因此，找到queue管理结构体的方法，就是遍历queue_list全局链表，找到地址等于vmsg->id的queue管理结构体。
因此，不难想象，id_cmp函数的实现代码：

static inline int
id_cmp(struct ipq_queue_entry *e, unsigned long id)
{
return (id == (unsigned long )e);
}

复制代码

那么，函数ipq_find_dequeue_entry的代码实现的方法也就很明确了：

static struct ipq_queue_entry *
ipq_find_dequeue_entry(ipq_cmpfn cmpfn, unsigned long data)
{
struct ipq_queue_entry *entry;
write_lock_bh(&queue_lock);
entry = __ipq_find_dequeue_entry(cmpfn, data);
write_unlock_bh(&queue_lock);
return entry;
}

复制代码

该函数进一步调用函数__ipq_find_dequeue_entry，代码如下：

static inline struct ipq_queue_entry *
__ipq_find_dequeue_entry(ipq_cmpfn cmpfn, unsigned long data)
{
struct ipq_queue_entry *entry;
entry = __ipq_find_entry(cmpfn, data);
if (entry == NULL)
return NULL;
__ipq_dequeue_entry(entry);
return entry;
}

复制代码

该函数首先调用__ipq_find_entry，遍历全局链表queue_list，找到当前断言消息对应数据包的queue管理结构体：

/*
* Find and return a queued entry matched by cmpfn, or return the last
* entry if cmpfn is NULL.
*/
static inline struct ipq_queue_entry *
__ipq_find_entry(ipq_cmpfn cmpfn, unsigned long data)
{
struct list_head *p;
list_for_each_prev(p, &queue_list) {
struct ipq_queue_entry *entry = (struct ipq_queue_entry *)p;
if (!cmpfn || cmpfn(entry, data))
return entry;
}
return NULL;
}

复制代码

然后将调用函数__ipq_dequeue_entry将找到的queue管理结构体从全局链表queue_list中删除，并减小被queue的数据包的统计计数。

static inline void
__ipq_dequeue_entry(struct ipq_queue_entry *entry)
{
list_del(&entry->list);
queue_total--;
}

复制代码

至此，我们已经找到了断言消息对应数据包的queue管理结构体。
2. 根据用户的配置修改数据包
ipq_set_verdict函数中实现代码如下：

int verdict = vmsg->value;
if (vmsg->data_len && vmsg->data_len == len)
if (ipq_mangle_ipv4(vmsg, entry) < 0)
verdict = NF_DROP;

复制代码

这里，首先记录下对数据包的处理结果vmsg->value。然后，比较关键的一步，就是如果断言消息中数据长度部分不为0，并且消息中记录的载荷长度等于当前计算出来的载荷长度（如果正常进行设置和通信的话，两者应该是相等的），则调用ipq_mangle_ipv4对原始的数据包进行处理。
函数ipq_mangle_ipv4的代码如下：

static int
ipq_mangle_ipv4(ipq_verdict_msg_t *v, struct ipq_queue_entry *e)
{
int diff;
/*获得用户空间处理后的数据包的ip头部*/
struct iphdr *user_iph = (struct iphdr *)v->payload;
/*判断消息中记录的载荷长度是否小于头部长度。如果是，则就不再修改queue中保存的skb*/
if (v->data_len < sizeof(*user_iph))
return 0;
/*判断数据包的长度是否发生变化，即获取用户修改后的数据包和原始数据包的长度的关系*/
diff = v->data_len - e->skb->len;
/*用户减小了数据包的长度*/
if (diff < 0)
skb_trim(e->skb, v->data_len);
/*用户增大了数据包的长度*/
else if (diff > 0) {
/*非法的数据包长度值*/
if (v->data_len > 0xFFFF)
return -EINVAL;
/*数据包被扩充的长度大于了skb的tailroom，即skb的tail:end之间的长度已经不能容纳数据包增加的数据，这是需要新分配一个skb*/
if (diff > skb_tailroom(e->skb)) {
struct sk_buff *newskb;
/*将原先的skb进行扩充，并将原始skb的数据包拷贝到新的skb中*/
newskb = skb_copy_expand(e->skb,
skb_headroom(e->skb),
diff,
GFP_ATOMIC);
if (newskb == NULL) {
printk(KERN_WARNING "ip_queue: OOM "
"in mangle, dropping packet\n");
return -ENOMEM;
}
if (e->skb->sk)
skb_set_owner_w(newskb, e->skb->sk);
kfree_skb(e->skb);
e->skb = newskb;
}
/*将skb的tail指针增加tail+diff*/
skb_put(e->skb, diff);
}
if (!skb_make_writable(&e->skb, v->data_len))
return -ENOMEM;
/*将断言消息中全部的载荷拷贝到skb对应的数据区中。*/
memcpy(e->skb->data, v->payload, v->data_len);
e->skb->ip_summed = CHECKSUM_NONE;
return 0;
}

复制代码

该函数主要就是断言消息中的对数据包做的任何修改都反应到原始的skb中。
3. 将修改后的数据包重新注入NF框架
ipq_set_verdict函数实现的代码如下：

ipq_issue_verdict(entry, verdict);

复制代码

即调用ipq_issue_verdict函数将数据包重新注入NF中。该函数的代码如下：

static void
ipq_issue_verdict(struct ipq_queue_entry *entry, int verdict)
{
/* TCP input path (and probably other bits) assume to be called
* from softirq context, not from syscall, like ipq_issue_verdict is
* called. TCP input path deadlocks with locks taken from timer
* softirq, e.g. We therefore emulate this by local_bh_disable() */
local_bh_disable();
nf_reinject(entry->skb, entry->info, verdict);
local_bh_enable();
kfree(entry);
}

复制代码

该函数将queue管理结构体的两个个成员skb、info，以及用户对数据包的处理结果verdict作为入参，直接调用nf_reinject函数。nf_reinject函数会根据三个参数所保存的相关信息，对数据包进行真正的处理，比入交给下一个hook函数处理（NF_ACCEPT），或者丢弃（NF_DROP），或者重新交给当前再次交给当前的hook函数处理（NF_REPEAT）。
至此，整个ip_queue模块的核心代码已经分析完毕。

--完

作者: accessory 时间: 2010-01-05 02:46
支持下.

作者: dreamice 时间: 2010-01-05 12:47
好文

作者: ubuntuer 时间: 2010-01-05 13:06
好文好文再加上前面两篇 ip queue就全了^_^

作者: Godbach 时间: 2010-01-05 13:10
标题: 回复 #9 ubuntuer 的帖子
是啊，IP Queue已经系统的的分析完了。从用户空间的使用到内核空间的源码。

惭愧的是，完成这三篇文章竟然拖了这么长时间。

作者: anders0913 时间: 2010-01-06 18:09
学习，感谢分享~~

作者: llslls_007 时间: 2010-01-07 10:12
所读过的基于netlink 系列的经典文章之一，收藏

作者: harrison_luo 时间: 2010-01-07 20:05
楼主辛苦了，要是大家一起分工把linux内核分析一下就更好啦

作者: emmoblin 时间: 2010-01-07 21:47
以后看ip queue方便了。支持支持

作者: qizuyong 时间: 2010-01-08 11:52
标题: sf
dsf

作者: coneagoe 时间: 2010-01-13 10:35
mark

作者: Godbach 时间: 2010-01-13 10:45

楼主辛苦了，要是大家一起分工把linux内核分析一下就更好啦

分析内核的书已经有了，而且有分析内核的，还有专门分析网络的

作者: nagaregawa 时间: 2010-01-24 11:22
标题: 回复 #1 Godbach 的帖子
UP

作者: coneagoe 时间: 2010-02-19 22:18
豁然开朗

作者: Godbach 时间: 2010-02-20 09:32

楼主辛苦了，要是大家一起分工把linux内核分析一下就更好啦
harrison_luo 发表于 2010-01-07 20:05

内核分析的书还少啊。关键在于自己能否深入的看一本书，并且理解了。

作者: bigbaby19850119 时间: 2010-03-03 10:07
支持您！拜读一下

作者: wi1she 时间: 2010-09-30 10:10
顶一下阿！好东西阿！

作者: ckf513728912 时间: 2011-01-26 11:13
顶

作者: 来自山里的娃 时间: 2012-09-22 00:30
赞最近在学习linux内核网络部分站在巨人的肩上前行

作者: vntbbb 时间: 2012-11-18 16:18
本帖最后由 vntbbb 于 2012-11-18 16:23 编辑

终于读完了这三篇了，版主，我还有一个很大的疑惑，那就是ipq_enqueue_packet（）这个函数注册到钩子点后，是谁给他参数并调用他的呢？是那个NF_HOOK()的参数指定的吗

作者: yg_quantum 时间: 2013-10-29 09:20
拜读了，根据大师的文章，读ip_queue的代码真的是很顺利，大师级别的文章！

请教个问题，从ip_queue获取packet之后，对这个packet进行修改，发现修改完以后，包的长度会超过MTU（1500）的限制，把这个包放回ip_queue以后，会被丢弃。这个问题有好的思路吗？

最近在看ip_queue的代码，初步想法是在用户层分包，将新的分出来的包直接注入到NF框架里面。不知道可行不可行，请大师指点一下！

作者: Godbach 时间: 2013-10-29 13:31
回复 26# yg_quantum

IP Queue 机制在现在较新版本的内核已经被废弃了。代之的是 NF_QUEUE.

至于修改之后超过 MTU 的问题，你是什么需求呢。而且真的要是把所有报文都搞到用户态的话，NF_QUEUE 的性能估计也会有问题的。

作者: yg_quantum 时间: 2013-10-29 14:44
大师，你好，感谢回复！

是这样的，我们的业务使用解包的方式对数据进行加解密，很类似于IPSec。我们只抓取特定的数据包，把符合条件的数据包拿到用户态进行加密，再放回内核。因为加密需要增加一些额外信息，就有出现增加了额外信息以后，IP包的总长度超过MTU的限制。

之前的项目是使用解包的方式，没有使用IPSec。现在准备在IP Queue 机制的基础上解决MTU限制的问题，就想到了分包。请大师给指点一下，不胜感激！

作者: Godbach 时间: 2013-10-29 22:11
回复 28# yg_quantum

你们之前不存在超过 MTU 的问题吗

作者: yg_quantum 时间: 2013-10-30 08:29
以前没有真正解决MTU的问题，只是让客户端不要发送超过1000字节的数据包，方法比较土！

作者: Godbach 时间: 2013-10-30 09:26
回复 30# yg_quantum

那你就接着本文的机制分析，看一下怎么改造吧。

感觉应该会比较复杂一些，因为你凭空会多出一个甚至多个报文。

作者: yg_quantum 时间: 2013-10-30 10:00
是啊，大师。这是我的想法：

1 - 用户层收到packet后，对原始数据进行分包。比如将一个包拆为两个包A和B。A包的id就是原始包的id，B包的id可以设定一个特殊值。将A和B依次发送到ip_queue

2 - ip_queue处理收到的包，先检查包的id，如果是一个特殊值，就去掉从全局的双向链表中查找原有的包的动作，直接放入NF框架；如果不是特殊值，就按照原有流程处理。

大师给看一下，这个可行吗？

作者: Godbach 时间: 2013-10-30 13:14
回复 32# yg_quantum

用特殊 ID 估计不行吧。IP 报文的 id 字段本身就 16bit。你能找到协议中规定的某个保留不用的 ID 吗，如果都可以使用的话，你应该另外想别的方法了。

其实可以考虑把那个 IP Queue 中的 msg 的信息扩展一下。

至于拆分之后，再让 Netfilter 转发出去，会有什么样的问题，估计都得测试了。

作者: yg_quantum 时间: 2013-10-30 13:27
对，大师。

IP Queue在收到用户层返回的IP Queue的包以后，会从全局链表里面查找保存的原始包，我准备改一下IP Queue的接口，就是做个特殊标志，如果是拆分以后的包，就不查找原始包了，直接让Netfilter转发。

菜鸟，不懂这些，大师还有什么好的建议吗

作者: Godbach 时间: 2013-10-30 14:27
回复 34# yg_quantum

没有更多建议了，剩下的就是需要你动手了

作者: yg_quantum 时间: 2013-10-30 20:54
好的，大师。验证了以后，把结果通知给大家！

作者: crazyhadoop 时间: 2013-10-31 00:28
高端货啊

作者: hubaohai 时间: 2014-04-17 18:03

mark一下，下次回来看。
上周还自己用netlink实现了一个和 ipq功能类类似的模块(几乎照着ipq的源码写的)，用于硬件抓包向用户态传输数据的。
感觉丢包的概率比tcpdump高，大师能分析下原因吗。

作者: Godbach 时间: 2014-04-17 22:59
回复 38# hubaohai

tcpdump 是旁路模式，而 IP Queue 是直接拦截报文的，要给出处理意见，并 reinject 回去。

作者: hubaohai 时间: 2014-04-18 08:38
我的目标就是做一个抓包工具。
不过从内核态向用户态传输数据采用类似ip queue 的netlink的使用方式。
之后也做了inject功能。
我的一是netlink的丢包概率比tcpdump要高一点。

Godbach 发表于 2014-04-17 22:59
回复 38# hubaohai

tcpdump 是旁路模式，而 IP Queue 是直接拦截报文的，要给出处理意见，并 reinject ...

作者: Godbach 时间: 2014-04-18 09:50
回复 40# hubaohai

要做 Inject 的话，kernel 就需要等待你的处理结果。抓包的话，只相当于旁路多 copy 出来一份就行了。

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)