论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2010-09-17 08:57 |只看该作者 |倒序浏览

本帖最后由 __dreamcatcher 于 2010-09-18 13:31 编辑

在netfilter的连接跟踪模块中，初始化一个新链接时需要调用nf_conntrack_alloc()函数，在这个函数中需要判断连接数是否超过连接数的最大值(atomic_read(&net->ct.count) > nf_conntrack_max)，之后调用early_drop()函数。小弟现在对early_drop()函数存在些疑问，请大家指点帮忙！

498 static noinline int early_drop(struct net *net, unsigned int hash)
499 {
...
507 rcu_read_lock();
508 for (i = 0; i < net->ct.htable_size; i++) {
509 hlist_nulls_for_each_entry_rcu(h, n, &net->ct.hash[hash],
510 hnnode) {
511 tmp = nf_ct_tuplehash_to_ctrack(h);//为什么要这么做？
512 if (!test_bit(IPS_ASSURED_BIT, &tmp->status))
513 ct = tmp;
514 cnt++;
515 }
516
517 if (ct != NULL) {
518 if (likely(!nf_ct_is_dying(ct) &&
519 atomic_inc_not_zero(&ct->ct_general.use)))
520 break;
521 else
522 ct = NULL;
523 }
524
525 if (cnt >= NF_CT_EVICTION_RANGE)
526 break;
527
528 hash = (hash + 1) % net->ct.htable_size;
529 }
530 rcu_read_unlock();
531
532 if (!ct)
533 return dropped;
534
535 if (del_timer(&ct->timeout)) {
536 death_by_timeout((unsigned long)ct);
537 dropped = 1;
538 NF_CT_STAT_INC_ATOMIC(net, early_drop);
539 }
540 nf_ct_put(ct);//ct上的计数减1
541 return dropped;
542 }

复制代码

在这个函数中的问题是：

hlist_nulls_for_each_entry_rcu(h, n, &net->ct.hash[hash],
510                   hnnode) {
511          tmp = nf_ct_tuplehash_to_ctrack(h);
512          if (!test_bit(IPS_ASSURED_BIT, &tmp->status))
513                ct = tmp;                //当test_bit()多次满足时，ct都会发生变化，为什么要这么做？还有就是cnt只在初始时被初始化为0，之后一直是cnt++，这样累加到8之后就跳出循环，其作用？
514          cnt++;
515       }

if (cnt >= NF_CT_EVICTION_RANGE)  //cnt++，这样累加到8之后就跳出循环，不明白其含义
         break;

文库|博客

独孤九贱

富足长乐

论坛徽章:: 0

2楼 [报告]

发表于 2010-09-17 10:05 |只看该作者

本帖最后由独孤九贱于 2010-09-17 11:30 编辑

rcu_read_lock();
for (i = 0; i < nf_conntrack_htable_size; i++) {
hlist_nulls_for_each_entry_rcu(h, n, &net->ct.hash[hash],
hnnode) {
tmp = nf_ct_tuplehash_to_ctrack(h);
if (!test_bit(IPS_ASSURED_BIT, &tmp->status))
ct = tmp;
cnt++;
}
if (ct && unlikely(nf_ct_is_dying(ct) ||
!atomic_inc_not_zero(&ct->ct_general.use)))
ct = NULL;
if (ct || cnt >= NF_CT_EVICTION_RANGE)
break;
hash = (hash + 1) % nf_conntrack_htable_size;
}
rcu_read_unlock();

复制代码

这段代码的核心功能是，当会话表满了过会，清除一些半连接，为新的会话腾出空间来。它的思路很简单，就是遍历当前hash槽位的链，找到一个半连接。
这段代码由一个双重循环组成，第一重循环：
hlist_nulls_for_each_entry_rcu()遍历指定hash的槽位。当它结束时，有两种结果：
a、通过test_bit，已经找到了，此时ct就是要找的值；
b、没有找到，ct为NULL，cnt是一个计数器，累计在“当前hash槽位的查找次数(事实上，hash会变化，所以它是所有查找次数的总和)”；

如果找到到后，即会判断ct的合法性：

if (ct && unlikely(nf_ct_is_dying(ct) ||
!atomic_inc_not_zero(&ct->ct_general.use)))
ct = NULL;

复制代码

结果合法，或者当cnt大于一个常数(NF_CT_EVICTION_RANGE)，则退出外层循环。

if (ct || cnt >= NF_CT_EVICTION_RANGE)
break;

复制代码

ct找到了退出循环是理所当然的事情。至于cnt超限，也要退出循环，这是和下一句代码紧密相连的：

hash = (hash + 1) % nf_conntrack_htable_size;

复制代码

也就是说，如果没有查找，或者cnt没有超限，hash值会往复递增，注意，是“往复”，往复的含义是:

hash = (hash + 1) % nf_conntrack_htable_size

复制代码

而不是

hash = hash + 1;
if(hash > XXX) break;

复制代码

。也就是说，周而复始的在下一个hash链中再找空位……这样一来，引入cnt的理由就显而意见了：必须得有一个变量来决定，如果ct一直找不到，得有一种决定退出外层循环的条件，cnt就是这个条件。所以，它只有初值会0，后面就一直递加了。作者认为，当查找的次数超过NF_CT_EVICTION_RANGE次，就必须得退出来了，不能一直占着CPU不放。你也可以自定义这个常数，4，16，32（当然，从效率的角度来讲，它不能太大了）……可以多做一些实现来得到一个经验值。我个人倒是认为8是一个比较好的值。

再退一步讲，个人认为，即使hash值不是一个“周而复始的值”，也应该有也一变量来决定查找的次数，不能长时间地占着hash表来查找……

评分

参与人数 1	可用积分 +30	收起理由
Godbach	+ 30	多谢分享

查看全部评分

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kwest

小富即安

论坛徽章:: 2

3楼 [报告]

发表于 2010-09-17 10:43 |只看该作者

你内核版本是多少？我的内核没有cnt累加。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

独孤九贱

富足长乐

论坛徽章:: 0

4楼 [报告]

发表于 2010-09-17 11:36 |只看该作者

你内核版本是多少？我的内核没有cnt累加。
kwest 发表于 2010-09-17 10:43

楼上的版本out啦！至于没有cnt，应该跟其释放的思路有关，以2.6.12为例：

READ_LOCK(&ip_conntrack_lock);
h = LIST_FIND_B(chain, unreplied, struct ip_conntrack_tuple_hash *);
if (h) {
ct = tuplehash_to_ctrack(h);
atomic_inc(&ct->ct_general.use);
}
READ_UNLOCK(&ip_conntrack_lock);

复制代码

老的释放方式是，仅释放对应的hash槽位。因为hash槽位的链长有限，所以，也就没有做cnt计数。

而新的释放方式是，如果当前hash槽位没有找到合适的值，就“顺便”去清理下一个hash位，这是因为调用early_drop时，是会话表已满，这回不释放，下次也要再来调用，反正来都来了，就顺便搞一下吧(除非再也没有新建会话的到来，这种机率太小了)。这样就少一次函数调用啦，作者真是煞费苦心呀！！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

__dreamcatcher

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2010-09-17 12:23 |只看该作者

刚看到回帖，谢谢九贱大哥和各位大虾，我继续研究研究！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

__dreamcatcher

白手起家

论坛徽章:: 0

6楼 [报告]

发表于 2010-09-17 12:55 |只看该作者

这段代码的核心功能是，当会话表满了过会，清除一些半连接，为新的会话腾出空间来。它的思路很简单，就是遍历当前hash槽位的链，找到一个半连接。
这段代码由一个双重循环组成，第一重循环：
hlist_nulls_for_each_entry_rcu()遍历指定hash的槽位。当它结束时，有两种结果：
a、通过test_bit，已经找到了，此时ct就是要找的值；
b、没有找到，ct为NULL，cnt是一个计数器，累计在“当前hash槽位的查找次数(事实上，hash会变化，所以它是所有查找次数的总和)”；

独孤九贱发表于 2010-09-17 10:05

谢谢九贱大哥的指点，在这里还是有点疑问：
1、在第一层循环里面通过test_bit，查找合适的ct，但是不明白的是在找到了合适的ct后为什么没又跳出第一层循环，而是继续的进行test_bit？
2、如果在同一个hash槽位的链中找到两个或者更多的半连接状态的ct，那样的话，程序却只对最后一个ct进行del_timer(&ct->timeout)以及death_by_timeout((unsigned long)ct)等，没有对之前查找到的半连接进行处理，感觉这样是不是有点低效和浪费资源？
可能是我理解不正确，请大虾指点！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

独孤九贱

富足长乐

论坛徽章:: 0

7楼 [报告]

发表于 2010-09-17 14:47 |只看该作者

本帖最后由独孤九贱于 2010-09-17 14:51 编辑

这是作者实现的机制方面的问题了。
“程序却只对最后一个ct进行del_timer(&ct->timeout)以及death_by_timeout((unsigned long)ct)等，没有对之前查找到的半连接进行处理，感觉这样是不是有点低效和浪费资源？”

因为新建的时候满了，需要释放一个，所以，不存在“释放多个”。所以，作者之所以不退出循环，找到“最后一个”，而不是第一个，是不是基于如下理由（我大致看了一下，没有仔细看）：

在向hash槽位的链追加新节点的时候，每个节点，是被加入到链的首部(head)：