免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1284 | 回复: 4
打印 上一主题 下一主题

[网络子系统] dev_queue_xmit 失败的避免和处理方法(求助) [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-07-22 14:53 |只看该作者 |倒序浏览
大家好:
我最近用两张10GE-NIC(Intel 82599ES)通过光纤把两台PC直连起来,注册了一个L2协议来建立两台PC的沟通,
call dev_queue_xmit发送packet, 发现当发送端如果非常频繁的call dev_queue_xmit时,会出现 return=1的
case, 而且用ifconfig去查看网卡的一些统计值时, 的确也能发现NIC的TX dropp的统计值在增加,我查了下Kernel。
#define NET_XMIT_DROP 1, 貌似说网卡的tx queue 满了, skb_enqueue 失败,不知道理解的对不对
1)我怎么能get到网卡的tx queue是否满
2)或者call dev_queue_xmit这个函数之前,有没有其他的condition以供参考好让我决定是马上发送 or delay发送

anyway, 我想避免出现dev_queue_xmit=1的case

Thanks

论坛徽章:
20
程序设计版块每日发帖之星
日期:2015-08-17 06:20:00程序设计版块每日发帖之星
日期:2016-07-16 06:20:00程序设计版块每日发帖之星
日期:2016-07-18 06:20:00每日论坛发贴之星
日期:2016-07-18 06:20:00黑曼巴
日期:2016-12-26 16:00:3215-16赛季CBA联赛之江苏
日期:2017-06-26 11:05:5615-16赛季CBA联赛之上海
日期:2017-07-21 18:12:5015-16赛季CBA联赛之青岛
日期:2017-09-04 17:32:0515-16赛季CBA联赛之吉林
日期:2018-03-26 10:02:16程序设计版块每日发帖之星
日期:2016-07-15 06:20:0015-16赛季CBA联赛之江苏
日期:2016-07-07 18:37:512015亚冠之萨济拖拉机
日期:2015-08-17 12:21:08
2 [报告]
发表于 2015-07-22 20:26 |只看该作者
dev_queue_xmit返回的是enque的返回值。
当然,在dev_queue_xmit返回之前,qdisc_run可能已经发送了N多个packet了(由于qdisc的存在,未必就是传入的skb)。

首先是因为网卡的队列full,driver调用netif_stop_queue关闭qdisc;
进而导致qdisc只进不出,队列长度逐渐增加(可以查看tc的计数),
最终超过qdisc的队列上限,从而enque失败,体现为dev_queue_xmit失败。

感觉PC的能力应该不至于让万兆网卡发不过来?CPU更可能先成为瓶颈?

另外一种可能性是,网卡driver clean tx中断处理不及时?
可能的话,把tx发送逻辑跟tx-interrupt分配到不同的CPU上。

论坛徽章:
0
3 [报告]
发表于 2015-07-23 10:14 |只看该作者
谢谢你
我追踪代码的执行,发现dev-queue_xmit  return 1 的确是queue满了exceed tx_queue_len所以没法enqueue
static int pfifo_fast_enqueue(struct sk_buff *skb, struct Qdisc* qdisc)
{
if (skb_queue_len(qdisc->q) < qdisc->dev->tx_queue_len) {
  qdisc->q.qlen++;
  return __qdisc_enqueue_tail(skb, qdisc, list);
}

return qdisc_drop(skb, qdisc);     // return 1
}

感觉PC的能力应该不至于让万兆网卡发不过来?CPU更可能先成为瓶颈?
你的意思是CPU enqueue的速度 < 网卡dequeue的速度? 我一直call dev_queue_xmit应该没关系?
按照这个逻辑, 正常情况下 Qsic queue 应该永远不会full啊,除非发生如你所说的这个逻辑链条:
网卡队列full -> netif_stop_queue关闭Qdisc,Qdisc队列只进不->Qdisc队列长度增加,直至Qdisc队列full
所以这里逻辑的起点网卡队列FULL 和 逻辑的终点Qdisc队列FULL有什么区别吗,我一直网卡队列就是Qdisc队列啊

因为我是多线程发送,在call dev_queue_xmit时加了个mutex,现在倒也不会出现这种情况了
regard
回复 2# nswcfd


   

论坛徽章:
20
程序设计版块每日发帖之星
日期:2015-08-17 06:20:00程序设计版块每日发帖之星
日期:2016-07-16 06:20:00程序设计版块每日发帖之星
日期:2016-07-18 06:20:00每日论坛发贴之星
日期:2016-07-18 06:20:00黑曼巴
日期:2016-12-26 16:00:3215-16赛季CBA联赛之江苏
日期:2017-06-26 11:05:5615-16赛季CBA联赛之上海
日期:2017-07-21 18:12:5015-16赛季CBA联赛之青岛
日期:2017-09-04 17:32:0515-16赛季CBA联赛之吉林
日期:2018-03-26 10:02:16程序设计版块每日发帖之星
日期:2016-07-15 06:20:0015-16赛季CBA联赛之江苏
日期:2016-07-07 18:37:512015亚冠之萨济拖拉机
日期:2015-08-17 12:21:08
4 [报告]
发表于 2015-07-24 12:23 |只看该作者
“PC的能力应该不至于让万兆网卡发不过来”的言外之意是,
万兆网卡的pps高达14M(64小包,每秒一千四百万),除非CPU能以这么快的速度把packet送给网卡(可以自己做一个计数器测试一下),否则瓶颈一定在cpu上。

2楼说的网卡队列是指网卡的DMA队列,82599缺省是64还是256来着。ethtool -g查看。
如果这个队full,driver就会关闭qdisc,进而发生一些列的链式反应(负反馈)。
而这个队列满,通常不是由于网卡处理不过来,而是由于cpu忙不过来,driver不能及时回收skb导致。

在qdisc关闭期间,stack产生的报文只能缓存在qdisc队列上(协议栈认为发送成功),如果连qdisc都满了,stack的tx就会返回失败了。

假设队列长度64,stack一下子送过来100个报文,则前64个可以提交给网卡DMA队列,后面36缓存在qdisc上。
网卡可以很快的完成64个报文的发送(DMA操作),但是什么时候继续发送剩下的36个报文,取决于cpu能以多快的速度影响网卡的TxComplete中断,以及多快的速度释放掉前64个报文,以及多快的速度把剩下的36个报文提交给网卡DMA队列。

多core机器上,可以结合多ring、中断绑定、rx/tx中断分离等手段,来缓解cpu的瓶颈。

论坛徽章:
20
程序设计版块每日发帖之星
日期:2015-08-17 06:20:00程序设计版块每日发帖之星
日期:2016-07-16 06:20:00程序设计版块每日发帖之星
日期:2016-07-18 06:20:00每日论坛发贴之星
日期:2016-07-18 06:20:00黑曼巴
日期:2016-12-26 16:00:3215-16赛季CBA联赛之江苏
日期:2017-06-26 11:05:5615-16赛季CBA联赛之上海
日期:2017-07-21 18:12:5015-16赛季CBA联赛之青岛
日期:2017-09-04 17:32:0515-16赛季CBA联赛之吉林
日期:2018-03-26 10:02:16程序设计版块每日发帖之星
日期:2016-07-15 06:20:0015-16赛季CBA联赛之江苏
日期:2016-07-07 18:37:512015亚冠之萨济拖拉机
日期:2015-08-17 12:21:08
5 [报告]
发表于 2015-07-30 10:58 |只看该作者
关于队列,推荐一篇文章:http://www.coverfire.com/article ... inux-network-stack/
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP