免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1612 | 回复: 5
打印 上一主题 下一主题

关于发现分布式系统中不稳定单元的讨论 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-11-25 13:44 |只看该作者 |倒序浏览
我现在维护的系统遇到一个问题,也已经提出了并测试了好几种解决方案,但还找不到满意的。
所以就把问题放到CU上,请各路高手一起来出出主意。

先描述一下系统:
分布式系统,有多个center unit,每个center unit下面挂多个leaf unit,各center unit互相连接,每个center unit和自己的leaf unit构成一个cluster,center unit 有路由功能。系统中有几百个unit。

问题:
在系统中有某个unit可能处于一个不稳定的状态,某些不确定长度的包收发会出现问题,问题出现的概率大约是1/10。在这个unit上,收到的包没有CRC校验错误,但是包的内容发生了错误,导致后面一系列的问题。我想通过发不同长度的包给各个单元,从而提前发现这个问题,更换硬件。

需要注意的问题:
解决方案不能过多的影响到系统的负载

已经否定的方案:
方案一:
    由center unit隔一段时间顺序地发出2种固定长度的supervision给它的leaf unit,这两种长度分别是最大单个frame的长度和一个最大frame之内的长度。
    结果:运行了很长时间也发现不了问题。

方案二:
    由center分别发不同长度的消息给它的某个leaf unit, 确认之后在选择下一个
    结果:center unit的负载太大,而且由于unit很多,发现问题较晚。

大家有没有遇到过类似的问题?有没有什么想法?

论坛徽章:
0
2 [报告]
发表于 2008-11-25 14:51 |只看该作者

回复 #1 bill1118qq 的帖子

从你的描述上面系统是比较大的,初步估计是一个科研系统。这样的描述大家会不是很清楚你的问题与你的环境之间的关系的

论坛徽章:
0
3 [报告]
发表于 2008-11-25 15:01 |只看该作者
supervision 的作用是用于监测虚拟链路的状态,也可监测unit的状态,如果链路出现问题或者unit的无法响应,supervision都可以在尽可能短的时间内发现。但是supervision本身又不能过多的增加系统的负载。

论坛徽章:
0
4 [报告]
发表于 2008-11-25 15:06 |只看该作者
根据描述总结如下:
1.某些不确定长度的包收发会出现问题,(检测收发出问题的机制,如何知道是出问题了).
2.检测机制确定了,是否涉及仲裁与退出机制及其应用需求.
3.上述机制及需求确定了,管理代价也就可以计算了.
我想下面的设计应该就水到渠成了吧.

论坛徽章:
0
5 [报告]
发表于 2008-11-25 15:18 |只看该作者

回复 #4 wysilly 的帖子

回楼上的兄弟:
1. 监测机制已经是确定的了,通过不同长度确定填充的包,监测这个包是否正确即可。
    问题:存在不确定性,比如同样100字节的包,这次发送可能没有问题,但是下次会有问题。所以就需要保证足够多次的监测,而且是不同长度的包。问题本身在于是选择100,101,102.....9999这样的包逐个发送直至发现,这显然不现实,但是为了监测出问题,又必须付出一定的代价,怎么折中的选择?
2. 退出机制已经很明确了,问题的重心不在这里。
3. 由于目标单元不确定,也就是这种不定长包的监测需要覆盖所有的单元,由于单元较多,所以,时间间隔上需要考虑,长了,问题发现得晚,短了,会给系统造成过大的负担。而且选择目标单元的方法也需要考虑,如果由始终某一确定单元发起,可能会给该单元造成过大负载,那么如何选择?

论坛徽章:
0
6 [报告]
发表于 2008-11-25 15:31 |只看该作者
1.关天第一个问题,监测机制就有问题.首先是应用数据包的出错是随机的,应该在接收方(应用端接收时发现内容不对要上报,如果当前应用就是没有这种检测机制,那你附加上的监测机制就是另一套应用,实际与当前应用无关.)
2.既然要与当前应用相关,当前应用就要有相应的检测机制,是包含在当前应用中。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP