免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 26543 | 回复: 0

[其他] 关于流式计算中窗口的理解问题 [复制链接]

论坛徽章:
0
发表于 2019-03-25 16:25 |显示全部楼层
一般在流式计算中都会有一个窗口的概念(window)。
比较在flink中的
.timeWindow(Time.seconds(5))

它将无边界数据按时间划分为每5秒一个窗口
那么第次聚合计算(sum)都是计算出当前窗口的值
也就是说我计算出的是10:00:05,10:00:10,10:00:15,10:00:20,10:00:25
这5次在不同时间段内的的结果。如果我想要得到的是一个月的sum结果。我难道要将时间窗口设成一个月吗?
如果是一年呢?10年呢。

还有一种思路是。将每5秒的结果存下来做中间结果。
但如果我的数据量很大,存下来的中间结果很多。在计算的话不就成了一个批处理吗?无法实时得到结果。
而且这样计算也有问题。比如我的数据有修改,或者其他的什么。并不适合这种有中间结果在聚合的场景,该怎么做。


还有就是计算结果的不准确性。如果数据延时到达。上一个窗口都已经关闭了。计算出来的结果就漏掉了这个延时到达的数据。其结果就不准确了
flink中怎么去处理的


您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

DTCC2021中国数据库技术大会

【数造未来】2021年10月18日-20日第十二届中国数据库技术大会
ITPUB、大会的会员您们好: 因目前国内疫情严峻,为响应北京市最新疫情防控要求,保障参会人员的健康和安全,组委会经协商决定:DTCC2021第十二届中国数据库技术大会延期至10月18日-20日(周一~周三)在北京国际会议中心举行,由此给各位带来的不便,敬请谅解!

大会官网
  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP