Flink 动态表 (Dynamic Table) 解读
![]() | 博主历时三年精心创作的《大数据平台架构与原型实现:数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行,点击《重磅推荐:建大数据平台太难了!给我发个工程原型吧!》了解图书详情,京东购书链接:https://item.jd.com/12677623.html,扫描左侧二维码进入京东手机购书页面。 |
题记
根据过去在流上维持状态的编程经验,我们可以深刻地体会到:Dynamic Table 的本质其实是基于 changelog 数据流维持的一个流上的状态(Streaming State)!
动态表是 Flink 能以 SQL 驱动和操纵流式处理的基础,也是 Flink 实现 ”批流一体“ 的一项内在的技术支撑。简单地说,它的思想就是:将一个”流“抽象成一张”无界”的数据表,这样就可以在上面施加 SQL 操作了。静态的关系表和数据流有可以类比的地方,这是能将两者映射在一起的理论基础,同时,它们之间也有难以弥合的差异,所以在某些方面要进行限制或做出适当的妥协。文本将以 Flink 官方文档:动态表 (Dynamic Table) 为基底,给出一些批注式的解读。
对齐“概念”
首先,让我们来统一一些概念,对于一张动态表的查询可以有两个层面的解读,从上层应用的角度看:它就是一条 SQL,在查询一张表,只不过这张表是动态的,它的查询结果会一直在变(不同时间查,结果是不一样的),相应地,这条SQL其实是一直在跑的(不是反复查询,而是是一个持续运行 streaming job);从底层实现的角度看,这条 SQL 其实是被翻译成了一个Streaming 作业,从源端不停地读取 changelog 数据,然后在流上维持一个”状态“数据,状态数据就是 SQL 要表达的结果表。所以:
查询动态表就是生成一个连续查询(一个 Streaming Job),一个连续查询是不会终止的(流是不会自行终止的,动态表是“无界”的),结果会生成一个动态表 (Streaming 上的 ”状态“),查询会不断更新这张结果表(更新状态),实时地反映新流入的数据后对结果表的影响(同样的条件,不同时间查询,结果也可能不同,结果表里的数据可能一直在变)。
为了方便描述,我们可能会交替使用以下称谓或术语,它们指得都是同一件事情:
流式 SQL 查询 <=> 查询动态表 <=> 连续查询
”动态表“ 两例
Flink 官方文档给出的两个张”动态表“的图示还是非常形象的,也是后面解释关联问题的基础,所以,这里先列出来:
- 第一个示例:

- 第二个示例:

结果表的状态:更新中… 或 追加中…
既然连续查询是永不停止的,那么结果表自然也是一直在变化的,它要么是在持续“更新”记录中,要么是在持续 “追加”记录中,至于是更新还是追加,取决于中间的处理逻辑,也就是 SQL 本身。官方文档给出的两个示例恰好一个是更细,另一个是追加:
- 第一个查询的结果表是需要”持续更新“的(有 UPSERT 操作),以 Mary 为例,她的 cnt 从 1 到 2 时就是一次更新
- 第二个查询只附加到结果表,即结果表的 changelog 流只包含
INSERT操作。
一个查询是产生一个只追加的表还是一个更新的表有一些含义:
- 产生更新更改的查询通常必须维护更多的状态。
- 将 append-only 的表转换为流与将已更新的表转换为流是不同的(参阅表到流的转换章节)。
查询限制
尽管动态表的概念在语义上能将SQL(二维关系模型)比较好地映射到流上,但还是会有一些“力所不能及”的地方,这主要体现在对查询的一些“限制”上。有两类典型的限制:
-
维持了过多/过大的“状态”:这一点比较好理解,如果你的流式查询的结果表每一条都是一个”状态“,那流就需要一直维持这个状态,表的结果集绝大,维持的状态就越大/越大,直到程序因资源不足最后报错。此类案例就是:在第一个查询示例中,如果结果表中的每一条用户数据都是一个”状态“(可被 Upsert ),如果用户数量巨大,这个 SQL 就会报错,因为维持的 ”状态“ 负担太大;
-- 若用户数量过多,则维持的状态就会过多过大,可能会消耗大量资源 SELECT user, COUNT(url) FROM clicks GROUP BY user; -
更新的数据量过大:通俗一点说就是:更新牵涉的数量太大,这一点在基于静态表的批量查询中并不会体现出来,但基于动态表的流式 SQL 查询是”连续查询“,它会不停地查询,不停地更新结果表,此时,如果查询每次都要更新大量已输出的结果行,那么查询成本就会被叠加”放大“,变得非常高!此类案例就是官方文档给出的示例,每此有新记录产生,都要重新进行排名,更新所有已输出的行,对于不停刷新的动态表来说,这一操作成本太大。
-- 每此有新记录产生,都要重新进行排名,更新所有已输出的行,对于不停刷新的动态表来说,这一操作成本太大 SELECT user, RANK() OVER (ORDER BY lastAction) FROM (SELECT user, MAX(cTime) AS lastAction FROM clicks GROUP BY user );
相关文章:
Flink 动态表 (Dynamic Table) 解读
博主历时三年精心创作的《大数据平台架构与原型实现:数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行,点击《重磅推荐:建大数据平台太难了!给我发个工程原型吧!》了解图书详情,…...
【原创 附源码】Flutter海外登录--Google登录最详细流程
最近接触了几个海外登录的平台,踩了很多坑,也总结了很多东西,决定记录下来给路过的兄弟坐个参考,也留着以后留着回顾。更新时间为2024年2月8日,后续集成方式可能会有变动,所以目前的集成流程仅供参考&#…...
第70讲axios后端请求工具类封装
axios工具类封装: // 引入axios import axios from axios;// 创建axios实例 const httpService axios.create({// url前缀-http:xxx.xxx// baseURL: process.env.BASE_API, // 需自定义baseURL:http://localhost:80/,// 请求超时时间timeout: 3000 // 需自定义 })…...
【数学建模】【2024年】【第40届】【MCM/ICM】【F题 减少非法野生动物贸易】【解题思路】
一、题目 (一) 赛题原文 2024 ICM Problem F: Reducing Illegal Wildlife Trade Illegal wildlife trade negatively impacts our environment and threatens global biodiversity. It is estimated to involve up to 26.5 billion US dollars per y…...
第3节、电机定速转动【51单片机+L298N步进电机系列教程】
↑↑↑点击上方【目录】,查看本系列全部文章 摘要:本节介绍用定时器定时的方式,精准控制脉冲时间,从而控制步进电机速度。 一、计算过程 电机每一步的角速度等于走这一步所花费的时间,走一步角度等于步距角ÿ…...
【51单片机】LCD1602(可视化液晶屏)调试工具的使用
前言 大家好吖,欢迎来到 YY 滴 单片机系列 ,热烈欢迎! 本章主要内容面向接触过单片机的老铁 主要内容含: 欢迎订阅 YY滴C专栏!更多干货持续更新!以下是传送门! YY的《C》专栏YY的《C11》专栏YY…...
Netty应用(四) 之 Reactor模型 零拷贝
目录 6.Reactor模型 6.1 单线程Reactor 6.2 主从多线程Reactor (主--->Boss | 从--->Worker | 一主多从机制) 7.扩展与补充 8.Reactor模型的实现 8.1 多线程Reactor模型的实现(一个Boss线程,一个Worker线程) 8.2 多线程Reactor模…...
Huggingface上传模型
Huggingface上传自己的模型 参考 https://juejin.cn/post/7081452948550746148https://huggingface.co/blog/password-git-deprecationAdding your model to the Hugging Face Hub, huggingface.co/docs/hub/ad…Welcome,huggingface.co/welcome三句指…...
kyuubi 接入starrocks | doris
kyuubi 接入starrocks 一、环境 Hadoop集群 组件版本Hadoop3.1.1spark3.Xzookeeper3.XHive3.X kyuubi 版本 1.7.1 starrocks 2.X 已将kyuubi部署到yarn上,并且接入了spark3引擎,并通过Ambari进行kyuubi组件的管理,下面步骤为新增对sta…...
notepad++成功安装后默认显示英文怎么设置中文界面?
前几天使用电脑华为管家清理电脑后,发现一直使用的notepad软件变回了英文界面,跟刚成功安装的时候一样,那么应该怎么设置为中文界面呢?具体操作如下: 1、打开notepad软件,点击菜单栏“Settings – Prefere…...
HiveSQL——连续增长问题
注:参考文章: SQL连续增长问题--HQL面试题35_sql判断一个列是否连续增长-CSDN博客文章浏览阅读2.6k次,点赞6次,收藏30次。目录0 需求分析1 数据准备3 小结0 需求分析假设我们有一张订单表shop_order shop_id,order_id,order_time…...
使用cocos2d-console初始化一个项目
先下载好cocos2d-x的源码包 地址 https://www.cocos.com/cocos2dx-download 这里使用的版本是 自己的电脑要先装好python27 用python安装cocos2d-console 看到项目中有个setup.py的一个文件 python setup.py 用上面的命令执行一下。 如果执行正常的话回出现上面的图 然后…...
VitePress-13- 配置-title的作用详解
作用描述 1、title 是当前站点的标题;2、默认值是 :VitePress;3、当使用默认主题时,会直接展示在 页面的【导航条】中;4、一个特殊的作用 : 会作为单个页面的默认标题后缀!除非又指定了【title…...
Rust-AI todo list 开发体验
之前用AI协助开发了一个Vue模块,感觉意犹未尽,所以决定再让AI 来协助我做一个todo list。 todo list对我来说真是一个刚需,从我决定做一件事情,到这件事情做完,我的todo list不但不会减少,反而会增加。 回…...
2024-02-07(Sqoop,Flume)
1.Sqoop的增量导入 实际工作中,数据的导入很多时候只需要导入增量的数据,并不需要将表中的数据每次都全部导入到hive或者hdfs中,因为这样会造成数据重复问题。 增量导入就是仅导入新添加到表中的行的技术。 sqoop支持两种模式的增量导入&a…...
LDAR管理系统解决方案
1、密封点数量不准确 工业企业LDAR项目多委托第三方进行检测,由于前几年由于检测费较高,为减少开支,很多企业只安排检测公司检测了部分密封点,造成密封点遗漏。也有少数企业为了从中谋私利,虚增密封点。 2、密封点台账…...
[vscode]ssh报错: Resolver error: Error: XHR failedscode错误
场景问题:通过vscode ssh连接远程服务器失败,报错:Resolver error: Error: XHR failedscode: 问题原因:~/.vscode-server/bin/一串数字下的vscode-server-linux-x64.tar.gz由于某种原因无法正常下载 解决方式&#x…...
【Maven】依赖、构建管理 继承与聚合 快速学习(3.6.3 )
文章目录 Maven是什么?一、Maven安装和配置本地配置文件设置idea配置本地maven 二、基于IDEA的Maven工程创建2.1 Maven工程GAVP属性2.2 Idea构建Maven JavaEE工程 三、Maven工程项目结构说明四、Maven核心功能依赖和构建管理4.1 依赖管理和配置4.2 依赖传递和冲突4.…...
Flume安装部署
安装部署 安装包连接:链接:https://pan.baidu.com/s/1m0d5O3Q2eH14BpWsGGfbLw?pwd6666 (1)将apache-flume-1.10.1-bin.tar.gz上传到linux的/opt/software目录下 (2)解压apache-flume-1.10.1-bin.tar.gz…...
点云从入门到精通技术详解100篇-非结构化道路下无人平台路径规划与运动控制
目录 前言 路径规划方法研究现状 传统规划算法 智能规划算法 规划方法比较...
【OSG学习笔记】Day 18: 碰撞检测与物理交互
物理引擎(Physics Engine) 物理引擎 是一种通过计算机模拟物理规律(如力学、碰撞、重力、流体动力学等)的软件工具或库。 它的核心目标是在虚拟环境中逼真地模拟物体的运动和交互,广泛应用于 游戏开发、动画制作、虚…...
Spring Boot 实现流式响应(兼容 2.7.x)
在实际开发中,我们可能会遇到一些流式数据处理的场景,比如接收来自上游接口的 Server-Sent Events(SSE) 或 流式 JSON 内容,并将其原样中转给前端页面或客户端。这种情况下,传统的 RestTemplate 缓存机制会…...
PHP和Node.js哪个更爽?
先说结论,rust完胜。 php:laravel,swoole,webman,最开始在苏宁的时候写了几年php,当时觉得php真的是世界上最好的语言,因为当初活在舒适圈里,不愿意跳出来,就好比当初活在…...
线程与协程
1. 线程与协程 1.1. “函数调用级别”的切换、上下文切换 1. 函数调用级别的切换 “函数调用级别的切换”是指:像函数调用/返回一样轻量地完成任务切换。 举例说明: 当你在程序中写一个函数调用: funcA() 然后 funcA 执行完后返回&…...
条件运算符
C中的三目运算符(也称条件运算符,英文:ternary operator)是一种简洁的条件选择语句,语法如下: 条件表达式 ? 表达式1 : 表达式2• 如果“条件表达式”为true,则整个表达式的结果为“表达式1”…...
【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力
引言: 在人工智能快速发展的浪潮中,快手Kwaipilot团队推出的 KwaiCoder-AutoThink-preview 具有里程碑意义——这是首个公开的AutoThink大语言模型(LLM)。该模型代表着该领域的重大突破,通过独特方式融合思考与非思考…...
质量体系的重要
质量体系是为确保产品、服务或过程质量满足规定要求,由相互关联的要素构成的有机整体。其核心内容可归纳为以下五个方面: 🏛️ 一、组织架构与职责 质量体系明确组织内各部门、岗位的职责与权限,形成层级清晰的管理网络…...
cf2117E
原题链接:https://codeforces.com/contest/2117/problem/E 题目背景: 给定两个数组a,b,可以执行多次以下操作:选择 i (1 < i < n - 1),并设置 或,也可以在执行上述操作前执行一次删除任意 和 。求…...
OpenLayers 分屏对比(地图联动)
注:当前使用的是 ol 5.3.0 版本,天地图使用的key请到天地图官网申请,并替换为自己的key 地图分屏对比在WebGIS开发中是很常见的功能,和卷帘图层不一样的是,分屏对比是在各个地图中添加相同或者不同的图层进行对比查看。…...
CMake控制VS2022项目文件分组
我们可以通过 CMake 控制源文件的组织结构,使它们在 VS 解决方案资源管理器中以“组”(Filter)的形式进行分类展示。 🎯 目标 通过 CMake 脚本将 .cpp、.h 等源文件分组显示在 Visual Studio 2022 的解决方案资源管理器中。 ✅ 支持的方法汇总(共4种) 方法描述是否推荐…...

