StarRocks上新,“One Data、All Analytics”还有多远?
K.K在《未来十二大趋势》中认为,我们正处于一个数据流动的时代。商业乃数据之商业。归根结底,你在处理的都是数据。
的确,当数据成为新的核心生产要素之际,数据分析就犹如最重要的生产工具之一,决定着企业在数字化时代生产力水平。近年来,无论国外的Snowflake、Databricks,还是国内StarRocks、PingCAP,大批数据分析型公司涌现,都旨在满足越来越多的数据分析需求,帮助各种企业充分释放数据生产力。
这其中,StarRocks就是数据分析领域一颗冉冉升起的新星。在短短几年时间里,StarRocks在Github获得star 6300+,成为同类开源数据库项目里增长最快的,并且在2022年底正式捐赠给 Linux Foundation,吸引到全球开发者和用户参与未来社区的建设。
正如StarRocks TSC Member、镜舟科技 CTO 张友东所言,StarRocks希望通过技术创新来简化数据技术栈,通过一个引擎实现全场景的“One Data、All Analytics”愿景。
为何需要“One Data,All Analytics”
当前,人工智能、大数据、物联网等数字化技术在不断提升企业生产力的同时,随之而来就是复杂性的持续提升。这种复杂性在数据领域体现的尤为明显,尤其是数据技术与业务场景的不断融合,复杂性困扰着诸多身处数字化转型的企业。
复杂性首先体现在数据本身,数据正加速走向海量化和多样化。过去,一家企业往往以结构化数据为主,数据规模通常是TB级别;现在,文本数据、轨迹数据、日志数据等非结构化数据大幅增加,PB级数据量正成为越来越多企业的常态。
其次,企业如今的业务场景日趋复杂,随之而来的就是数据栈相关技术、工具、产品大量增加。从过去单一的数据仓库,到现在指标平台、交互式分析、实时分析、流计算等等,企业面临的数据栈环境复杂程度远胜以往,并且随着AI相关技术融入,这种复杂性还在持续增加。
第三,数据消费需求的复杂性大幅提升。过去,数据消费仅仅是管理层少数人的“权力”;现在,“人人用数”已经成为众多企业追求的目标。例如,有些走在前沿的互联网、金融等企业,甚至一名普通业务员工都是数据消费者,并且在日常业务中随时会进行数据分析。
因此,在海量数据环境成为既定事实的情况下,企业在数据领域所面临的复杂性挑战将是数字化转型中一道必须面临的难题。在张友东看来,“One Data,All Analytics”是化解数据分析复杂性的关键,而StarRocks3.0版本的推出,为实现“One Data,All Analytics”目标前进了一大步。
StarRocks 3.0,产品大进阶
众所周知,数据分析类产品拥有多年历史。在大数据兴起之前,Teradata、Greenplum等传统数据仓库一直占据着主流市场位置;随着大数据兴起,以Hadoop 为代表的大数据平台迅速成为数据分析的基础平台;如今,云原生、湖仓一体等技术的兴起,加速推动着数据分析产品的创新。
当前,数据分析类相关的公司众多。不过,StarRocks用出色表现吸引了业界的大量关注。自从2021年9月份正式开源以来,StarRocks已成长为开源领域的明星项目,获得了全球开发者的认可。在笔者看来,StarRocks之所以在短时间即获得阶段性的成功,关键在于产品的迭代速度和创新能力。
从开源至今,StarRocks已经历了三个大版本的迭代,从1.0版本主打性能,到2.0版本围绕融合统一,再到现在3.0版本围绕湖仓一体的创新,StarRocks成为当下数据分析领域现象级的产品。
以数据仓库架构为例,存算分离是大势所趋。随着云原生等技术的高速发展,通过存算分离架构,计算、存储等资源可以更好地弹性化,以应对业务对于资源的使用,从而实现成本、效率的最优化。StarRocks 3.0同样采用了存算分离架构,架构设计高度抽象且极简,无需依赖复杂组件,具有极强的扩展性和弹性;并且支持Multi-Warehouse,多个Warehouse共享一份数据,不同 Warehouse 应用在不同工作负载,计算资源可以进行物理隔离,内部按需独立弹性伸缩。
“存算分离架构真正带来两大价值:降本增效和弹性伸缩。像在存储层面,采用存算分离架构后的StarRocks 3.0整体存储成本可以下降80%,而计算节点则因为无状态,可以通过快速弹性、跨可用区部署等方式来提高计算的可用性,并且计算资源能够进行物理隔离,按需独立弹性伸缩。”张友东介绍道。
另外,湖仓走向一体化也是数据分析产品的一大重要趋势。通常,企业在经历了多年的数字化转型之后,都会存在着数据仓库和数据湖两种数据分析技术栈,它们各具特点与优势,数据仓库往往具备数据质量高、性能出色、实时分析强等优势,而数据湖则可以存储各种不同类型的数据,扩展性和开放性强。因此,融合数据仓库与数据湖的各自优势就成为业界努力的方向。
当前,业界并不缺少湖仓相关的解决方案。比如在湖上性能不满足,采用湖上建仓的方案加速查询;再如数据仓库扩展查询外部数据湖能力等。
张友东直言,这些方案更像是一种组合式方案,并没有真正做到湖仓一体,“湖仓一体意味着一套架构满足所有数据分析的需求,也即One Data,All Analytics。”
以StarRocks 3.0的湖仓一体化架构为例,实现了数据统一存储管理,一份数据作为 Single source of truth;另外,强大的分析引擎可以基于一份数据,满足包括BI 报表、交互式分析、实时分析、ETL 数据加工等场景的查询诉求;更加关键的是,具备按需数据加工/查询加速的能力。
“未来数据分析演进的趋势肯定是湖仓一体,用户无需关注建湖还是建仓,核心目标是低成本、高效的解决数据分析问题。”张友东补充道。
此外,随着数据量和业务复杂性的大幅提升,使得ETL成为一件极为辛苦的工作,通常需要耗费大量人力、精力在ETL相关工作上。对此,StarRocks 3.0也在瞄准No ETL的方向,在整个数据管理中减少ETL的工作量,并且通过物化视图让用户尽量不感知ETL,从全链路层面致力于简化ETL的pipeline。
毫无疑问,StarRocks 3.0版本的推出是StarRocks项目发展的一个关键节点。这意味着StarRocks 产品力已经实现重要的突破,可以助力用户实现全场景的数据分析架构统一,也为自身带来了更加广阔的市场空间。
多个头部客户青睐,StarRocks未来值得期待
随着数据驱动型应用大量涌现,数据分析、数据消费需求也随之产生。Gartner认为,数据分析已成为企业数字化转型中致力于建设的核心能力。因此,数据分析赛道未来具有极为光明的前景。
毫无疑问,从StarRocks的社区发展、用户群、商业生态建设等情况拉看,StarRocks正处于一个高速发展的极端,未来值得更多的期待。
其一,得益于对于开源理念的坚持,StarRocks 开源社区一直处于非常活跃的状态,为后续的发展带来了十足的生命力。目前,社区开发工作由镜舟科技主导推进,并且贡献了70%以上的核心代码;此外,阿里云、腾讯、火山引擎、滴滴出行等头部企业已经积极参与到社区之中,并且持续给社区贡献了物化视图、CN 弹性节点等诸多重要特性。
其二,得益于行业头部客户的积极参与和产品创新力的提升,StarRocks产品在金融、零售、物流、制造和互联网等多个行业头部用户的复杂业务场景中得到锤炼。据悉,目前有超过 300家市值10亿美金以上的大型用户在生产环境使用 StarRocks,场景覆盖 BI 报表、交互式探寻分析、实时分析、湖仓分析等一系列场景,未来有望在场景应用中持续推动产品创新与快速迭代。
其三,StarRocks 重视商业生态的建设。除了头部行业用户使用之外,StarRocks目前与国内各大云服务商均有合作,致力于借助云计算这个大生态来推动开源项目的商业化,让产品走向更加广泛的市场群体,在市场竞争中获得成长。
“相比于北美等发达市场,中国市场的数据分析还有巨大的潜力空间,StarRocks希望通过技术创新帮助更多用户实现One Data,All Analytics。”张友东最后表示道。
相关文章:
StarRocks上新,“One Data、All Analytics”还有多远?
K.K在《未来十二大趋势》中认为,我们正处于一个数据流动的时代。商业乃数据之商业。归根结底,你在处理的都是数据。 的确,当数据成为新的核心生产要素之际,数据分析就犹如最重要的生产工具之一,决定着企业在数字化时代…...
Java8实战-总结50
Java8实战-总结50 CompletableFuture:组合式异步编程对多个异步任务进行流水线操作对 Future 和 CompletableFuture 的回顾 响应 CompletableFuture 的 completion 事件对最佳价格查询器应用的优化 CompletableFuture:组合式异步编程 对多个异步任务进行…...
kicad源代码研究:参照Candence实现工程管理
创建工程: 创建工程和打开工程触发事件: KICAD_MANAGER_ACTIONS::newProjectKICAD_MANAGER_ACTIONS::openProjectnewProject和OpenProject事件响应具体实现,在KICAD_MANAGER_CONTROL类中实现: Go( &KICAD_MANAGER_CONTROL::…...
Asp.net core WebApi 配置自定义swaggerUI和中文注释,Jwt Bearer配置
1.创建asp.net core webApi项目 默认会引入swagger的Nuget包 <PackageReference Include"Swashbuckle.AspNetCore" Version"6.2.3" />2.配置基本信息和中文注释(默认是没有中文注释的) 2.1创建一个新的controller using Micr…...
DNS 查询结果逐行解释
文章目录 FlagsADDITIONALANSWER SECTIONQuery timeSERVERWHENDNS PortAuthoritative answer权威DNS服务器Non-authoritative answer推荐阅读 DNS查询后,查询结果一般如下: mirrorUbuntu22:~$ dig www.baidu.com; <<>> DiG 9.18.12-0ubuntu0…...
ArcGIS制作广场游客聚集状态及密度图
文章目录 一、加载实验数据二、平均最近邻法介绍1. 平均最近邻工具2. 广场游客聚集状态3. 结果分析三、游客密度制图一、加载实验数据 二、平均最近邻法介绍 1. 平均最近邻工具 “平均最近邻”工具将返回五个值:“平均观测距离”、“预期平均距离”、“最近邻指数”、z 得分和…...
同旺科技 USB TO SPI / I2C --- 调试W5500_TCP Client接收数据
所需设备: 内附链接 1、USB转SPI_I2C适配器(专业版); 首先,连接W5500模块与同旺科技USB TO SPI / I2C适配器,如下图: 发送数据6个字节的数据:0x11,0x22,0x33,0x44,0x55,0x66 在专业版调试软件中编辑指令,…...
MQ - KAFKA 高级篇
kafak是一个分布式流处理平台,提供消息持久化,基于发布-订阅的方式的消息中间件,同时通过消费端配置相同的groupId支持点对点通信。 ##适用场景: 构造实时流数据管道,用于系统或应用之间可靠的消息传输.数据采集及处理,例如连接到一个数据库系统,捕捉表…...
如何快速查找最后(最右侧)隐藏列
实例需求:定位工作表中的最后(最右侧)隐藏列,处理其中的数据。 通常思路是从工作表最后列开始,倒序检查每个列,直到找到隐藏列或者检查完毕(无隐藏列)。 Sub LastColumn()Dim visR…...
精密制造ERP系统包含哪些模块?精密制造ERP软件是做什么的
不同种类的精密制造成品有区别化的制造工序、工艺流转、品质标准、生产成本、营销策略等,而多工厂、多仓库、多车间、多部门协同问题却是不少精密制造企业遇到的管理难题。 有些产品结构较为复杂,制造工序繁多,关联业务多,传统的…...
TypeScript 的高级技巧
1 — 高级类型(Advanced Types) 使用 TypeScript 的高级类型,如映射类型和条件类型,可以基于现有类型构建新类型。通过使用这些类型,您可以在强类型系统中更改和操作类型,从而使您的代码具有更大的灵活性和…...
TiDB 7.x 源码编译之 TiDB Server 篇,及新特性详解
本文将介绍如何编译 TiDB Server 源码。以及阐释 TiDB Server 7.x 的部分新特性。 TiDB v7.5.0 LTS 计划于 2023 年 11 月正式 Release,目前代码虽未冻结,但已经可以看到 Alpha 版本的 Code 了,本文代码将以 v7.5.0-alpha 为基准。 TiDB Se…...
Hadoop实验putty文件
🔥博客主页: A_SHOWY🎥系列专栏:力扣刷题总结录 数据结构 云计算 数字图像处理 很多朋友反馈做hadoop实验中的putty找不到Connection-SSH-Auth路径下找不到Private key for authentication私有密钥,无法将转…...
研发人员绩效考核难题及解决措施
研发部门是技术型企业的核心人员,研发人员的设计贯穿着产品实现过程包括后续的持续改进。倘若研发人员的设计源头得以保障,那么后续工作包括研发人员的绩效考核,相对简单。接下来华恒智信便根据多年来从事的人力资源相关的服务经验为您对于研…...
Inference with C# BERT NLP Deep Learning and ONNX Runtime
目录 效果 测试一 测试二 测试三 模型信息 项目 代码 下载 Inference with C# BERT NLP Deep Learning and ONNX Runtime 效果 测试一 Context :Bob is walking through the woods collecting blueberries and strawberries to make a pie. Question …...
6、原型模式(Prototype Pattern,不常用)
原型模式指通过调用原型实例的Clone方法或其他手段来创建对象。 原型模式属于创建型设计模式,它以当前对象为原型(蓝本)来创建另一个新的对象,而无须知道创建的细节。原型模式在Java中通常使用Clone技术实现,在JavaSc…...
图像万物分割——Segment Anything算法解析与模型推理
一、概述 在视觉任务中,图像分割任务是一个很广泛的领域,应用于交互式分割,边缘检测,超像素化,感兴趣目标生成,前景分割,语义分割,实例分割,泛视分割等。 交互式分割&am…...
Redis实战篇笔记(最终篇)
Redis实战篇笔记(七) 文章目录 Redis实战篇笔记(七)前言达人探店发布和查看探店笔记点赞点赞排行榜 好友关注关注和取关共同关注关注推送关注推荐的实现 总结 前言 本系列文章是Redis实战篇笔记的最后一篇,那么到这里…...
游戏配置表的导入使用
游戏配置表是游戏策划的标配,如下图: 那么程序怎么把这张配置表导入使用? 1.首先,利用命令行把Excel格式的文件转化成Json格式: json-excel\json-excel json Tables\ Data\copy Data\CharacterDefine.txt ..\Clien…...
❀dialog命令运用于linux❀
目录 ❀dialog命令运用于linux❀ msgbox部件(消息框) yesno部件(yesno框) inputbox部件(输入文本框) textbox部件(文本框) menu部件(菜单框) fselect部…...
【算法】蓝桥杯2013国C 横向打印二叉树 题解
文章目录 题目链接题目描述输入格式输出格式样例自己的样例输入自己的样例输出 思路整体思路存储二叉搜索树中序遍历并存储计算目标数的行号dfs遍历并写入数组初始化和处理输入输出初始化处理输入处理输出 完整的代码如下 结束语更新初始化的修改存储二叉搜索树的修改中序遍历和…...
XunSearch 讯搜 error: storage size of ‘methods_bufferevent’ isn’t known
报错: error: storage size of ‘methods_bufferevent’ isn’t known CentOS8.0安装迅搜(XunSearch)引擎报错的解决办法 比较完整的文档 http://www.xunsearch.com/download/xs_quickstart.pdf 官方安装文档 http://www.xunsearch.com/doc/php/guide/start.in…...
基于AWS Serverless的Glue服务进行ETL(提取、转换和加载)数据分析(三)——serverless数据分析
3 serverless数据分析 大纲 3 serverless数据分析3.1 创建Lambda3.2 创建API Gateway3.3 结果3.4 总结 3.1 创建Lambda 在Lambda中,我们将使用python3作为代码语言。 步骤图例1、入口2、创建(我们选择使用python3.7)3、IAM权限(…...
08、分析测试执行时间及获取pytest帮助
官方用例 # content of test_slow_func.py import pytest from time import sleeppytest.mark.parametrize(delay,(1.1,1.2,1.3,1.4,1.5,1.6,1.7,1.8,1.9,1.0,0.1,0.2,0,3)) def test_slow_func(delay):print("test_slow_func {}".format(delay))sleep(delay)assert…...
视频集中存储/智能分析融合云平台EasyCVR平台接入rtsp,突然断流是什么原因?
安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安…...
JavaScript 复杂的<三元运算符和比较操作>的组合--案例(一)
在逆向的时候,碰上有些复杂的js代码,逻辑弄得人有点混; 因此本帖用来记录一些棘手的代码,方便自己记忆,也让大家拓展认识~ ----前言 内容: function(e, t, n) {try {1 (e "{" e[0] ? JSON.parse(e) : JSON.parse(webInstace.shell(e))).Status || 200 e.Code…...
uniapp搭建内网映射测试https域名
搭建Https域名服务器 使用github的frp搭建,使用宝塔申请免费https证书,需要先关闭宝塔nginx的反向代理,申请完域名后再开启反向代理即可。 教程 新版frp搭建教程 启动命令 服务器端 sudo systemctl start frps本地 cd D:\软件安装包\f…...
国防科技大博士招生入学考试【50+论文主观题】
目录 回答模板大意创新和学术价值启发 论文分类(根据问题/场景分类)数学问题Efficient Multiset Synchronization(高效的多集同步【简单集合/可逆计数Bloom过滤器】)大意创新和学术价值启发 An empirical study of Bayesian netwo…...
CUDA简介——编程模式
1. 引言 前序博客: CUDA简介——基本概念 CPU是用于控制的。即,host控制整个程序流程: 1)程序以Host代码main函数开始,然后顺序执行。 Host代码是顺序执行的,并执行在CPU之上。Host代码会负责Launch ke…...
Linux 软件安装
目录 一、Linux 1、Linux异常解决 1、JDK安装 1、Linux卸载JDK 2、Linux安装JDK 2、Redis安装 一、Linux 1、Linux异常解决 1、Another app is currently holding the yum lock; waiting for it to exit... 解决办法: rm -f /var/run/yum.pid1、杀死这个应用程序 ps a…...
深圳网站维护页面设计/南阳seo优化
lambda 函数是一个可以接收任意多个参数(包括可选参数)并且返回单个表 达式值的函数 1、lambda 函数比较轻便,即用即仍,很适合需要完成一项功能,但是此功能只 在此一处使用,连名字都很随意的情况下; 2、匿名函数&a…...
什么是网站名称/谷歌paypal下载
开启三台虚拟机 实战:使用varnish加速多个不同域名站点的web服务器 varnish:192.168.80.100 //需要联网 web1:192.168.80.101——www.aa.com web2:192.168.80.102——www.bb.com 三台服务器全都要操作 systemctl stop f…...
清廉企业建设/seo怎么搞
前文说到使用统计学习方法进行文本分类就是让计算机自己来观察由人提供的训练文档集,自己总结出用于判别文档类别的规则和依据。理想的结果当然是让计算机在理解文章内容的基础上进行这样的分类,然而遗憾的是,我们所说的“理解”往往指的是文…...
wordpress 注册邮件设置密码/网站制作报价表
布尔函数标准型及化简1.逻辑函数及其标准型2.电路优化2.1成本标准2.2成本与速度的矛盾2.3与或式(或与式)的门输入成本2.4代数法优化电路表达式3.门的传播延迟3.1延迟模型3.2时间测量3.3冒险(冲突)现象1.逻辑函数及其标准型 ●n变…...
青岛网站建设华夏/全国今日新增疫情
ES2017 标准引入了 async 函数,使得异步操作变得更加方便。 async 先说一下async的用法,它作为一个关键字放到函数前面,用于表示函数是一个异步函数,因为async就是异步的意思, 异步函数也就意味着该函数的执行不会阻塞…...
微信运营推广方案/北京做的好的seo公司
目录 一、概述 二、内部类的分类 1、成员内部类 2、局部内部类 三、匿名内部类 1、匿名内部类含义 2、匿名内部类的作用与格式 一、概述 将类写在其他类的内部,可以写在其他类的成员位置和局部位置,这时写在其他类内部的类就称之为内部类&#x…...