当前位置: 首页 > news >正文

超级独角兽 Databricks 的崛起之路

在数据扩张以及 AI 兴起的时代,数据存储和分析平台拥有巨大价值和能量。 

随着互联网数据的爆炸性增长,数据已经成为企业的新型资源,犹如石油般重要。越来越多的企业希望利用各种结构化和非结构化数据来发挥自己的优势。

然而,他们面临着复杂的遗留基础设施、数据孤岛的解决以及高延迟的管理等挑战。因此,数据湖的需求逐渐增长。数据湖是一种存储库,能够以本机格式摄取大量原始数据,使企业能够在需要时轻松地访问它们。

Databricks 是目前一级市场中的超级独角兽公司。其帮助企业准备用于分析的数据,支持采用机器学习和数据驱动的决策。它还使数据科学能够与数据工程和其他业务部门协作来构建数据产品。今天,它已经扩展成为一个更广泛的湖仓一体的 Databricks Marketplace。

01 旅程始于 Apache Spark

Databricks 团队由七位计算机科学博士组成,他们一直致力于开发用于数据处理的 Spark 引擎。该项目在 2014 年创造了数据排序速度的世界纪录。

为了让更多用户使用 Spark,他们选择将其开源,并在 2013 年创立了 Databricks 公司。同年,该公司完成了 A 轮融资,由 A16z 领投。2016 年 1 月,Databricks 更换了新的 CEO。一年后,该公司完成了第一笔百万美元的交易。

总体而言,Databricks 团队是 Apache Spark 的核心开发者,具有绝对的影响力和理解力,因此作为 Spark 的商业化公司,Databricks 名正言顺。

02 拓展产品线助力收入多元化

Databricks 最初专注于 Spark,用于查询存储在数据湖中的大型非结构化数据集。此后,为迎合市场,Databricks 升级为湖仓一体平台,其基于 Spark 构建,提供为数据湖提供 ACID 事务和数据版本控制的 Delta Lake;用于管理机器学习工作流程的开源平台 MLflow;以及基于 SQL 的数据分析协作工具 Redash。

总体来看,Databricks 湖仓一体平台结合了数据湖和数据仓库的元素。它具有数据湖的灵活性、成本效益和规模,同时还提供数据仓库的数据管理和 ACID 事务。用户可以在所有数据上启用商业智能和机器学习。

Databricks 产品在 AWS、Azure、GCP 等主要云服务上提供,其平台为数据、分析和机器学习工作提供了一个统一的环境。可视化可以成为这些不同活动的组成部分。

来源:Databricks

03 数据湖市场增长,用户横跨大中小

Databricks 相信企业正在摆脱孤立的系统来存储数据,而是选择集中式的数据存储。这种方法帮助企业通过商业智能和预测分析深入了解过去和未来的趋势。

数据湖技术正是基于此,其允许将所有数据类型和来源存储在一起。数据表明,数据湖市场将由 2019 年的 79 亿$增长到 2024 年的 201 亿$。

来源:marketsandmarkets

此外,Databricks 的客户横跨大中小企业,以及各个行业。截至 2023 年 03 月,其全球已有超过 9000 家企业用户。包括 AT&T、壳牌、巴宝莉、丰田、Adobe、康泰纳仕和再生元制药等。

如果我们用 Databricks 2022 年 Q2 末的 ARR 10亿$除以它 2022 年 Q2 末 7000+的客户数量,我们可以粗略估算 Databricks 的 ACV(平均合同价值)约为 14.3 万美元,相比 Snowflake 的 30.1 万$ (2023.Q3 估算),仍有提升空间。

04 三类对手的夹击

2012 年,前 Oracle 架构师创立的 Snowflake 是 Databricks 不可忽视的对手。最初,Snowflake 将自己定位为提供数仓和分析计算工作负载的云数据平台,主要面向业务分析师和数据工程师等用户。同期,Databricks 则一直受数据科学家和机器学习工程师的青睐。

但现在二者的界限在模糊,比如 Snowflak 发布了 Snowpark for Data Science、事务数据库以及 Python 支持功能,希望以此吸引数据科学家。而 Databricks 则推出了 Databricks SQL、Delta Lake 功能和 Unity 目录等产品,以满足数据存储和注重安全的客户。

从模式来看,Snowflake 是闭源生态,而 Databricks 是开源的。Databricks 的主要产品线都可以免费使用,当客户需要获得更高级的功能和支持时,可以选择 Databricks 的企业产品。Snowflake 提供现成的解决方案,使公司能够快速开展基本分析,而 Databricks 提供更好的定制和配置,让客户能够完全控制他们的设置。

2022 年底,Snowflake 的年收入 21 亿$,而 Databricks 预计年收入 14亿$。预计两家的竞争会愈发激烈。

第二类竞争对手是云厂商。Databricks 与云厂商的专有产品存在竞争。比如在大数据处理方面,AWS 有 Amazon EMR,Azure 有 Azure HDInsight,GCP 有 Dataproc。在业务分析解决方案层面, Amazon QuickSight、Azure的 Power BI Embedded 以及 GCP 的Looker 等,都与 Databricks 存在竞争。

最后,Databricks 与特定的数据管理和科学领域解决方案公司也存在竞争。比如 Databricks 的调度程序类似 Apache Airflow,MLflow 产品与 DataRobot 和 Alteryx 竞争。

05 收入持续增长,资本认可的超级独角兽

Databricks 本身是开源软件,其会通过提供附加功能收费。Databricks 会为企业提供其开源软件的完全托管版本,以及其他辅助工具,如用于编写查询的 SaaS 工具和用于连接数据源的连接器等。

付费模式方面,Databricks 根据客户每秒消耗的计算资源量收费。为此,其使用了一种自己独创的 DBU 作为其标准化单位,工作负载消耗的 DBU 数量取决于多个指标,包括使用的计算资源、处理的数据量、区域、所处的分级定价层以及正在使用的服务类型等。

此外,为了吸引用户,与其他开源公司类似,Databricks 也为用户提供了 14 天免费试用期。

来源:Databricks

财务方面,Databricks 也实现了跨越式的增长。2019.Q3 结束时其 ARR 为 2 亿$,2020 全年收入 4.25 亿$,2021 年 ARR 超 8 亿$。截至 2022 年 08 月,Databricks 的 ARR 已经超 10 亿$,并且年增长超过 70%。

截至 2021 年 08 月 Databricks 的估值 380 亿$,总共在资本市场筹集了 35 亿$,其投资者也星光璀璨,包括 A16z、Tiger Global、Amazon Web Services、Microsoft、Coatue 等。

当然也有消息透露,2022 年 10 月 Databricks 降低了内部股价,使其估值下调至 310 亿$,比 2021 年同期下降约 7%。但无论如何,Databricks 仍然是一级市场中的超级独角兽。

06 趋势、机遇与风险

随着云存储成本下降和网速提升,企业越来越多地选择将所有数据存储在中央存储库,而不是将不同的数据类型单独存储。这种集中化趋势帮助公司通过实时商业智能和预测分析更好地了解业务运营。同时,数据爆炸式增长也使公司维护多个大型数据存储变得不切实际,从而导致数据湖和数据仓库融合到一个平台中。

ChatGPT 一直是各行业的热点。Databricks 也迎接了这一浪潮,其湖仓一体平台允许数据团队存储和保护数据、生成分析和见解,并推动机器学习工具的开发。此外,Databricks 还提供与 TensorFlow、PyTorch 等流行人工智能框架的集成,使构建和部署机器学习模型变得容易。

Databricks 依靠 AWS、Azure 和 GCP 这类云基础设施供应商来提供服务。回望过去,与微软的合作是 Databricks 的里程碑,这帮助其收入从 2017 年初的不到 100 万$增长到 2018 年的超过 1 亿$。如果与主要云厂商关系发生变化,将影响 Databricks 的服务能力。

综上所述,我们有理由相信虽然面临挑战,但在这个数据扩张以及 AI 兴起的时代,Databricks 为企业提供的单一的数据存储和分析平台是有价值的,其很有机会和能力抓住这一浪潮。

作者简介

郑博,Aka Harbour 哈博。崔牛会非著名牛油,人到中年的 2B 基础架构创业老炮,CnosDB 云原生时序数据库开源社区发起人。

CnosDB简介

CnosDB是一款高性能、高易用性的开源分布式时序数据库,现已正式发布及全部开源。

欢迎关注我们的社区网站:https://www.cnosdb.com

相关文章:

超级独角兽 Databricks 的崛起之路

在数据扩张以及 AI 兴起的时代,数据存储和分析平台拥有巨大价值和能量。 随着互联网数据的爆炸性增长,数据已经成为企业的新型资源,犹如石油般重要。越来越多的企业希望利用各种结构化和非结构化数据来发挥自己的优势。 然而,他…...

python 3.8 + tensorflow 2.4.0 + cuda11.0 的问题

版本匹配 🔗从源代码构建 | TensorFlow 报错:Could not load dynamic library ‘cupti64_110.dll’; dlerror: cupti64_110.dll not found 是因为我电脑中的 cuda 版本以前是 10,现在是 11.4 ,所以需要安装对应版本的 cudatoolk…...

华为杯”研究生数学建模竞赛2021 年中国研究生数学建模竞赛 E 题: 信号干扰下的超宽带(UWB)精确定位问题-参考思路

一、背景 UWB ( Ultra-Wideband )技术也被称之为“超宽带”,又称之为脉冲无线电技术。这是一 种无需任何载波,通过发送纳秒级脉冲而完成数据传输的短距离范围内无线通信技术,并且信 号传输过程中的功耗仅仅有几十 W 。 UWB 因其独有的特点,使其在军事、物联网等各个领…...

Java 中的访问修饰符有什么区别?

Java 中的访问修饰符用于控制类、类的成员变量和方法的访问权限,主要有以下四种: public:公共访问修饰符,可以被任何类访问。public 修饰的类、成员变量和方法可以在任何地方被访问到。 protected:受保护的访问修饰符…...

Go基础篇:接口

目录 前言✨一、什么是接口?二、空接口 interface{}1、eface的定义2、需要注意的问题 三、非空接口1、iface的定义2、itab的定义3、itab缓存 前言✨ 前段时间忙着春招面试,现在也算告一段落,找到一家比较心仪的公司实习,开始慢慢回…...

边缘计算:数字时代的新战场

随着数字化时代的到来,云计算已经成为了各行各业不可或缺的技术支持。但是,由于云计算涉及到数据的传输和存储,对于网络带宽和延迟的要求也非常高,这使得云计算难以满足一些低延迟、高实时性要求的场景。在这种情况下,…...

PBDB Data Service:Fossil occurrences(化石产出记录)

Fossil occurrences(化石产出记录) 描述摘要1. [Single fossil occurrence(单条化石产出记录)](https://blog.csdn.net/whitedrogen/article/details/130519180)2. [List of fossil occurrences(化石产出记录列表&…...

虾皮Shopee商品详情接口(item_get-根据ID取商品详情)代码封装

item_get-根据ID取商品详情接口 通过代码封装该接口可以拿到商品标题,商品价格,商品促销信息,商品优惠价,商品库存,sku属性,商品图片,desc图片,desc描述,sku图片&#xf…...

原生js手动实现一个多级树状菜单效果(高度可过渡变化) + 模拟el-menu组件实现(简单版)

文章目录 学习链接效果图代码要点 简单模拟el-menu实现TestTree.vueMenu.vueSubMenu.vue 学习链接 vue实现折叠展开收缩动画 - 自己的链接 elment-ui/plus不定高度容器收缩折叠动画组件 - 自己的链接 vue的过渡与动画理解 Vue transition 折叠类动画自动获取隐藏层高度以及…...

RK3568平台开发系列讲解(Linux内存篇)Linux内存管理框架

🚀返回专栏总目录 文章目录 一、内核态内存分配二、用户态内存分配三、内存篇章更新哪些内容沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇我们一起将整个内存管理的体系串起来。 对于内存的分配需求,可能来自内核态,也可能来自用户态。 一、内核态内存分配…...

你的编程能力从什么时候开始突飞猛进?

关于编程能力突飞猛进的原因和如何突破自己,以下是我的建议。 在过去的几年中,编程领域发生了很多变化。新的语言和技术不断涌现,使得程序员们需要不断学习和提高。作为一名程序员,编程能力的提高是非常重要的,有助于…...

滨州高企认定条件

认定为高新技术企业必须同时满足以下条件: (一)企业在申请认定时需要注册一年以上。 (二)公司通过自主开发、转让、赠与、并购等方式,获得对其主要产品(服务)在技术上发挥核心支持作用的知识产权所有权。 (三)对企业主要产品(服…...

Azkaban学习——单机版安装与部署

目录 1.解压改名 2.修改装有mysql的虚拟机的my.cnf文件 3.重启装有mysql的虚拟机 4.Datagrip创建azkaban数据库,执行脚本文件 5.修改/opt/soft/azkaban-exec/conf/azkaban.properties文件 6.修改commonprivate.properties 7.传入mysql-connector-java-8.0.29…...

table标签-移动端适配

封装一个组件,该组件需要根据不同设备屏幕宽度自适应调整展示方式。对于 PC 端,以类似 el-table 的形式展示数据,而移动端则以一个类似 item 的形式展示每行数据。 可以先在组件中判断设备类型,如以下示例代码所示: …...

Yolov8改进---注意力机制:DoubleAttention、SKAttention,SENet进阶版本

目录 🏆🏆🏆🏆🏆🏆Yolov8魔术师🏆🏆🏆🏆🏆🏆 1. DoubleAttention 2. SKAttention 3.总结...

【逆向工程核心原理:TLS回调函数】

TLS 代码逆向分析领域中,TLS(Thread Local Storage,线程局部存储)回调函数(Callback Function)常用反调试。TLS回调函数的调用运行要先于EP代码的执行,该特征使它可以作为一种反调试技术的使用…...

“Shell“Awk命令

文章目录 一.Awk二.Awk按行输出文本三.Awk按字段输出文本四.通过管道,双引号调用shell命令五.总结: 一.Awk Awk的工作原理: 逐行读取文本,默认以空格或tab键为分隔符进行分隔,将分隔所得的各个字段保存到内建变量中&a…...

射频放大器的原理和作用(射频放大器和功率放大器的区别)

射频放大器是一种电子电路,用于将输入信号增强到足够高的电平以驱动射频输出负载。其原理和作用如下: 射频放大器的工作原理是利用晶体管的三极管效应,将输入信号放大到足够的电平以驱动输出负载。在射频放大器中,输入信号经过输入…...

揭秘KubeEdge边缘网络项目EdgeMesh:如何打造高速、安全、低延迟的互联网连接

KubeEdge是由百度主导的边缘计算项目,旨在为物联网设备提供一种高效、安全的互联网连接方式。EdgeMesh是KubeEdge的核心组件之一,它是一种基于OpenDaylight的边缘网络协议,能够在物联网设备之间提供高速、可靠的互联网连接。 EdgeMesh的设计目…...

Java设计模式 14-访问者模式

访问者模式 这个模式用的很少,《设计模式》的作者评价为: 大多情况下,你不需要使用访问者模式,但是一旦需要使用它时,那就真的需要使用了 一、测评系统的需求 1)将观众分为男人和女人,对歌手进行测评&…...

【数据结构】线性表之链表

目录 前言一、链表的定义二、链表的分类1. 单向和双向2. 带头和不带头3. 循环和不循环4. 常用(无头单向非循环链表和带头双向循环链表) 三、无头单向非循环链表的接口及实现1. 单链表的接口2. 接口的实现 四、带头双向循环链表接口的及实现1. 双向链表的…...

微服架构基础设施环境平台搭建 -(四)在Kubernetes集群基础上搭建Kubesphere平台

微服架构基础设施环境平台搭建 -(四)在Kubernetes集群基础上搭建Kubesphere平台 通过采用微服相关架构构建一套以KubernetesDocker为自动化运维基础平台,以微服务为服务中心,在此基础之上构建业务中台,并通过Jekins自动…...

Linux开发板安装Python环境

1. 环境介绍 硬件:STM32MP157,使用的是野火出的开发板。 软件:Debian ARM 架构制作的 Linux 发行版,版本信息如下: Linux发行版本:Debian GNU/Linux 10 内核版本:4.19.94 2. Python 简介…...

ChatGPT 聊天接口API 使用

一、准备工作 1.准备 OPENAI_ACCESS_TOKEN 2.准备好PostMan 软件 二、测试交流Demo 本次使用POSTMAN工具进行快速测试,旨在通过ChatGPT API实现有效的上下文流。在测试过程中,我们发现了三个问题:    1.如果您想要进行具有上下文的交流&…...

软件测试月薪2万,需要技术达到什么水平?

最近跟朋友在一起聚会的时候,提了一个问题,说一个软件测试工程师如何能月薪达到二万,技术水平需要达到什么程度?人回答说这只能是大企业或者互联网企业工程师才能拿到。也许是的,小公司或者非互联网企业拿二万的不太可…...

从入门到进阶,Vue框架让Web开发更简单高效

Vue是现代前端开发中最为流行的JavaScript框架之一,它具有轻量、易学、易用的特点,能够帮助开发者构建出高效、交互丰富的Web应用。在本文中,我们将会深入探索Vue框架的各个方面,包括Vue组件、Vue路由、Vue状态管理等,…...

怎么缩小照片的kb,压缩照片kb的几种方法

缩小照片的KB大小是我们日常工作生活中遇到的常见问题。虽然听起来十分专业,但其实很简单。照片的KB是指照片文件的大小,通常以“KB”为单位表示。缩小照片的KB就是减小照片文件的大小,以便占用更少的磁盘空间或更快地上传和下载照片。在实际…...

2. 注解Annotation

Java注解(Annotation)又称为Java标注,是JDK5.0引入的一种注释机制.注解是原数据的一种形式,提供有关于程序但不属于程序本身的数据.注解对他们注解的代码的操作没有直接的影响. 声明方式 注解的声明方式使用interface关键字,举例说明: public interface MyInject{ }元注解 Ta…...

【Leetcode -495.提莫攻击 -496.下一个更大的元素Ⅰ】

Leetcode Leetcode -495.提莫攻击Leetcode - 496.下一个更大的元素Ⅰ Leetcode -495.提莫攻击 题目:在《英雄联盟》的世界中,有一个叫 “提莫” 的英雄。他的攻击可以让敌方英雄艾希(编者注:寒冰射手)进入中毒状态。 …...

肝一肝设计模式【八】-- 外观模式

系列文章目录 肝一肝设计模式【一】-- 单例模式 传送门 肝一肝设计模式【二】-- 工厂模式 传送门 肝一肝设计模式【三】-- 原型模式 传送门 肝一肝设计模式【四】-- 建造者模式 传送门 肝一肝设计模式【五】-- 适配器模式 传送门 肝一肝设计模式【六】-- 装饰器模式 传送门 肝…...