用加持了大模型的 Byzer-Notebook 做数据分析是什么体验
Byzer-Notebook 是专门为 SQL 而研发的一款 Web Notebook。他的第一公民是 SQL,而 Jupyter 则是是以 Python 为第一公民的。
随着 Byzer 引擎对大模型能力的支持日渐完善, Byzer-Notebook 也在不自觉中变得更加强大。我和小伙伴在聊天的过程中才发现他已经具备了如此强的能力。
为了节省大家时间,我们这里把文后涉及到的部分,提前做个总结,帮助您判断是不是要继续阅读下去。
在接下来的内容,我们描述如何在 Byzer-Notebook 中:
使用SQL加载市面主流数据源
对加载的数据进行混算
对SQL不熟悉,可以在Notebook中自己启动一个大模型,然后作为copilot使用
在 SQL 中可以调用大模型对数据做分析
对最后的数据集使用 YAML 描述来做可视化生成
案例背景
今天假设我们有两个 csv 文件,我们需要加载这两个文件,并且做join,拼成一张完整的表,最后简单做个过滤,绘制一个可视化动图,并且使用大模型解读这个数据。
整个过程我们全部会使用 SQL 在 Byzer Notebook中完成。
Byzer Notebook 拥有业界一流的代码提示能力,所以你不要担心里面涉及到一些 SQL 扩展语法。
实现流程
首先是加载 csv 文件, Byzer 支持类似的语法加载市面上几乎所有主流数据源,诸如对象存储,MySQL/Oracle/DB2 等各种关系型数据库数据库,Hadoop文件系统等等。
代码如下,执行完后可以点击运行查看csv文件数据:
按相同方式加载第二个文件:
现在,我们想把两个表按 ID字段拼接成一个表,但是我对 SQL 不是很熟悉,不怕,我们在 Byzer Notebook中几乎可以部署所有主流开源模型和商业Saas模型。我最近用 Llama比较多,那我就启动一个 Llama 30B 的模型吧。只需要一条命令就可以完成这件事:
指定下用多少个 GPU, 模型路径在哪即可。为了让大模型助手给我们生成靠谱点的SQL ,我们需要两张表的schema, 获取schema 在 Byzer 中很简单,用 !desc 命令即可:
现在,我们可以问下我们刚才启动的大模型,你可以这么问:
然后他会这样回复你:
把这条SQL语句拷贝出来,然后加一个 as 表名,执行下:
可以看到,数据拼接没啥问题。
现在我们希望使用大模型对这个数据集进行分析,第一步是要把数据集转化成json格式的文本,然后再给到大模型,假设我也不太会,但是我知道第一步是要把每一条记录里多个字段变成一个字段,所以我这么问大模型:
很棒,接着我再追问一句,是不是可以几万条记录合并成一条呀,我知道有个 collect_list 方法,但是我知道具体怎么用,那么可以继续追问:
简单改造实际执行下:
确实是work的。
恩,那现在开始对这个json字符串做个解读吧:
这里有一些新函数,具体用法要参考下 Byzer 文档了,后续我们提供一个知道 Byzer 语言的大模型(经过我们微调),或者我们会知识库的方式提供对 Byzer 特有函数的一些解答。现在我们假设你辛苦参考文档写下了上面的那段SQL代码。
最后模型给我的回答出人意料,尼玛,丢了一个python 代码让我自己统计:
好吧,算你知道自己是大模型,计算能力不咋地,Byzer Notebook 不但支持 Python解释器,而且还强大的一塌糊涂,所以我们直接在 Byzer Notebook 验证下大模型给的这段代码吧:
这是最后的执行结果:
给的代码实际上有丢丢错误,不过难不倒我,调试通过了。
如果你不做计算,让他给个简单解读,也开始可以的:
每个字段的含义都解读很准确,并且还罗列了自然灾害的类型等等。还是很不错的。
好了,大模型解读完毕,该做可视化了。先对数据简单做个过滤:
然后做可视化:
Byzer 使用 YAML 格式描述可视化。还是很简单的,大家看着文档复制黏贴就可以。
最后结果如下:
该图会根据时间自动变化,还是很酷的吧。
总结
可以看到, Byzer Notebook可以使用大模型做copilot 辅助我们写SQL ,也可以直接在 SQL 中使用大模型对数据进行分析处理。实际上 Byzer 的能力远不止如此,你还可以使用SQL 对大模型做预训练,微调,我们也提供了对SQL极大的工程增强,诸如模块化,模板,条件分支等特性的支持。
欢迎大家进入 Byzer SQL 的世界。
另外今天讲的案例,单纯的可视化版本我们可以看看我们早先的视频版讲解:
相关文章:
用加持了大模型的 Byzer-Notebook 做数据分析是什么体验
Byzer-Notebook 是专门为 SQL 而研发的一款 Web Notebook。他的第一公民是 SQL,而 Jupyter 则是是以 Python 为第一公民的。 随着 Byzer 引擎对大模型能力的支持日渐完善, Byzer-Notebook 也在不自觉中变得更加强大。我和小伙伴在聊天的过程中才发现他已…...
学习设计模式之观察者模式,但是宝可梦
前言 作者在准备秋招中,学习设计模式,做点小笔记,用宝可梦为场景举例,有错误欢迎指出。 观察者模式 观察者模式定义了一种一对多的依赖关系,一个对象的状态改变,其他所有依赖者都会接收相应的通知。 所…...
课程项目设计--spring security--用户管理功能--宿舍管理系统--springboot后端
写在前面: 还要实习,每次时间好少呀,进度会比较慢一点 本文主要实现是用户管理相关功能。 前文项目建立 文章目录 验证码功能验证码配置验证码生成工具类添加依赖功能测试编写controller接口启动项目 security配置拦截器配置验证码拦截器 …...
学习设计模式之装饰器模式,但是宝可梦
装饰模式 为了不改变组件的结构,动态地扩展其功能。 通常,扩展功能通过子类进行,但是继承的方式具有静态特征,耦合度高。 意图:动态地给对象添加额外的功能 主要解决:继承方式是静态特征,扩…...
【AWS】创建IAM用户;无法登录IAM用户怎么办?错误提示:您的身份验证信息错误,请重试(已解决)
目录 0.背景问题分析 1.解决步骤 0.背景问题分析 windows 11 ,64位 我的问题情景: 首先我创建了aws的账户,并且可以用ROOT用户登录,但是在登录时选择IAM用户,输入ROOT的名字和密码,就会提示【您的身份验证…...
微服务基础知识
文章目录 微服务基础知识一、系统架构的演变1、单体应用架构2、垂直应用架构3、分布式SOA架构(1)什么是SOA(2)SOA架构 4、微服务架构5、SOA和微服务的关系(1)SOA(2)微服务架构 二、分…...
倒残差结构
倒残差结构: 倒残差结构是MobileNetV2中引入的一种设计,用于增强网络的表达能力和特征提取能力,同时保持轻量级的特点。它的核心思想是在每个瓶颈块中,先使用一个扩张卷积(Dilated Convolution)&#x…...
Docker的基本使用
Docker 概念 Docker架构 docker分为客户端,Docker服务端,仓库 客户端 Docker 是一个客户端-服务器(C/S)架构程序。Docker 客户端只需要向 Docker 服务端发起请求,服务端将完成所有的工作并返回相应结果。 Docker …...
paddlenlp安装踩坑记录
错误1 ModuleNotFoundError: No module named paddle.metric我下载paddlepaddle-gpu2.5.0.post117解决了,最开始下载的2.5.1报错,post后面的117是我的cuda版本,不要写你对应的版本号 python3 -m pip install paddlepaddle-gpu2.5.0.post117…...
微服务流程引擎:简单又灵活,实现流程全生命周期管理!
伴随着日益激烈的市场竞争,传统的办公操作已经无法满足发展需要了。如果采用微服务流程引擎加油助力,就可以帮助企业更好地管理数据资源,高效做好各种表单制作,实现高效率办公。流辰信息以市场为导向,用心钻研低代码技…...
Qt表格数据处理
概述 在Qt表格数据处理中,涉及到如下几个具体的类: QAbstractItemModel:这是一个抽象基类,定义了模型(Model)的接口规范。所有的模型类都应该派生自QAbstractItemModel,并实现它的纯虚函数&…...
EasyPOI 实战总结
EasyPOI实战总结 简介 easypoi功能如同名字easy,主打的功能就是容易,让一个没见接触过poi的人员 就可以方便的写出Excel导出,Excel模板导出,Excel导入,Word模板导出,通过简单的注解和模板 语言(熟悉的表达式语法),完成以前复杂的写法 使用EasyPOI 环境搭建 # 1.引入相关依…...
【LeetCode-困难题】42. 接雨水
题目 题解一:暴力双重for循环(以行计算水量) 1.先找出最高的柱子有多高(max 3) 2.然后第一个for为行数(1,2,3) 3.第二个for计算每一行的雨水量(关键在于去除…...
npm install 安装依赖,报错 Host key verification failed
设置 git 的身份和邮箱 git config --global user.name "你的名字" > 用户名 git config --global user.email “你的邮箱" > 邮箱进入 > 用户 > [你的用户名] > .ssh文件夹下,删除 known_hosts 文件即可 进入之后有可能会看到 known_hosts…...
SOLIDWORKS焊件是什么?
SOLIDWORKS是一款广泛应用于机械设计领域的三维计算机辅助设计软件。SOLIDWORKS提供了强大的焊件功能,可以帮助工程师们以更高的效率设计焊接件。本文将介绍SOLIDWORKS焊件的概念、特点以及使用方法,以期帮助读者更好地理解和应用这一关键技术。 SOLIDWO…...
2023国赛数学建模D题思路模型代码 高教社杯
本次比赛我们将会全程更新思路模型及代码,大家查看文末名片获取 之前国赛相关的资料和助攻可以查看 2022数学建模国赛C题思路分析_2022国赛c题matlab_UST数模社_的博客-CSDN博客 2022国赛数学建模A题B题C题D题资料思路汇总 高教社杯_2022国赛c题matlab_UST数模社…...
git协议实现管理(三个步骤)
GitHub官网访问: https://github.com/dashboard 初次使用git的用户要使用git协议大概需要三个步骤: 一、生成密钥对 二、设置远程仓库(本文以github为例)上的公钥 三、把git的remote url远程仓库URL可访问路径修改为git协议(以上两个步骤初次设置过以后,…...
“深入理解JVM:探索Java虚拟机的内部机制“
标题:深入理解JVM:探索Java虚拟机的内部机制 摘要: Java虚拟机(Java Virtual Machine,JVM)是Java语言的核心,负责将Java源代码编译成可执行的字节码并运行。本篇博客将深入探索JVM的内部机制&a…...
Unity——各种特效的基本使用方法
特效是游戏制作不可或缺的一环,作为游戏开发者最重要的工作就是将特效添加到游戏中,并在合适的时机、合适的位置将特效播放出来,同时还要注意特效的管理和销毁。 某些种类的特效,如动效、贴花,还要编写脚本代码以实现…...
smiley-http-proxy-servlet 实现springboot 反向代理,结合项目鉴权,安全的引入第三方项目服务
项目中反向代理 集成第三方的服务接口或web监控界面,并实现与自身项目相结合的鉴权方法 依赖 smiley-http-proxy-servlet GitHub链接 2.0 版开始,代理切换到jakarta servlet-api<!--HTTP 代理 Servlet--><dependency><groupId>org.mit…...
(vue)多级表头且转为百分比显示
(vue)多级表头且转为百分比显示 <el-table-column align"center" label"近三个月数据情况"><el-table-column align"center" prop"amount" :label"tableLast[0]"><template slot-scope"{ row }"&g…...
Linux下C++开发
Linux下C开发 Linux 系统介绍 简介 Linux属于多用户多任务操作系统,而Windows属于单用户多任务操作系统Linux一切皆文件目录结构 bin 存储二进制可执行文件dev 存放的是外接设备,例如磁盘,光盘等。在其中的外接设备是不能直接被使用的&…...
GPT-3.5——从 人工智障 到 大人工智障
有人说,GPT是从人工智障到人工智能的蜕变,但是。。。 我认为,GPT是从 人工智障 到 大人工智障 的退化。。。 从 人工智障 到 大人工智障 GPT-3.5学术介绍No.1---- 西红柿炒钢丝球基本信息详细制作方法材料步骤 幕后花絮 No.2---- 顶尖数学家…...
创建型(四) - 原型模式
一、概念 原型模式(Prototype Pattern):利用对已有对象(原型)进行复制(或者叫拷贝)的方式来创建新对象,以达到节省创建时间的目的。 使用场景:如果对象的创建成本比较大…...
ABAP 定义复杂的数据结构
最近有个需求是实现ABAP数据类型与JASON类型的转换。想要创建个ABAP的数据类型来接JASON类型是个挺麻烦的事。例如下面这个JASON数据,是个很简单的数据结构。但对ABAP来说有4层了,就有点复杂了。 不过ABAP的数据类型也是支持直接定义数据结构的嵌套的。如…...
HCIP第四节-----------------------------BGP
一、BGP基础 1、BGP得概述 (1)、AS OSPF、IS-IS等IGP路由协议在组织机构网络内部广泛应用,随着网络规模扩大,网络中路由数量不断增长,IGP已无法管理大规模网络,AS的概念由此诞生。 AS指的是在同一个组织…...
Temu闯关日韩受挫?跨境电商卖家如何打磨好营销链路
海外版拼多多 Temu 先后在日本和韩国上线,然而效果不似预期,日韩市场对这套“低价补贴”策略并不买账。作为一个尚未被日韩消费者熟悉的网站,其价格之便宜无法让消费者信任。除此之外更大的问题是,在日本卷不过线下零售与百元店&a…...
console的几个常用用法
console.log() 其一、主要表示:向 Web 控制台输出一条消息; 其二、而具体是什么信息就以传递的实参为准,然后就是在控制台就能显示自己传递参数的结果; console.log([1,3,5,7]) // 输出 [1, 3, 5, 7] console.log({}) // 输出 {} conso…...
服务器数据恢复-HP EVA存储VDISK被删除的数据恢复案例
服务器数据恢复环境: 某单位有一台HP EVA存储,连接2组扩展柜,扩展柜中有12块FATA磁盘和10块FC磁盘,不确定数量的LUN,主机安装WINDOWS SERVER操作系统,存储设备用来存放该单位的重要资料。 服务器故障初检&…...
(搜索) 剑指 Offer 13. 机器人的运动范围 ——【Leetcode每日一题】
❓剑指 Offer 13. 机器人的运动范围 难度:中等 地上有一个 m 行 n 列的方格,从坐标 [0,0] 到坐标 [m-1,n-1] 。一个机器人从坐标 [0, 0] 的格子开始移动,它每次可以向左、右、上、下移动一格(不能移动到方格外)&…...
汽车网站制作/今日头条新闻最全新消息
在上一篇文章中,我们分析了Android系统进程间通信机制Binder中的Server在启动过程使用Service Manager的addService接口把自己添加到Service Manager守护过程中接受管理。在这一篇文章中,我们将深入到Binder驱动程序源代码去分析Client是如何通过Service…...
淘宝做网站/希爱力双效片
第1章:智能音箱行业界定及发展环境剖析1.1 智能音箱行业界定及统计说明 1.1.1 音箱的界定及分类 (1)音箱的定义 (2)音箱主要分类 1.1.2 智能音箱的界定与分类 (1)产品界定 (2&a…...
品牌网站设计公司哪家好/seo的流程是怎么样的
你有什么技能比大多人(超过90%以上)更好? 现在可能是视频后期制作的能力,但我希望以后会是编程的能力,待人接物、为人处世的能力。 针对这个技能的获取你有什么成功的经验? 点亮视频后期这个技能可能和高中…...
可信网站图片logo安装/国外产品推广平台
本文转载:http://www.cnblogs.com/gis-crazy/archive/2013/03/17/2964132.html 查看公司项目代码时,存在这样一个问题:winform界面上有很多信息填写,提交后台服务器更新,但数据的合法验证及值的转换却不太敢恭维&#…...
网站开发广告宣传语/上海百度推广电话
在画流程图时我们可以考虑使用模板进行套用使用,当然这是对新手来说开始的时候不熟悉绘制,我们可以考虑这样使用,那模板要在哪里寻找呢?下面是在迅捷画图中分享的流程图模板以及模板简介,希望可以帮助到大家。 财务…...
wordpress文章网址采集器/百度高级搜索引擎入口
基本情况 先说一下个人基本情况,计算机科学与技术专业。主要学的Android开发,所以投的岗位都是Android开发工程师。投了知乎,内推了阿里蘑菇街腾讯百度网易。腾讯百度都没有收到面试,知乎Skype面试,蘑菇街阿里电话面试…...