大模型在数据分析场景下的能力评测|进阶篇
做数据分析,什么大模型比较合适?
如何调优大模型,来更好地做数据计算和洞察分析?
如何降低整体成本,同时保障分析体验?10月25日,我们发布了数据分析场景下的大模型能力评测框架(点击查看:Kyligence LLM Benchmark for Data & Analytics)
该评测发出后,我们陆续收到多家客户、大模型厂商等对于评测大模型的询问。在过去的近一个月,我们又陆续新增了一批大模型作为评测对象,如 GPT-4、文心一言 Ernie-Bot-turbo、通义千问 Qwen-14B、Minimax 等,初步得出以下结论,并在下文第 4 章节给出相应的优化建议。
- GPT-4 综合成绩最强,国产大模型表现已经基本不弱于 GPT-3.5
- 不同大模型在“数据计算”方面的差异较大,且参数越高,表现越好
- 多数大模型在“数据洞察”方面的表现接近,一些低参数大模型的表现依然强劲,这意味着可以通过“大数据+大模型”结合来实现低成本的 AI 数据分析场景
图 1 大模型在数据分析场景下的能力评测结果,2023-11
#01 评测坐标系
从普遍意义上来讲,“数据分析”的定义为:数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。我们从这个定义出发,把数据分析拆解为如下两个关键过程:数据计算和数据洞察。
1.1 数据计算
数据计算过程指在用户给定分析指令的前提下,由大模型进行指令解读,并识别用户的分析意图、匹配业务指标,并从数据库或其他数据源获取指标数值的过程。
值得说明的是,从外部获取数据一般有两种方式:一种是传统的 Text-to-SQL 即大模型生成 SQL 语句访问原始数据库,并完成取数、计算等工作,另一种是大模型生成 API 请求来访问指标平台,以直接获取指标结果。我们在 Kyligence Copilot 使用第二种方式,因为在这种方式下,所有的指标结果是由指标平台提供的,而不是大模型计算,从而确保指标数据准确性,避免“幻觉”的出现,同时保障企业内的指标口径一致性和治理合规。
对于大模型而言,这个过程重点考察两个方面:一是对业务问题的理解和意图识别能力,二是生成代码以访问外部系统的能力。
1.2 数据洞察
数据洞察过程指在用户拿到指标数据之后,开展一系列分析、洞察动作,并获得洞察结论。在传统数据分析的模式下,很多数据分析师会以 Excel 或 CSV 格式的文件形式获取指标数据,并由此开始进行可视化作图、归因分析等操作。
对于大模型而言,这个过程重点考察两个方面:一是以专业的语言表达和润色能力来解读所发现的洞察信息,二是通过可视化、文字总结等形式对统计数据进行可视化展现,向用户证明和支撑自己所发现的洞察。
#02 评测方案
在上个月发布的《大模型在数据分析场景下的能力评测》中,我们提供了 7 个评测维度。在本文中,我们将从数据计算、数据洞察这两个方面对这 7 个评分维度进行归类,并通过这 7 个维度的评分来反映各个大模型在这两方面的能力表现。
关于这 7 个维度的介绍,本文不再重复介绍,如需了解详情,请查阅《大模型在数据分析场景下的能力评测》文章。
图 2 评测坐标系的 7 个评分维度
在本轮评测工作中,我们新增了以下大模型进行评测:Azure OpenAI GPT-4、通义千问 Qwen-14B、文心一言 Ernie-Bot-turbo、MiniMax 等。另外,由于测试数据集更新迭代,我们也对上一轮评测的大模型进行重跑,包括 Azure OpenAI GPT-3.5-Turbo、智谱 AI 的 ChatGLM-Pro 和 ChatGLM-Std、百川智能 Baichuan2-53B 和 Baichuan2-13B、开源 Falcon-40B 和 LLaMA2-13B 等大模型。
#03 评测结果
根据《大模型在数据分析场景下的能力评测》提到的 7 个评分维度,我们对上述所有的受测大模型进行评测,并整理分数如下:
图 3 大模型在数据分析场景下的能力评分
我们根据图 2 所示的分类关系,把这 7 个评分维度投射到由数据计算、数据洞察两个角度组成的评测坐标系中,可以很直观的看到不同大模型的能力分布情况(X/Y 坐标代表该分类各维度评分的平均值,气泡大小代表综合能力评分):
图 4 大模型在数据分析场景下的能力评测结果,2023-11根据以上测试结果,我们初步得出以下结论:
- GPT-4 综合成绩最强,国产大模型表现已经基本不弱于 GPT-3.5
- 从数据计算的角度看,不同大模型表现差异很大;参数越高,表现越好
- 从数据洞察的角度看,多数大模型表现接近,一些低参数大模型的表现依然强劲,这意味着可以通过“大数据+大模型”结合来实现低成本的 AI 数据分析场景
#04 结果分析和优化建议
4.1 从“数据计算”角度
首先,我们从数据计算方面对评测结果进行分析。如结论中提到,不同大模型表现差异很大,尤其是参数较高时表现较好。但参数越高的模型往往需要较高的算力成本,在企业实际落地时往往需要综合考虑收益和成本比例(ROI)。
图 5 优化大模型在“数据计算”方面的表现
因数据计算过程主要是自然语言理解以及代码生成过程,是比较通用的大模型能力,对专业的数据分析能力涉及不多。如图 5 所示,如希望在优化模型表现的同时兼顾算力成本,可以通过集成第三方数据服务平台的方式,如与指标平台实现更紧密的集成。即企业通过指标平台定义并管理所有业务指标的名称、计算逻辑等,并通过 API 方式供应用端获取指标定义和指标数据。在这种方式下,大模型进行指标匹配、代码生成等的难度将降低,有助于保障整体准确度。除此之外,所有的指标数据将由指标平台计算得出,而不是大模型自行计算,这也将在数据计算准确度和指标口径统一管理方面带来显著增强。
4.2 从“数据洞察”角度
其次,我们从数据洞察角度对评测结果进行分析。如结论中提到,多数大模型表现接近,个别模型表现欠佳。因为数据洞察过程是分析数据并产生结论的核心过程,有较强的专业性。我们猜测这和模型训练时使用的语料有关,因为数据洞察场景的 Prompt 输入和输出要求较为专业,且和相应的业务分析场景有关,而大模型训练时的语料库主要来自互联网,和数据分析场景的语料类型可能有较大差异。
图 6 优化大模型在“数据洞察”方面的表现
如图 6 所示,如希望提升模型在数据洞察方面的表现,可以通过增加更多数据分析场景的语料输入对模型进行微调,从而优化大模型在该场景下的效果。
#05 已知限制和情况说明
- 本次评测数据集基于 Kyligence Copilot 使用场景总结,可能不适用于企业所有数据分析场景
- 本次评测基于各大模型服务的默认配置,未进行任何调参;值得说明的一点是,对大模型服务进行调优可能进一步优化评测结果
- 本次评测针对不同大模型所使用的算力情况如下:
- GPT-4 / GPT-3.5-Turbo / ChatGLM / Baichuan2-53B / MiniMax / 文心一言均基于厂商提供的 SaaS 服务,算力资源不详
- Falcon-40B / Baichuan2-13B / LLaMa2-13B / 通义千问 Qwen-14B 是基于对应的开源模型在实验室私有化部署了本地服务,算力为 4 块 NVIDIA RTX 4090 24GB 显卡
- 因算力有限等因素,我们尚未对 LLaMa2-70B 完成评测;同时,我们期待在开源大模型有更好中文支持的情况下再次进行评测
#06 结语
在本轮评测中,我们从数据计算、数据洞察两个方面对大模型评测结果进行了归类,并提出不同方向的优化建议。如果您正在对大模型进行技术选型,或正在探索大模型在数据分析场景的应用落地与优化方案,欢迎与我们联系沟通。
11月21日,Kyligence 将举办线上数智论坛暨产品发布会,我们特邀了来自德勤、智谱 AI、百川智能、阿斯利康等嘉宾分享大模型 + 大数据的最新探索与实践,届时我们将发布 AI 数智助理 Kyligence Copilot 支持国产化大模型以及智能一站式指标平台的企业级能力与实践。欢迎大家点击「链接」查看完整议程并报名参会👇
关于 Kyligence
跬智信息(Kyligence)由 Apache Kylin 创始团队于 2016 年创办,是领先的大数据分析和指标平台供应商,提供企业级 OLAP(多维分析)产品 Kyligence Enterprise 和一站式指标平台 Kyligence Zen,为用户提供企业级的经营分析能力、决策支持系统及各种基于数据驱动的行业解决方案。
Kyligence 已服务中国、美国、欧洲及亚太的多个银行、证券、保险、制造、零售、医疗等行业客户,包括建设银行、平安银行、浦发银行、北京银行、宁波银行、太平洋保险、中国银联、上汽、长安汽车、星巴克、安踏、李宁、阿斯利康、UBS、MetLife 等全球知名企业,并和微软、亚马逊云科技、华为、安永、德勤等达成全球合作伙伴关系。Kyligence 获得来自红点、宽带资本、顺为资本、斯道资本、Coatue、浦银国际、中金资本、歌斐资产、国方资本等机构多次投资。
相关文章:

大模型在数据分析场景下的能力评测|进阶篇
做数据分析,什么大模型比较合适? 如何调优大模型,来更好地做数据计算和洞察分析? 如何降低整体成本,同时保障分析体验?10月25日,我们发布了数据分析场景下的大模型能力评测框架(点击…...

服务注册发现 springcloud netflix eureka
文章目录 前言角色(三个) 工程说明基础运行环境工程目录说明启动顺序(建议):运行效果注册与发现中心服务消费者: 代码说明服务注册中心(Register Service)服务提供者(Pro…...

Spring cloud负载均衡@LoadBalanced LoadBalancerClient
LoadBalance vs Ribbon 由于Spring cloud2020之后移除了Ribbon,直接使用Spring Cloud LoadBalancer作为客户端负载均衡组件,我们讨论Spring负载均衡以Spring Cloud2020之后版本为主,学习Spring Cloud LoadBalance,暂不讨论Ribbon…...

6.运行mysql容器-理解容器数据卷
运行mysql容器-理解容器数据卷 1.什么是容器数据卷2.如何使用容器数据卷2.1 数据卷挂载命令2.2 容器数据卷的继承2.3 数据卷的读写权限2.4 容器数据卷的小实验(加深理解)2.4.1 启动挂载数据卷的centos容器2.4.2 启动后,在宿主机的data目录下会…...

golang学习笔记——查找质数
查找质数 编写一个程序来查找小于 20 的所有质数。 质数是大于 1 的任意数字,只能被它自己和 1 整除。 “整除”表示经过除法运算后没有余数。 与大多数编程语言一样,Go 还提供了一种方法来检查除法运算是否产生余数。 我们可以使用模数 %(百…...

C++ 基础二
文章目录 四、流程控制语句4.1 选择结构4.1.1 if语句 4.1.2 三目运算符4.1.3 switch语句注意事项 4.1.4 if和switch的区别【CHAT】4.2 循环结构4.2.1 while循环语句4.2.2 do...while循环语句 4.2.3 for循环语句九九乘法表 4.3 跳转语句4.3.1 break语句4.3.2 continue语句4.3.3 …...

鼎盛合 | 宠物智能投食机方案设计开发
养宠物是一件治愈并解压的事情,与动物的相处中能够释放压力,并在与宠物的互动中小可爱们往往能带给你一种治愈的力量,所以养宠物成为了人们尤为热衷的事情。我们生活中随处可见主人与宠物相处的温馨画面,但养宠物也有些问题在困扰…...

ERR_PNPM_INVALID_WORKSPACE_CONFIGURATION packages field missing or empty
vue执行 pnpm install命令时,报 ERR_PNPM_INVALID_WORKSPACE_CONFIGURATION packages field missing or empty错,在网上查询了很久,也没有传出来结果,最后发现是pnpm的版本不对引起的。 我先执行的是npm install -g pnpm&…...

ubuntu 23.04从源码编译安装rocm运行tensorflow-rocm
因为ubuntu22.04的RDP不支持声音转发,所以下载了ubuntu23.04.但官方的rocm二进制包最高只支持ubuntu22.04,不支持ubuntu 23.04,只能自己从源码编译虽然有网友告诉我可以用docker运行rocm。但是我已经研究了好几天,沉没成本太多&am…...

echarts 图表文字大小自适应 字体大小自适应
将文字大小自适应方法挂载到全局 //main.js Vue.prototype.fontSize function(res) {// 获取视口宽度const clientWidth window.innerWidth ||document.documentElement.clientWidth ||document.body.clientWidth;if (!clientWidth) return; // 如果获取不到视口宽度…...

【项目】云备份系统基础功能实现
目录 一.项目介绍1.云备份认识2.服务端程序负责功能与功能模块划分3.客户端程序负责功能与功能模块划分4.开发环境 二.环境搭建1.gcc升级7.3版本2.安装jsoncpp库3.下载bundle数据压缩库4.下载httplib库 三.第三方库认识1.json(1)json认识(2)jsoncpp认识(3)json实现序列化(4)jso…...

【Shell脚本13】Shell 文件包含
Shell 文件包含 和其他语言一样,Shell 也可以包含外部脚本。这样可以很方便的封装一些公用的代码作为一个独立的文件。 Shell 文件包含的语法格式如下: . filename # 注意点号(.)和文件名中间有一空格或source filename实例 创建两个 shell 脚本文件…...

2023.11.15 关于 Spring Boot 配置文件
目录 引言 Spring Boot 配置文件 properties 配置文件说明 基本语法 读取配置文件 优点 缺点 yml 配置文件说明 基本语法 读取配置文件 yml 配置不同数据数据类型及 null 字符串 加单双引号的区别 yml 配置 列表(List) 和 映射(…...

2023年第九届数维杯国际大学生数学建模挑战赛A题
2023年第九届数维杯国际大学生数学建模挑战赛正在火热进行,小云学长又在第一时间给大家带来最全最完整的思路代码解析!!! A题思路解析如下: 完整版解题过程及代码,稍后继续给大家分享~ 更多题目完整解析点…...

IDEA写mybatis程序,java.io.IOException:Could not find resource mybatis-config.xml
找不到mybatis-config.xml 尝试maven idea:module,不是模块构造问题 尝试检验pom.xml,在编译模块添加了解析resources内容依旧不行 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.or…...

1软件管理
2.1软件管理 一、Linux软件包管理机制 红帽系操作系统软件管理分类 yum rpm source bin 二、Rpm工具管理RPM软件包 1、认识RPM软件包 rpm软件包名称 软件名称 版本号(主版本、次版本、修订号) 操作系统 cpu平台 操作系统:el6 el5 fedora suse debin ubuntu cpu平台:i386 …...

flutter 绘制右上角圆角三角形标签
绘制: import package:jade/utils/JadeColors.dart; import package:flutter/material.dart; import dart:math as math;class LabelTopRightYellow extends StatefulWidget {final String labelTitle; // 只能两个字的(文字偏移量没有根据文字长度改变…...

C/C++输出整数部分 2021年12月电子学会青少年软件编程(C/C++)等级考试一级真题答案解析
目录 C/C输出整数部分 一、题目要求 1、编程实现 2、输入输出 二、算法分析 三、程序编写 四、程序说明 五、运行结果 六、考点分析 C/C输出整数部分 2021年12月 C/C编程等级考试一级编程题 一、题目要求 1、编程实现 输入一个双精度浮点数f, 输出其整…...

通过20天预测7天
训练集和测试集如何划分,我如何知道期望和实际的对比。 当你希望通过过去20天的数据来预测未来7天时,你需要进行以下步骤: 1. **数据准备:** 将过去20天的数据整理成合适的格式,其中包括20天的特征和未来7天的目标。…...

【python】均值、中值和高斯滤波详解和示例
本文对均值、中值和高斯滤波进行详解,以帮助大家理解和使用。 这里写目录标题 均值滤波中值滤波高斯滤波核大小为(9,9)核大小为(51,51) 小结 下面是示例中使用的原图。 均值滤波 均值滤波是一种简单的平滑滤波器&…...

基于STM32的循迹小车项目实战
循迹小车是一种能够沿着预定路线行驶的智能小车,通过巡线传感器检测路面的线路,并根据检测结果调整行驶方向。本项目将基于STM32微控制器实现一个简单的循迹小车,通过学习和实践,帮助初学者熟悉STM32的开发流程和掌握循迹小车的实…...

Element UI 偶发性图标乱码问题
1. 问题如图所示 2. 原因:sass版本低 sass: 1.26.8 sass-loader: 8.0.2 3. 解决方法 (1) 提高sass版本 (2) 在vue.config.js中添加配置 css: {loaderOptions: {sass: {sassOptions: {outputStyle: expanded}}}},4. 遇到的问题 升级后打包,报错 Syntax…...

UniApp中的数据存储与获取指南
目录 介绍 数据存储方案 1. 本地存储 2. 数据库存储 3. 网络存储 实战演练 1. 本地存储实例 2. 数据库存储实例 3. 网络存储实例 注意事项与最佳实践 结语 介绍 在移动应用开发中,数据的存储和获取是至关重要的一部分。UniApp作为一款跨平台应用开发框架…...

VUE基础的一些实战总结
目录 创建一个 Vue 应用 步骤 1:安装 Node.js 和 npm 步骤 2:安装 Vue CLI 步骤 3:创建 Vue 项目 步骤 4:启动开发服务器 步骤 5:访问应用程序 步骤 6:编辑 Vue 应用 步骤 7:构建和部署…...

【算法】算法题-20231117
这里写目录标题 一、搜索插入位置(35)二、字符串相乘(43)三、两个相同字符之间的最长子字符串(1624)四、给你一个 有效括号字符串 s,返回该字符串的 s 嵌套深度 一、搜索插入位置(35…...

轮播图(多个一起轮播)
效果图 class MainActivity : Activity(), Runnable {private lateinit var viewPager: ViewPagerprivate lateinit var bannerAdapter: BannerAdapterprivate val images ArrayList<Int>() // 存储图片资源的列表private val handler Handler() // 用于定时发送消息…...

OpenCV中的像素重映射原理及实战分析
引言 映射是个数学术语,指两个元素的集之间元素相互“对应”的关系,为名词。映射,或者射影,在数学及相关的领域经常等同于函数。 基于此,部分映射就相当于部分函数,而完全映射相当于完全函数。 说的简单点…...

如何快速搭建Spring Boot接口调试环境并实现公网访问
文章目录 前言1. 本地环境搭建1.1 环境参数1.2 搭建springboot服务项目 2. 内网穿透2.1 安装配置cpolar内网穿透2.1.1 windows系统2.1.2 linux系统 2.2 创建隧道映射本地端口2.3 测试公网地址 3. 固定公网地址3.1 保留一个二级子域名3.2 配置二级子域名3.2 测试使用固定公网地址…...

简单的用Python实现一下,采集某牙视频,多个视频翻页下载
前言 表弟自从学会了Python,每天一回家就搁那爬视频,不知道的以为是在学习,结果我昨天好奇看了一眼,好家伙,在那爬某牙舞蹈区,太过分了! 为了防止表弟做坏事,我连忙找了个凳子坐下&…...

【手撕数据结构】二分查找(好多细节)
🌈键盘敲烂,年薪30万🌈 目录 普通版本的二分查找: right只负责控制边界(少了两次比较): 时间复杂度更稳定的版本: BSLeftmost: BSRightmost: 普通版本的二分查找: …...