国内大模型在局部能力上已超ChatGPT
中文大模型正在后来居上,也必须后来居上。
@数科星球原创
作者丨苑晶
编辑丨大兔
从GPT3.5彻底出圈后,大模型的影响力开始蜚声国际。一段时间内,国内科技公司可谓被ChatGPT按在地上打,毫无还手之力。
彼时,很多企业还不知大模型为何物,GPT3.5就已够生成诸如营销文案、小说、诗歌等高质量的中文文本。一时间,买课小贩、租号中间商和套壳开发者大行其道。
现如今,在国内厂商严肃对待OpenAI后,情况发生了变化。
在公开资料中,就有360、复旦大学、科大讯飞等企业表达了在中文能力上超越ChatGPT的消息。现在,时间进入2023年8月份,号称超越国外竞品的公司变得越来越多。
01
中文模型进击:ChatGPT“不香”了
客观地说,在GPT-3推出后,OpenAI曾经在中文文本输出中占得先机。其一经推出,便可覆盖诸如营销文案、小说和诗歌等领域的文生文需求。几个月前,这种先手优势养活了国内一众卖课达人、租号团队以及套壳聊天机器人产品。
不过,很快,这些功能便被国内众多厂商超越,变成了大模型的“标配”功能。
根据第三方监测机构SimilarWeb的数据显示,ChatGPT从4月开始就呈现出了明显放缓的趋势。以至于在2023年的第二季度,人们的朋友圈内几乎没有了OpenAI的踪影。在科技圈,这被归结为竞争对手大批量涌入、垂直模型兴起和新技术迭代所导致。
8月初,中文大模型的“千模大战”已进入白热化阶段。以数科星球(ID:digital-planet)团队所掌握的信息来看,越来越多的企业开始关注下沉市场、并致力于推进具体行业和大模型产品的结合。
这种趋势的结果是,可能会有更多的企业和机构选择使用本土产品,同时也对国外模型的市场份额造成一定影响。在数科星球(ID:digital-planet)团队体验二十余款中文大模型后,所得到的观感和上述言论趋同:即中文大模型正在变得越来越好用,并变得越来越聪明。
更为关键的是,政策层面对国内产品的扶植力度正在加强,而出于安全和自主可控等因素,ChatGPT的“没落”(至少在国内)似乎已成板上钉钉。
但国内厂商的野心还远不止“内卷”国内市场——一些公司已然将目光瞄准了海外。
科大讯飞董事长刘庆峰此前表示,其星火大模型中文已超越ChatGPT,在英文中也已接近,虽还有细微差别,但目前在进一步优化中。
02
中文大模型变聪明的背后
为了探求国内中文大模型的发展情况,在过去的几个月中,数科星球(ID:digital-planet)团队与几十家公司进行了百余次沟通。结果是,科技圈的大佬和创业新星们对待OpenAI的态度严肃且认真。
除了在产品上进行了洗心革面式的改进,还对模型的评价体系进行了优化。
为了弥补中文大模型在评测领域的缺失,日前由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集于不久前推出,该评测名为C-Eval,受到了行业内的广泛关注。
在一些专业人士看来,此评测的初衷是用“锱铢必较”的方式找出中文大模型的比较优势。和以往由第三方咨询公司所主导的、带有倾向性甚至定制化的行业评比所不同的是,无论在过程和结果上,C-Eval更加透明和公开。
据了解,全套测验包含13948道多项选择题,涵盖52个不同学科和四个难度级别。其中前四名包括为清华智谱的ChatGLM2、OpenAI的GPT-4、商汤的SenseChat,APUS的AiLMe-100Bv1。
对比由微软亚洲研究院(Microsoft Research Asia)开发的基准测试AGIEval,C-Eval覆盖的领域更广。APUS技术专家张旭称:“AGIEval只覆盖了中国高考题、公务员考试题等几个类别,而C-Eval覆盖了注册电气工程师、注册计量师……等领域”,覆盖范围的拓宽意味着,除高考、公务员考试等场景外,在其他特定职业领域也可以测定大模型的能力。
从另一个角度说,C-Eval是一个对大模型从人文到社科到理工多个大类的综合知识能力进行测评的竞赛。通常,高阶难度测试是考验大模型性能的关键动作,面对复杂且有挑战性的任务,大多大模型性能会大幅下降。在C-Eval公布的评比结果中,APUS的AiLMe-100Bv1除了在平均分上进入四强,还在难题处理方面超越GPT-4*,排名第一。
据悉,C-Eval Hard(难题)类别是首个提供中文复杂推理能力的测试,“即便是GPT-4来做这个题也会很吃力,”张旭提及,“这是‘闭卷考试’,而以往如AGIEval和MMLU是‘开卷考试’,也就是说,AGIEval和MMLU是各公司自己测试、自己打分、自己公布成绩,而C-Eval Hard的评比显然更加客观、可信。”
的确,C-Eval测评难度比其他测评更高且更严格。在打分流程上,C-Eval更像是学校中为学生准备的大考模式,各个公司参加统一考试并由系统自动打分、C-Eval团队人工审核成绩并公布,所以,就结果上看,其测评所公布的成绩真实性更高。
03
国内大模型的未来
放眼行业,大模型对于国内人工智能产业的意义非凡。
在NLP行业出现范式变革后,Transformer为主导的新一代通用大模型产品大行其道,让人们看到了AGI的曙光。甚至可以说,中国版的ChatGPT3.5/4.0的问世是我国正式迈向人工智能时代的重要标志。
在过去,一、二级资本市场对国内大模型产业意见颇多。讨论最多的是,国内公司没有在前沿技术投入太多,反而将精力侧重于“蹭”数字人、AIGC等概念之上。
客观地说,上述评价不无道理,其中不乏因大环境不好,企业对前沿投入审慎和相关技术积累薄弱等问题所导致。
但近期,随着数科星球(ID:digital-planet)对大模型行业认识的深入,以上问题正在得到改变:首先,以智源研究院、百度文心一言、商汤和APUS等企业的持续投入,我国已有多家企业具备大模型制作和运营能力(此前大多为小模型);其次,随着上半年密集的模型发布大会逐渐落幕,新模型开始迭代积累,并向着ChatGPT能力靠拢。
在我们所知的大模型产业上下游企业中,针对数据处理、清洗、标注、模型训练、推理加速等方面的技术也正在加速追赶之中;最后,政策层面已注意到发展大模型和ChatGPT的必要性,开始着手调集更多资源应对,相关生态和创新土壤也正在完备的过程中。
可以肯定的是,本次人工智能革命的核心就是通用大模型。目前,我国众多企业正在加速追赶。
现在,超越ChatGPT已成为国内AI从业者们心中的图腾。想必若假以时日,这个目标将有机会实现。而到那时,一个属于人工智能时代的大幕才彻底拉开。
相关文章:

国内大模型在局部能力上已超ChatGPT
中文大模型正在后来居上,也必须后来居上。 数科星球原创 作者丨苑晶 编辑丨大兔 从GPT3.5彻底出圈后,大模型的影响力开始蜚声国际。一段时间内,国内科技公司可谓被ChatGPT按在地上打,毫无还手之力。 彼时,很多企业…...

监控设置ip地址怎么设置
监控设备的IP地址设置是保障监控系统正常工作的基础。通过设置IP地址,我们可以确定监控设备在局域网内的位置,并远程访问监控设备进行实时查看、存储视频等操作。下面虎观代理小二二将介绍具体步骤。 方法一: 和电脑连接在一起,…...

力扣:56. 合并区间(Python3)
题目: 以数组 intervals 表示若干个区间的集合,其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间,并返回 一个不重叠的区间数组,该数组需恰好覆盖输入中的所有区间 。 来源:力扣(Lee…...

最小二乘问题和非线性优化
最小二乘问题和非线性优化 0.引言1.最小二乘问题2.迭代下降法3.最速下降法4.牛顿法5.阻尼法6.高斯牛顿(GN)法7.莱文贝格马夸特(LM)法8.鲁棒核函数 0.引言 转载自此处,修正了一点小错误。 1.最小二乘问题 在求解 SLAM 中的最优状态估计问题时,我们一般…...

Selenium/webdriver原理解析
最近在看一些底层的东西。driver翻译过来是驱动,司机的意思。如果将webdriver比做成司机,竟然非常恰当。 我们可以把WebDriver驱动浏览器类比成出租车司机开出租车。在开出租车时有三个角色: 乘客:他/她告诉出租车司机去哪里&…...

多用户跨境B2B2C商城后台管理系统快速搭建
搭建一个多用户跨境B2B2C商城后台管理系统需要考虑多个方面,包括系统架构设计、用户权限管理、商品管理、订单管理、支付管理、物流管理等。搭建步骤如下: 1. 系统架构设计 首先,需要设计一个稳定可靠的系统架构。选择一个适合B2B2C商城的商…...

MySQL 优化
问题描述 MySQL 的性能优化分为四个部分: 硬件和操作系统层面的优化架构设计层面的优化MySQL 程序配置优SQL 优化 一、硬件及操作系统层面优化 从硬件层面来说,影响 Mysql 性能的因素有,CPU、可用内存大小、磁盘读写速度、 网络带宽。 从操作…...

VMware Workstation及CentOS-7虚机安装
创建新的虚机: 选择安装软件(这里选的是桌面版,也可以根据实际情况进行选择) 等待检查软件依赖关系 选择安装位置,自主配置分区 创建一个普通用户 安装完成后重启 点击完成配置,进入登陆界面…...

双向带头循环链表+OJ题讲解
💓博主个人主页:不是笨小孩👀 ⏩专栏分类:数据结构与算法👀 刷题专栏👀 C语言👀 🚚代码仓库:笨小孩的代码库👀 ⏩社区:不是笨小孩👀 🌹欢迎大家三连关注&…...

电脑开不了机如何解锁BitLocker硬盘锁
事情从这里说起,不想看直接跳过 早上闲着无聊,闲着没事干,将win11的用户名称改成了含有中文字符的用户名,然后恐怖的事情发生了,蓝屏了… 然后就是蓝屏收集错误信息,重启,蓝屏收集错误信息&…...

Python Web开发 Jinja2模板引擎
在之前的文章中,简单介绍了Python Web开发框架Flask,知道了如何写个Hello World,但是距离用Flask开发真正的项目,还有段距离,现在我们目标更靠近一些 —— 学习下Jinja2模板。 模板的作用 模板是用来做什么的呢&…...
ubuntu上安装mosquitto服务
1、mosquitto是什么 Mosquitto 项目最初由 IBM 和 Eurotech 于 2013 年开发,后来于 2016 年捐赠给 Eclipse 基金会。Eclipse Mosquitto 基于 Eclipse 公共许可证(EPL/EDL license)发布,用户可以免费使用。作为全球使用最广的 MQTT 协议实现之一 &#x…...

嵌入式开发学习(STC51-9-led点阵)
内容 点亮一个点; 显示数字; 显示图像; LED点阵简介 LED 点阵是由发光二极管排列组成的显示器件 通常应用较多的是8 * 8点阵,然后使用多个8 * 8点阵可组成不同分辨率的LED点阵显示屏,比如16 * 16点阵可以使用4个8 *…...

RedisTemplate.opsForZSet()用法简介并举例
RedisTemplate.opsForZSet()是RedisTemplate类提供的用于操作ZSet类型(有序集合)的方法。它可以用于对Redis中的ZSet数据结构进行各种操作,如添加成员、获取成员、删除成员等。 下面是一些常用的RedisTemplate.opsForZSet()方法及其用法示例…...

Java个人博客系统--基于Springboot的设计与实现
目录 一、项目概述 应用技术 接口实现: 数据库定义: 数据库建表: 博客表数据库相关操作: 添加项⽬公共模块 加密MD5 页面展示:http://121.41.168.121:8080/blog_login.html 项目源码:https://gitee…...

在jupyter中下载数据集失败及解决方法(以IMDB为例)
在IMDB数据集下载时,由于网络原因下载失败,报错如下: Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz ConnectionResetError Traceback (most recent call last) … Exception: URL fetch f…...

【设计模式】-工厂方法模式
工厂方法模式(Factory Method Pattern)是一种创建型设计模式,它通过定义一个用于创建对象的接口,但是将具体对象的创建推迟到子类中。这样,子类可以决定要实例化的对象类型。工厂方法模式提供了一种方式,通…...

H7-TOOL的高速DAPLINK用于新版STM32CubeIDE V1.13及其以上版本的超简单实现方法(2023-08-08)
之前分享了一个方法,太繁琐了,H7-TOOL群的群友提供了一个方法,实现非常简单。1、使用STM32CubeMX或者自己创建一个STM32CubeIDE工程后,设置这两个地方即可: 配置调试器,设置完毕记得点击右下角的Apply 2、然…...

成功解决ubuntu-22.04的sudo apt-get update一直卡在【0% [Waiting for headers]】
成功解决ubuntu-22.04的sudo apt-get update一直卡在【0% [Waiting for headers]】 问题描述解决方案 问题描述 在下载安装包的时候一直卡在0% [Waiting for headers],报错信息如下: Get:1 file:/var/cudnn-local-repo-ubuntu1804-8.5.0.96 InRelease […...

openLayers实战(一):vue项目中的离线地图引入
最近的项目涉及到离线地图的操作,查阅社区文章,决定使用openLayersvue离线地图的方式进行开发,前期基础引入操作完全参考掘金文章,非常优秀全面的文章。 openlayers 实战离线地图 - 掘金 此外,开发过程的地图操作可参考…...

如何构造一个安全的单例?
为什么要问这个问题? 我们知道,单例是一种很常用的设计模式,主要作用就是节省系统资源,让对象在服务器中只有一份。但是实际开发中可能有很多人压根没有写过单例这种模式,只是看过或者为了面试去写写demo熟悉一下。那…...

单片机开发 esp8266
一、固件界面 二、项目介绍 固件名称:esp8266-universalboard v1.0 提供商: 半条虫(466814195) 下载:esp8266-universalboard.bin 源码地址:Gitlab...

Linux 查看版本和用户权限提升实践心得
文章目录 linux (Ubuntu内核)查看版本版本信息解释内置yum工具?用户权限提升操作步骤 查看deepin系统的版本和其debian的版本遇到的问题:deepin-release文件不存在 linux (Ubuntu内核)查看版本 使用lsb_release命令: lsb_release -a该命令将…...

多线程编程5:线程同步和进程通信(C++11和linux)
常见的线程同步 linux: 互斥锁:实现共享资源的串行访问,有三个版本普通锁(默认属性),检错锁(可以防止相同线程重复加锁)和递归锁(相同线程可以重复加锁)条件变量:配合互斥锁使用,实现线程之间的通信&#…...

tensorrt官方int8量化方法汇总
原理及操作 量化的基本原理及流程可参看懂你的神经网络量化教程:第一讲、量化番外篇、TensorRT中的INT8、tensorRT int8量化示例代码 Tensorrt 方式1:trtexec(PTQ的一种) int8量化 trtexec --onnxXX.onnx --saveEnginemodel.…...

21、p6spy输出执行SQL日志
文章目录 1、背景2、简介3、接入3.1、 引入依赖3.2、修改database参数:3.3、 创建P6SpyLogger类,自定义日志格式3.4、添加spy.properties3.5、 输出样例 4、补充4.1、参数说明 1、背景 在开发的过程中,总希望方法执行完了可以看到完整是sql语…...

实力认证!TDengine 入选 Gartner 中国数据分析与人工智能技术成熟度曲线
近日,国际权威研究机构 Gartner 发布了《2023 年中国数据分析及人工智能技术成熟度曲线》(即《Hype Cycle for Data, Analytics and AI in China, 2023》)报告,TDengine 成功入选实时数据管理领域代表产品。 作为评估全球新技术成…...

如何将jar包部署到宝塔
尝试多种方式上传,但启动一直失败,这种方式亲测是好使的 项目内修改位置 在pom.xml文件中将mysql的scope改成provided,如果是固定的版本号会出现问题 之后就可以打包啦,直接点击maven中的package 找到打包文件的位置ÿ…...

el-tree-select那些事
下拉菜单树形选择器 用于记录工作及日常学习涉及到的一些需求和问题 vue3 el-tree-select那些事 1、获取el-tree-select选中的任意层级的节点对象 1、获取el-tree-select选中的任意层级的节点对象 1-1数据集 1-2画面 1-3代码 1-3-1画面代码 <el-tree-selectv-model"s…...

分布式任务调度框架之开山鼻祖:Quartz
1.简介 最近我司上线使用了分布式任务调度框架:XXL-JOB,方便对任务的管理控制。本来一开始就想讲述一下该框架,但是在学习了解过程中发现该框架式基于Quartz思想开发实现的,Quartz 是一个很火的开源任务调度框架,完全…...