当前位置: 首页 > news >正文

AI大模型日报#0628:谷歌开源9B 27B版Gemma2、AI首次实时生成视频、讯飞星火4.0发布

导读:AI大模型日报,爬虫+LLM自动生成,一文览尽每日AI大模型要点资讯!

目前采用“文心一言”(ERNIE-4.0-8K-latest)生成了今日要点以及每条资讯的摘要。欢迎阅读!

《AI大模型日报》今日要点:今日AI大模型领域的资讯涵盖了多模态新基准的提出、从容大模型在多模态评测中的卓越表现、谷歌开源的Gemma 2模型、字节大模型团队的Depth Anything V2模型被苹果选中、科大讯飞发布的星火大模型V4.0的重大突破、尤洋团队实现的AI实时生成视频、OpenAI的CriticGPT新模型、LeCun和谢赛宁提出的视觉多模态模型Cambrian-1,以及智源大会上关于视觉大模型的探讨。这些报道共同展现了AI大模型在模拟人类推理、多模态能力、效率与经济性、集成应用等方面的快速发展,同时也指出了模型在复杂推理、视觉表征等方面的挑战与机遇。各大科技企业和研究团队通过不断创新,推动AI大模型向更高效、更强大、更贴近人类需求的方向发展。

标题: Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点


摘要: 本文作者张天宇聚焦于多模态、GFlowNet、多智能体强化学习等,已在多个机器学习顶会发表论文。文章探讨实现通用人工智能AGI的关键在于模拟人类的思考和推理过程,引入视觉字幕恢复(VCR)任务来评估视觉语言模型的推理能力。VCR任务要求模型填补被遮挡的文字,而当前大多数模型在此任务上表现不佳,尤其在困难模式下。这表明模型在模拟人类复杂推理过程方面仍有很长的路要走。
网址: Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点 | 机器之心
 
标题: 击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
 


摘要: 云从科技的从容大模型在OpenCompass多模态评测中取得重大进展,平均得分65.5,跻身全球前三。在国内市场,该模型排名第一。从容大模型在6个数据集上表现优异,尤其在OCRBench测试集上获得全球最高分。这一成就归功于云从科技自研的高效多模态处理架构和先进的计算技术,及其在视觉、语言领域的深厚积累。此前,从容大模型已在视觉、跨模态领域多次刷新世界纪录。此次表现不仅证明了云从科技的技术实力,也为全球科技企业在AI竞争中树立了典范。
网址: 击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三 | 机器之心
 
标题: 谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
 


摘要: 谷歌推出Gemma 2,性能翻倍,可与更大模型竞争。Gemma 2提供9B和27B参数版本,推理性能和效率优于第一代,且成本降低。其27B模型性能卓越,9B模型也超越同类。Gemma 2易于集成,兼容多框架,可通过Google Cloud轻松部署。还有新的Gemma Cookbook和上下文缓存功能助力开发者。模型基于仅解码器transformer架构,交替使用局部和全局注意力,采用logit软封顶。谷歌开放Gemma 2,旨在普及AI工具。
网址: 谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济! | 机器之心
 
标题: 字节大模型团队Depth Anything V2模型入选苹果最新CoreML模型
 


摘要: 苹果公司近日在HuggingFace上发布了20个新Core ML模型和4个数据集,其中包括字节大模型团队的单目深度估计模型Depth Anything V2。Core ML是苹果的机器学习框架,可集成模型到iOS、MacOS等设备,高效运行复杂的AI任务,增强用户隐私,减少延迟。Depth Anything V2在细节处理上更精细,鲁棒性更强,速度提升显著。该模型可应用于多个领域,如自动驾驶等。新发布的Core ML模型涵盖多个领域,开发者可使用coremltools转换模型格式,优化设备性能,减少内存占用和功耗。
网址: 字节大模型团队Depth Anything V2模型入选苹果最新CoreML模型 | 机器之心
 
标题: 国产大模型新高度!讯飞星火4.0发布:整体超越GPT-4 Turbo,8个国际权威测试集测评第一
 


摘要: 科大讯飞发布讯飞星火大模型V4.0,该模型在医疗、教育等领域有重大突破,整体性能超越GPT-4 Turbo,成为国内领先的大模型。V4.0在文本生成、语言理解等七大核心能力上全面升级,并在多个国际测试中排名第一。此外,星火大模型还加强了复杂指令跟随和长文本处理能力,并推出新功能——长文本内容溯源,提高了答案准确率。在多模态方面,星火大模型V4.0的图文识别能力持续升级,超越了OpenAI的最新旗舰模型。语音能力也是科大讯飞的绝对优势,V4.0增加了对37种方言的识别,实现了74种语言免切-自由交流。同时,讯飞还展示了超复杂场景语音转写的能力。在医疗领域,讯飞推出了医疗大模型「讯飞晓医」,可以为普通用户提供病历、体检报告解读等服务。在教育领域,讯飞发布了星火智能批阅机和升级后的AI学习机,提高了教育效率。此外,讯飞还推出了「个人空间」,打造懂你的AI助手。
网址: 国产大模型新高度!讯飞星火4.0发布:整体超越GPT-4 Turbo,8个国际权威测试集测评第一 | 机器之心
 
标题: AI首次实时生成视频!尤洋团队新作,网友:这是新纪元
摘要: AI实时生成视频的新纪元已经到来!尤洋团队推出了首个基于DiT的实时视频生成方法——Pyramid Attention Broadcast(PAB)。该方法通过减少冗余注意力计算,实现了高达21.6FPS和10.6倍加速,同时保持了视频生成模型的质量。PAB作为一种免训练方法,可为将来任何基于DiT的视频生成模型提供实时功能。这一创新引来了网友和专业人士的惊叹与好评。团队通过比较不同时间步骤的注意力差异,提出用PAB减少不必要的注意力计算,从而节省计算量。相关研究已公开,该团队由尤洋教授领衔,成员包括赵轩磊、王锴和金小龙。
网址: AI首次实时生成视频!尤洋团队新作,网友:这是新纪元 | 量子位
 
标题: OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限
 


摘要: OpenAI发布了新模型CriticGPT,该模型基于GPT-4训练,旨在改进下一代GPT训练。CriticGPT在代码挑错方面表现出色,能找到75%以上的Bug,远超人类的25%,且其评论更受人类训练师青睐。该模型还能泛化到代码之外的任务,如RLHF训练中的AI输出挑错,并已进入OpenAI内部训练流程。CriticGPT的成功意味着AI在挑错能力上有望突破人类上限,实现自我改进。该研究由前超级对齐团队负责人Jan Leike带队,虽已解散,但成果仍具重要意义。同时,OpenAI还发布了相关论文,展示了其研究诚意。
网址: OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限 | 量子位
 
标题: LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
 


摘要: 近日,由LeCun和谢赛宁等大佬共同提出了全新的SOTA MLLM——Cambrian-1,该模型以视觉为中心设计多模态模型,并全面开源了相关权重、代码、数据集及微调评估方法。Cambrian-1围绕五个关键方面构建,包括视觉表示、连接器设计、指令微调数据、指令微调策略和实践以及基准测试,旨在弥补多模态学习中视觉研究的不足,打破语言依赖的瓶颈。模型采用MLLM指令微调作为评估协议,强调视觉问答在解决现实世界感知任务中的重要性。研究团队通过谷歌TPU训练,展示了该模型在视觉表征能力上的优势,并呼吁学界业界共同推进以视觉为中心的多模态学习研究。此外,项目还得到了Jeff Dean和Demis Hassabis等业界大佬的支持。
网址: LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V - 智源社区
 
标题: 视觉重回第一赛道?颜水成领衔视觉大模型论坛丨2024智源大会回顾
 


摘要: 算法起源于计算机视觉领域,后逐渐迁移至语音、NLP等领域。近年来,随着Transformer的出现,NLP成为新算法发源地,再逐渐应用于视觉领域。今年,计算机视觉似乎重回第一赛道。在智源大会的「视觉大模型」专题论坛上,多位专家探讨了视觉大模型的最新研究成果和实践经验。其中,潞晨科技的申琛惠介绍了Open Sora高效低成本视频生成模型,旨在通过低成本开源方案引入社区,采用基于主流的DiT框架和类似Sora的过程生成视频。生数科技的鲍凡则展示了高保真4D重构模型Vidu4D,该模型采用全球首个Diffusion Transformer融合架构,支持多模态生成式建模和4D表示提取,具有作为世界模拟器的潜力。这些研究展示了视频生成模型在帧真实性和3D一致性方面的优势,以及通过大模型探索世界模型的两条道路。
网址: 视觉重回第一赛道?颜水成领衔视觉大模型论坛丨2024智源大会回顾 - 智源社区
 

相关文章:

AI大模型日报#0628:谷歌开源9B 27B版Gemma2、AI首次实时生成视频、讯飞星火4.0发布

导读:AI大模型日报,爬虫LLM自动生成,一文览尽每日AI大模型要点资讯!目前采用“文心一言”(ERNIE-4.0-8K-latest)生成了今日要点以及每条资讯的摘要。欢迎阅读!《AI大模型日报》今日要点&#xf…...

【随笔】提高代码学习水平(以更高的视角看事物)

最近,我感觉到自己的代码水平似乎卡在了一个瓶颈。似乎只想着数仓,Hive,Spark技术优化,但只要稍微离开这几个点,我就感到无所适从。我开始反思,或许,我应该总结一下自己的学习方法。 1.站的高&…...

游戏AI的创造思路-技术基础-深度学习(5)

继续深度学习技术的探讨,填坑不断,头秃不断~~~~~ 目录 3.5. 自编码器(AE) 3.5.1. 定义 3.5.2. 形成过程 3.5.3. 运行原理 3.5.3.1.运行原理及基本框架 3.5.3.2. 示例代码 3.5.4. 优缺点 3.5.5. 存在的问题和解决方法 3.5…...

基于SpringBoot养老院管理系统设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟感兴趣的可以先收藏起来,还…...

餐饮点餐的简单MySQL集合

ER图 模型图(没有进行排序,混乱) DDL和DML /* Navicat MySQL Data TransferSource Server : Mylink Source Server Version : 50726 Source Host : localhost:3306 Source Database : schooldbTarget Server Type …...

STM32驱动-ads1112

汇总一系列AD/DA的驱动程序 ads1112.c #include "ads1112.h" #include "common.h"void AD5726_Init(void) {GPIO_InitTypeDef GPIO_InitStructure;RCC_APB2PeriphClockCmd( RCC_APB2Periph_GPIOA | RCC_APB2Periph_GPIOC, ENABLE );//PORTA、D时钟使能 G…...

数据结构与算法高频面试题

初级面试题及详细解答 当涉及到数据结构与算法的初级面试题时,通常涉及基本的数据结构操作、算法复杂度分析和基本算法的应用。 1. 什么是数组?数组和链表有什么区别? 解答: 数组:是一种线性数据结构,用…...

uni-app的showModal提示框,进行删除的二次确认,可自定义确定或取消操作

实现效果: 此处为删除的二次确认示例,点击删除按钮时出现该提示,该提示写在js script中。 实现方式: 通过uni.showModal进行提示,success为确认状态下的操作自定义,此处调用后端接口进行了删除操作&#…...

5款提高工作效率的免费工具推荐

SimpleTex SimpleTex是一款用于创建和编辑LaTeX公式的简单工具。它能够识别图片中的复杂公式并将其转换为可编辑的数据格式。该软件提供了一个直观的界面,用户可以在编辑LaTeX代码的同时实时预览公式的效果,无需额外的编译步骤。此外,SimpleT…...

区块链的技术架构:节点、网络和数据结构

区块链技术听起来很高大上,但其实它的核心架构并不难理解。今天我们就用一些简单的例子和有趣的比喻,来聊聊区块链的技术架构:节点、网络和数据结构。 节点:区块链的“细胞” 想象一下,区块链就像是一个大型的组织&a…...

pdfmake不能设置表格边框颜色?

找到pdfmake>build>pdfmake.js中: 找到定义的“TableProcessor.prototype.drawVerticalLine”和“TableProcessor.prototype.drawHorizontalLine”两个方法: 重新定义borderColor: var borderColor this.tableNode.table.borderColor||"#…...

laravel 使用RabbitMQ作为消息中间件

先搞定环境,安装amqp扩展 确保已安装rabbitmq-c-dev。 比如 可以使用apk add rabbmit-c-dev安装 cd ~ wget http://pecl.php.net/get/amqp-1.10.2.tgz tar -zxf amqp-1.10.2.tgz cd amqp-1.10.2 phpize ./configure make && make install cd ~ rm -rf am…...

web项目打包成可以离线跑的exe软件

目录 引言打开PyCharm安装依赖创建 Web 应用运行应用程序打包成可执行文件结语注意事项 引言 在开发桌面应用程序时,我们经常需要将网页集成到应用程序中。Python 提供了多种方法来实现这一目标,其中 pywebview 是一个轻量级的库,它允许我们…...

BFS:队列+树的宽搜

一、二叉树的层序遍历 . - 力扣&#xff08;LeetCode&#xff09; 该题的层序遍历和以往不同的是需要一层一层去遍历&#xff0c;每一次while循环都要知道在队列中节点的个数&#xff0c;然后用一个for循环将该层节点走完了再走下一层 class Solution { public:vector<vec…...

MySQL高级-SQL优化- count 优化 - 尽量使用count(*)

文章目录 1、count 优化2、count的几种用法3、count(*)4、count(id)5、count(profession)6、count(null)7、 count(1) 1、count 优化 MyISAM引擎把一个表的总行数存在了磁盘上&#xff0c;因此执行count&#xff08;*&#xff09;的时候会直接返回这个数&#xff0c;效率很高&a…...

python Flask methods

在 Flask 中&#xff0c;app.route() 装饰器用于定义 URL 路由和与之关联的视图函数。当你想指定某个 URL 可以接受哪些 HTTP 方法时&#xff0c;你可以使用 methods 参数。methods 是一个列表&#xff0c;它可以包含任何有效的 HTTP 方法。 Falsk文章中的描述&#xff1a; 链…...

three.js场景三元素

three.js是一个基于WebGL的轻量级、易于使用的3D库。它极大地简化了WebGL的复杂细节&#xff0c;降低了学习成本&#xff0c;同时提高了性能。 three.js的三大核心元素&#xff1a; 场景&#xff08;Scene&#xff09; 场景是一个三维空间&#xff0c;是所有物品的容器。可以将…...

Spring AOP(面向切面编程)详解

Spring AOP&#xff08;面向切面编程&#xff09;详解 大家好&#xff0c;我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编&#xff0c;也是冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01; 什么是Spring AOP&#xff1f; Spring AOP&#xff08…...

Kafka第一篇——内部组件概念架构启动服务器zookeeper选举以及底层原理

目录 引入 ——为什么分布式系统需要用第三方软件&#xff1f; JMS 对比 组件 架构推演——备份实现安全可靠 &#xff0c; Zookeeper controller的选举 controller和broker底层通信原理 BROKER内部组件 ​编辑 topic创建 引入 ——为什么分布式系统需要用第三方软件&#…...

14、顺时针打印矩阵

题目&#xff1a; 顺时针打印矩阵 描述&#xff1a; 输入一个矩阵&#xff0c;按照从外向里以顺时针的顺序依次打印出每一个数字&#xff0c; 例如&#xff0c; 如果输入如下矩阵&#xff1a; 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 则依次打印出数字&#xff1a;1,2,3,4,8,1…...

毅速丨金属3D打印是制造业转型升级的重要技术

随着科技的进步&#xff0c;金属3D打印技术已成为制造业升级的重要驱动力。它以其独特的优势&#xff0c;正引领着制造业迈向新的未来。 金属3D打印技术的突破&#xff1a; 设计自由。金属3D打印能制造任意形状和结构的零件&#xff0c;为设计师提供了无限的创意空间。 快速制…...

uni-app uni-data-picker级联选择器无法使用和清除选中的值

出现问题&#xff1a; 使用点击右边的叉号按钮无法清除已经选择的uni-data-picker值 解决办法&#xff1a; 在uni-app uni-data-picker使用中&#xff0c;要添加v-model&#xff0c;v-model在官网的示例中没有体现&#xff0c;但若不加则无法清除。 <uni-data-picker v-m…...

构造函数的小白理解

一、实例 using System; using System.Collections; using System.Collections.Generic; using UnityEngine;//定义一个名为Question的类&#xff0c;用于存储问题及相关信息 [Serializable] public class Question {public string questionText;//存储题目文本字段public str…...

招聘,短信与您:招聘人员完整指南

招聘人员面临的最大挑战之一就是沟通和联系候选人。为何?我们可以从以下原因开始&#xff1a;候选人通常被太多的招聘人员包围&#xff0c;试图联系他们&#xff0c;这使得你很难吸引他们的注意。在招聘过程的不同阶段&#xff0c;根据不同的工作量&#xff0c;让申请人保持最…...

JAVA-矩阵置零

给定一个 m x n 的矩阵&#xff0c;如果一个元素为 0 &#xff0c;则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 思路&#xff1a; 找到0的位置&#xff0c;把0出现的数组的其他值夜置为0 需要额外空间方法&#xff1a; 1、定义两个布尔数组标记二维数组中行和列…...

[信号与系统]模拟域中的一阶低通滤波器和二阶滤波器

前言 不是学电子出身的&#xff0c;这里很多东西是问了朋友… 模拟域中的一阶低通滤波器传递函数 模拟域中的一阶低通滤波器的传递函数可以表示为&#xff1a; H ( s ) 1 s ω c H(s) \frac{1}{s \omega_c} H(s)sωc​1​ 这是因为一阶低通滤波器的设计目标是允许低频信…...

Mac环境 aab包转apks,并安装apks

一、下载下载bundletool工具 Releases google/bundletool GitHub 二、将下载bundletool.jar包、aab、keystore文件全部放到同一个目录下 例如我全部放到download目录下 转换命令行&#xff1a; java -jar bundletool-all-1.16.0.jar build-apks --modeuniversal --bundle…...

银河麒麟V10 SP1.1操作系统 离线安装 nginx1.21.5、redis 服务

银河麒麟官网地址&#xff1a;国产操作系统、麒麟操作系统——麒麟软件官方网站 一、查看系统版本 命令&#xff1a;nkvers 我的是 release V10 (SP1)&#xff0c;根据这个版本去官网找对应的rpm包 银河麒麟操作系统的rpm包必须从官方找&#xff0c; 要是随便找个Centos的rp…...

ios swift5 视频播放 播放视频失败 无法播放HEVC (H.265) 格式的视频 H.264格式的可以播放

文章目录 1.问题2.原因&#xff1a;iOS swift AVPlayerViewController无法播放HEVC (H.265) 格式的视频3.解决方法用第三方框架MobileVLCKit来播放4.用MobileVLCKit写的播放器4.1 两个oc版本的4.2 两个swiftUI版本的5.苹果是支持HEVC (H.265) 格式的视频&#xff0c;是硬件那边…...

网工内推 | 网络工程师,IE认证优先,最高18k*14薪,周末双休

01 上海吾索信息科技有限公司 &#x1f537;招聘岗位&#xff1a;网络工程师 &#x1f537;岗位职责&#xff1a; 1&#xff09;具备网络系统运维服务经验以及数据库实施经验&#xff0c;具备网络系统认证相关资质或证书&#xff1b; 2&#xff09;掌握常用各设备的运维巡检…...

鹤壁哪里做网站/电商是做什么的

毕业之前一直在做前端开发&#xff0c;毕业后就转成做iOS开发&#xff0c;这两者有很多挺有意思的对比&#xff0c;尝试写下我能想到的它们的一些相同点和不同点。 语言 前端和终端作为面向用户端的程序&#xff0c;有个共同特点&#xff1a;需要依赖用户机器的运行环境&#x…...

做相关性分析的网站/模板建站哪个平台好

java无效的发行源Java PureFaces团队宣布该项目源代码现已可用。 Java PureFaces是JavaServer Faces&#xff08;JSF&#xff09;的Web开发扩展&#xff0c;它使用JSF框架创建使用纯Java代码开发Web应用程序的API&#xff0c;而无需创建多个静态JSP模板。 翻译自: https://ja…...

怎么用axure建设网站/网页制作代码大全

ZipFile 对象的 extractall()方法从 ZIP 文件中解压缩所有文件和文件夹&#xff0c;放到当 前工作目录中。 >>> import zipfile, os >>> os.chdir(C:\\) # move to the folder with example.zip >>> exampleZip zipfile.ZipFile(exa…...

php如何做网站/seo排名大概多少钱

捡拾的过程中累加捡拾硬币&#xff0c;要求最后捡拾的硬币累加和是最大的。捡拾的过程中&#xff0c;相邻的两个硬币不能同时被捡拾。比如&#xff1a;有以下几个硬币值&#xff1a;[5, 1, 2, 10, 5, 2], 可以捡拾的方案有&#xff0c;(5, 2, 5) 或 (5, 10, 2)解题思路&#xf…...

html怎么做音乐网站/百度文库网页版

Python中几种常用包比较2、用xlrd包读取Excel文件 引用包 import xlrd 打开文件 xlrd.open_workbook(r/root/excel/chat.xls) 获取你要打开的sheet文件 # 获取所有sheet sheet_name workbook.sheet_names()[0] # 根据sheet索引或者名称获取sheet内容 sheet workbook.sheet_by…...

聊城手机网站建设费用/不需要验证码的广告平台

摘要vue和axios都可以使用es6-promise来实现f1().then(f2).then(f3)这样的连写形式&#xff0c;es6-promise其实现代浏览器已经支持&#xff0c;无需加载外部文件。由于promise写法明显由于传统写法&#xff0c;已经越来越被高级程序采用&#xff0c;不懂promise就没法看高级程…...