当前位置: 首页 > news >正文

Allen Institute for Artificial Intelligence (Ai2) 发布开源多模态语言模型 Molmo

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

Ai2,一家非营利性研究机构,发布了一系列名为 Molmo 的开源多模态语言模型,据称其性能与来自 OpenAI、Google 和 Anthropic 的顶级专有模型相当。https://molmo.allenai.org/

该组织声称,其最大的 Molmo 模型,具有 720 亿个参数,在测试中胜过了 OpenAI 的 GPT-4o(估计具有超过 1 万亿个参数),这些测试衡量了理解图像、图表和文档等方面的能力。

与此同时,Ai2 表示,一个较小的 Molmo 模型,具有 70 亿个参数,在性能上接近 OpenAI 的最先进模型,它将这一成就归功于更高效的数据收集和训练方法。

Ai2 的首席执行官 Ali Farhadi 表示,Molmo 表明开源 AI 开发现在与封闭、专有模型不相上下。开源模型具有显著优势,因为它们的开放性意味着其他人可以在它们的基础上构建应用程序。Molmo 演示可在[链接]上找到,开发者可以在 Hugging Face 网站上对其进行试验。(最强大的 Molmo 模型的某些元素仍然受到保护。)

其他大型多模态语言模型是在包含数十亿个从互联网上收集的图像和文本样本的庞大数据集上训练的,它们可以包含数万亿个参数。这个过程给训练数据带来了大量噪声,以及随之而来的幻觉,Ai2 的高级研究总监 Ani Kembhavi 说。相比之下,Ai2 的 Molmo 模型是在一个明显更小且经过精心挑选的数据集上训练的,该数据集仅包含 60 万张图像,并且它们具有 10 亿到 720 亿个参数。Kembhavi 说,专注于高质量数据而不是不加选择地抓取数据,导致在更少的资源下实现了良好的性能。

研究人员长期以来对什么是开源 AI 存在分歧。一个有影响力的群体提出了一个答案。

Ai2 通过让人类注释者对模型训练数据集中的图像进行极其详细的多页文本描述来实现这一点。他们要求注释者谈论他们所看到的,而不是打字。然后,他们使用 AI 技术将他们的语音转换为数据,这使得训练过程更快,同时减少了所需的计算能力。

Hugging Face 的机器学习和社会负责人 Yacine Jernite(未参与这项研究)表示,这些技术如果我们想要有意义地管理用于 AI 开发的数据,可能会非常有用。斯坦福基础模型研究中心主任 Percy Liang(也未参与这项研究)表示:“通常,在更高质量的数据上训练可以降低计算成本。”

另一个令人印象深刻的能力是该模型可以“指向”事物,这意味着它可以通过识别回答查询的像素来分析图像的元素。

在演示中,Ai2 研究人员拍摄了他们办公室外当地西雅图码头的一张照片,并要求模型识别图像的各种元素,例如躺椅。该模型成功地描述了图像的内容,计算了躺椅的数量,并准确地指向了图像中的其他事物,因为研究人员要求。然而,它并不完美。例如,它无法找到特定的停车场。

Farhadi 说,其他先进的 AI 模型擅长描述场景和图像。但是,当你想要构建能够与世界交互的更复杂的网络代理时,这还不够,例如,预订航班。他表示,指向允许人们与用户界面进行交互。

Jernite 表示,Ai2 的开放程度比我们从其他 AI 公司看到的更高。虽然 Molmo 是一个好的开始,但他表示,它的真正意义在于开发者在其基础上构建的应用程序以及人们改进它的方式。

Farhadi 同意。在过去几年中,AI 公司吸引了巨大的、数万亿美元的投资。但在过去几个月里,投资者对这种投资是否会带来回报表示怀疑。他认为,庞大而昂贵的专有模型无法做到这一点,但开源模型可以。他说,这项工作表明,开源 AI 也可以以一种高效利用资金和时间的方式构建。

“我们很高兴能够帮助他人并看到其他人会用它来构建什么,”Farhadi 说。

一直以来,大家普遍认为只有像谷歌、OpenAI、Anthropic这些拥有无尽资金和数百名顶级研究人员的公司,才能打造出最先进的基础模型。然而,就连他们自己也承认,所谓的技术“护城河”并不存在。今天,Ai2(Allen Institute for AI)通过发布Molmo这一多模态AI模型,再次证明了这一点。Molmo不仅能媲美这些巨头的产品,而且体积小、完全免费,真正实现了开源。

需要明确的是,Molmo(多模态开放语言模型)是一种视觉理解引擎,而非像ChatGPT那样的全功能聊天机器人。它没有API接口,不支持企业集成,也不会自动搜索互联网内容。更准确地说,Molmo是那些AI模型中负责“看图说话”的部分,它能识别图像、理解其中的内容并回答相关问题。

Molmo分为72B、7B和1B参数三种版本,和其他多模态模型一样,它能回答关于日常情境和物品的问题。例如:如何操作这台咖啡机?这张照片中有多少只狗伸出舌头?菜单上哪些选项是素食?这些视觉理解任务多年来已经以不同成功率和延迟性展示过了。

但真正让Molmo脱颖而出的,不仅仅是其功能,而是它实现这些功能的方式。

视觉理解本身涵盖广泛的领域,从数羊到猜测人的情绪状态,再到总结菜单内容,范围很难用简单的定量测试描述。不过,Ai2的CEO Ali Farhadi在其位于西雅图的研究所演示会上解释说,至少可以通过展示两种模型在能力上的相似性来证明它们的效果。

“我们今天要展示的是,‘开源’等于‘闭源’,‘小’等于‘大’。”他说(他特别强调,这里的等号代表的是‘等效性’,而非‘同一性’,这是个有趣的细微差别)。

AI发展中的一条不变定律是“越大越好”:更多的训练数据、更复杂的模型、更强大的计算力。然而,模型变大终究会遇到瓶颈:没有足够的数据、计算成本过高,最终变得事倍功半。这时,如何用更少的资源做到更多,才是关键。

Farhadi解释道,虽然Molmo与GPT-4、Gemini 1.5 Pro和Claude-3.5 Sonnet等模型的表现不相上下,但其体积只有它们的十分之一左右。通过小型化模型,Molmo实现了几乎相同的能力。

他还提到,虽然AI领域有很多不同的评估基准,他并不太喜欢这种“数字游戏”。但为了给大家展示成果,必须提供一些数据:“我们最大的模型是72B参数,但它在那些基准测试中表现优于GPT、Claude和Gemini。我们不确定这是否意味着Molmo真的比它们更好,但至少它在同一个领域内竞争。”

如果你有兴趣挑战Molmo,欢迎使用其公开演示版(甚至可以在手机上测试)。演示中的一个新功能是,它能精准“指出”图片中的相关部分。比如,问它一张照片里有几只狗,它会在每只狗脸上打个点;问它照片里有多少只狗伸出舌头,它会在每只舌头上标注。这种具体化的识别使得Molmo可以在没有预先训练的情况下完成各种任务。

最重要的是,Molmo完全免费且开源,体积小到可以在本地运行。不需要API、不需要订阅服务,甚至不需要一台高端GPU服务器。Ai2的目标是让开发者能够轻松创建AI应用,而不必依赖那些大型科技公司。

Farhadi补充道,Ai2已经公开了所有相关的数据、清理方法、注释、训练代码、模型检查点和评估标准,完全开放给任何人使用。他预计,开发者们会马上开始使用这些资源,包括那些资金雄厚的竞争对手。

随着AI领域日新月异地发展,各大公司正逐渐陷入价格战的漩涡,纷纷将价格压到最低。既然开源模型能提供类似的能力,那么这些公司提供的服务价值还能有多高呢?至少,Molmo证明了,即使巨头的“帝王新衣”问题仍悬而未决,他们的“护城河”确实已经消失了。

相关文章:

Allen Institute for Artificial Intelligence (Ai2) 发布开源多模态语言模型 Molmo

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…...

Html CSS 布局,位置处理 居中 对齐

Html CSS 布局&#xff0c;位置处理 1、居中布局 1、div 让内部div居中对齐 html <div class"container"><div class"item">I am centered!</div> </div>style .container {border: 2px solid rgb(75, 70, 74);border-radius:…...

Spring MVC系统学习(二)——Spring MVC的核心类和注解

Spring MVC&#xff08;Model-View-Controller&#xff09;是Spring框架的一个模块&#xff0c;用于构建基于Web的应用程序。它使用模型、视图和控制器分离的设计模式&#xff0c;使得Web开发更加模块化和灵活。在学习Spring MVC时&#xff0c;有几个核心类和注解是非常关键的&…...

conda虚拟环境安装包、依赖同一管理

在 Python 的虚拟环境中&#xff0c;每个环境都是独立的&#xff0c;这意味着即使两个环境需要相同的库&#xff0c;它们也会分别安装各自的副本。这样做是为了避免不同项目之间相互影响&#xff0c;确保每个项目都有一个干净且隔离的环境。 方法一&#xff1a;使用 Conda 的共…...

Unity网络开发记录(四):在unity中进一步封装客户端类

在上一篇文章中&#xff0c;简单的封装了一下服务端中相关的socket对象&#xff0c;为了可以更方便的使用。所以在本篇中&#xff0c;进一步封装一下在unity中的相关客户端类 封装客户端类&#xff0c;首先采用单例模式&#xff0c;然后采用两个队列来存储我们相关的收发信息 p…...

Linux内核中的UART驱动-详解Linux内核UART驱动:结构与功能分析

一、UART概述 UART&#xff08;Universal Asynchronous Receiver/Transmitter&#xff09;&#xff0c;即通用异步收发器&#xff0c;是一种串行通信接口&#xff0c;用于在计算机和外部设备之间传输数据。它特别适用于短距离、低速、串行和全双工的数据传输。在Linux内核中&a…...

威胁检测与防范:如何及时、准确对抗安全风险

随着技术的飞速发展&#xff0c;网络空间中的威胁日益多样化、隐蔽化&#xff0c;给个人、企业乃至国家的信息安全带来诸多挑战。面对严峻的网络威胁&#xff0c;传统的防火墙、入侵检测系统&#xff08;IDS&#xff09;等防御手段虽能在一定程度上抵御外部攻击&#xff0c;但依…...

数据结构串的kmp相关(求next和nextval)

傻瓜版&#xff0c;用来演示手算过程&#xff0c;个人理解用的&#xff0c;仅供参考。...

创建游戏暂停菜单

创建用户控件 设置样式 , 加一层 背景模糊 提升UI菜单界面质感 , 按钮用 灰色调 编写菜单逻辑 转到第三人称蓝图 推荐用 Set Input Mode Game And UI , 只用仅UI的话 增强输入响应不了 让游戏暂停的话也可以用 Set Game Paused , 打勾就是暂停 , 不打勾就是继续游戏 , 然后…...

seata服务端部署

1.下载seata 官网下载地址&#xff1a;http://seata.io/zh-cn/blog/download.html 或者下载 作者已经下载的压缩包1.4.0 注意&#xff01;&#xff01;&#xff01; 要参考对应的版本&#xff0c;否则可能出现无法正常启动的情况。 参考文档 下载完毕后解压压缩文件 2.修改配…...

理解Python闭包概念

闭包并不只是一个python中的概念&#xff0c;在函数式编程语言中应用较为广泛。理解python中的闭包一方面是能够正确的使用闭包&#xff0c;另一方面可以好好体会和思考闭包的设计思想。 1.概念介绍 首先看一下维基上对闭包的解释&#xff1a; 在计算机科学中&#xff0c;闭包…...

51单片机的教室智能照明系统【proteus仿真+程序+报告+原理图+演示视频】

1、主要功能 该系统由AT89C51/STC89C52单片机LCD1602显示模块DS1302时钟模块光照传感器红外传感器温度传感器LED等模块构成。适用于教室灯光全自动控制、教室节能灯控制、教室智能照明等相似项目。 可实现功能: 1、LCD1602实时显示时间、温度、光照强度等信息 2、光照强度传…...

一款资产进行快速存活验证工具

01工具介绍 &#xff08;下载地址见最后&#xff09; 在日常工作的渗透测试过程中&#xff0c;经常会碰到渗透测试项目&#xff0c;而Web渗透测试通常是渗透项目的重点或者切入口。通常拿到正规项目授权后&#xff0c;会给你一个IP资产列表和对应的Web资产地址&#xff0c;这时…...

I/O中断处理过程

中断优先级包括响应优先级和处理优先级&#xff0c;响应优先级由硬件线路或查询程序的查询顺序决定&#xff0c;不可动态改变。处理优先级可利用中断屏蔽技术动态调整&#xff0c;以实现多重中断。下面来看他们如何运用在中断处理过程中&#xff1a; 中断控制器位于CPU和外设之…...

关于PHP 匿名函数在处理数据结构中的应用

PHP 的匿名函数&#xff08;也称为闭包&#xff09;在处理数据结构时非常有用。它们可以在需要一次性函数的情况下使用&#xff0c;例如数组函数的回调、事件处理或作为其他函数的参数。以下是一些常见的应用场景&#xff1a; 数组操作&#xff1a; 使用 array_map、array_fil…...

安卓13默认使用大鼠标 与配置分析 andriod13默认使用大鼠标 与配置分析

总纲 android13 rom 开发总纲说明 文章目录 1.前言2.问题分析3.代码分析4.代码修改5.彩蛋1.前言 android13里面的鼠标貌似比以前版本的鼠标小了,有些客户想要把这个鼠标改大。这个功能,android有现成的,就在这里,设置 =》无障碍 =》色彩和动画 =》 大号鼠标指针。 我们通过…...

AI学习指南深度学习篇-批标准化在深度学习中的应用

AI学习指南深度学习篇-批标准化在深度学习中的应用 引言 批标准化&#xff08;Batch Normalization, BN&#xff09;是一种在深度学习中常用的技术&#xff0c;旨在加速训练过程并提高模型的稳定性。它通过标准化每一个小批量的激活值&#xff0c;减小内部协变量偏移&#xf…...

了解网络的相关信息

文章目录 前言了解网络的相关信息1. ip是什么?1.1. 公网IP:1.2. 私有IP:1.2.1. 示例 2. 子网掩码3. 子网掩码的划分网段是什么4. 特殊的回路IP网段(127.0.0.1)5. 端口 前言 如果您觉得有用的话&#xff0c;记得给博主点个赞&#xff0c;评论&#xff0c;收藏一键三连啊&#x…...

Java | Leetcode Java题解之第447题回旋镖的数量

题目&#xff1a; 题解&#xff1a; class Solution {public int numberOfBoomerangs(int[][] points) {int ans 0;for (int[] p : points) {Map<Integer, Integer> cnt new HashMap<Integer, Integer>();for (int[] q : points) {int dis (p[0] - q[0]) * (p[…...

Docker实践与应用举例

引言 Docker是一个开源的应用容器引擎&#xff0c;让开发者可以打包他们的应用以及依赖包到一个可移植的容器中&#xff0c;然后发布到任何流行的 Linux 机器上&#xff0c;也可以实现虚拟化。容器是完全使用沙箱机制&#xff0c;相互之间不会有任何接口。本文将详细介绍 Dock…...

828华为云征文 | 智能监控新篇章,Prometheus如何在华为云Flexusx容器环境中大展身手

前言 在数字化转型的浪潮中&#xff0c;智能监控成为企业IT战略的关键环节。部署在华为云Flexus X实例上的Prometheus监控系统&#xff0c;凭借其卓越的性能与灵活性&#xff0c;正开启智能监控的新篇章。Flexus X实例以其强大的计算能力和灵活的资源管理&#xff0c;为Prometh…...

基于单片机的可调式中文电子日历系统

** 文章目录 前言概要功能设计软件设计效果图 程序文章目录 前言 &#x1f497;博主介绍&#xff1a;✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师&#xff0c;一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们…...

《C++设计新思维-泛型编程与设计模式之应用》阅读记录

目录 写在前面policy和policy class的认识 写在前面 这本书是2003年出版的&#xff0c;大佬侯捷翻译的&#xff0c;21年前的书了&#xff0c;最近打算翻一翻。 看这种技术书籍&#xff0c;特别是简历理论体系的书籍&#xff0c;最好看纸质书。 本书从根本上展示了generic pa…...

vue访问组件的数据和方法

组件源码 <template><view class"c_container" :style"myStyle" click"clickCust"><view style"font-size: 18px;text-align: center;">{{item.name}}</view><view style"margin-top: 10px;font-siz…...

Redis: RDB与AOF的选择和容灾备份以及Redis数据持久化的优化方案

如何选择RDB和AOF 1 &#xff09;同时开启 在我们 Redis 的服务器上&#xff0c;把RDB和AOF同时打开, 这样可以通过RDB快速的恢复数据&#xff0c;因为它是一个紧凑的缩缩的二进制文件, 但是有时 Redis 的不小心故障了&#xff0c;丢失了十几分钟的数据 可以通过AOF来做数据的…...

Goweb---Gorm操作数据库(二)

Gorm允许用户自己自定义钩子操作&#xff0c;使用这些钩子操作&#xff0c;可以在增删改查操作前进行相关的操作和检验&#xff0c;它会在创建、更新、查询、删除时自动被调用。如果任何回调返回错误&#xff0c;GORM 将停止后续的操作并回滚事务。 自定义钩子函数 package ma…...

鸿蒙HarmonyOS之封装Http请求工具类

一、常量类 Constants.ets //超时时间10秒 static readonly HTTP_READ_TIMEOUT: number 10000;//请求成功返回码 static readonly HTTP_CODE_200: number 200;//请求成功后data中的code值&#xff08;根据实际情况定&#xff09; static readonly SERVER_CODE_SUCCESS: numb…...

java基础(4)类和对象

目录 1.前言 2.正文 2.1类的定义与使用 2.1.1类的定义 2.1.2类的实例化 2.1.3this引用 2.1.3.1 访问当前对象的成员变量 2.1.3.2调用当前对象的成员方法 2.1.3.3构造函数中的 this 2.1.3.4归纳this 2.2封装 2.2.1封装的定义 2.2.2访问修饰符 2.3static 2.3.1sta…...

[Linux]:线程(二)

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ &#x1f388;&#x1f388;养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; 所属专栏&#xff1a;Linux学习 贝蒂的主页&#xff1a;Betty’s blog 与Windows环境不同&#xff0c;我们在linux环境下需要通过指令进行各操作&…...

【unity进阶知识3】封装一个事件管理系统

前言 框架的事件系统主要负责高效的方法调用与数据传递&#xff0c;实现各功能之间的解耦&#xff0c;通常在调用某个实例的方法时&#xff0c;必须先获得这个实例的引用或者新实例化一个对象&#xff0c;低耦合度的框架结构希望程序本身不去关注被调用的方法所依托的实例对象…...

建设厅网站怎么打印不出来/广州头条新闻最新

window.alert("hello world.");转载于:https://www.cnblogs.com/Kennytian/archive/2007/02/26/656748.html...

qq刷赞网站如何做分站/泉州百度搜索推广

用到工具: 带有猫抓插件浏览器; 迅雷; 安装ffmpeg; 方案: 一、下载.ts视频文件、m3u8文件、key文件; 二、TS文件合并; 具体实施: 介绍m3u8加密: 简单一点说m3u8加密技术就是将原视频分割成n个.ts文件&#xff0c;并用一个key文件对每一个.ts文件加密&#xff0c;其中m…...

做个营销网站/优化网站排名公司

(点击图片查看优惠详情)《Access每天3分钟》第二季 第6课 自适应文本框文字大小一、课程介绍&#xff1a;▲ 全局变量 示例中用了全局变量&#xff0c;全局变量可以在窗体、报表、模块中的VBA代码调用&#xff0c;而不需要去打开窗体或报表对象。▲ AutoFitFontSize自定义函数…...

三好街 做网站/企业营销平台

Gradle是可以用于Android开发的新一代的 Build System&#xff0c; 也是 Android Studio默认的build工具。 Gradle脚本是基于一种JVM语言 -- Groovy&#xff0c;再加上DSL&#xff08;领域特定语言&#xff09;组成的。 因为Groovy是JVM语言&#xff0c;所以可以使用大部分的Ja…...

1个服务器可以做多少个网站/线上推广的优势和好处

嵌入式开发需要一定的知识和技能储备。下面列出技能树&#xff0c;后续章节再一一说明。 编程语言编程语言肯定是要的&#xff0c;这里只讲了编程语言的语法。但是你以为只要掌握C语言就够了&#xff1f;太天真了&#xff0c;Makefile 编译肯定要的呀。Kconfig 内核也要配置的呀…...

怎么做网站外链接/最新百度快速排名技术

技术特征&#xff1a;1.一种基于树状结构的测试用例管理方法&#xff0c;其特征在于&#xff1a;所述的方法包括&#xff1a;获取测试用例文件&#xff1b;获取数据存储策略和数据存储空间&#xff1b;读取所述测试用例文件&#xff0c;以建立节点树&#xff0c;并根据所述数据…...