当前位置：首页 > news >正文

51c大模型~合集89

news 2026/2/8 16:13:51

我自己的原文哦~ https://blog.51cto.com/whaosoft/12815167

#OpenAI很会营销

而号称超强AI营销的灵感岛实测成效如何？

OpenAI 是懂营销的，连续 12 天发布，每天一个新花样，如今刚过一半，热度依旧不减。

毫无疑问，这是 AI 的时代，这是信息爆炸的时代。在这个信息爆炸的时代，营销必不可少，正如著名作家米兰・昆德拉写的那样：「企业只有两个职能：营销和创新。」

并且，营销也已经不再是一个简单的「推销」过程。随着社交媒体的崛起、短视频的风靡和消费者需求的多样化，企业和创作者们在海量内容中争夺用户的注意力，早已陷入了一场「内容大战」。另一方面，各式不一的平台也给企业和创作者带来了巨大的内容生产和分发压力，比如有些平台侧重图文内容，有些平台则更喜欢横版视频，另一些则倾向于竖版视频。

小红书、抖音、哔哩哔哩等都有不同的内容偏好

此外，到了运营阶段，还存在难以转化的问题。这些问题聚集在一起，构成了营销的四大痛点：创意难、生产难、分发难、转化难。

面对无穷无尽的创意、生产、分发和转化压力，谁能真正解锁营销的「终极密码」？

这是个问题，而这个问题的答案或许正是 AI。举个例子，如果我们想要通过短视频宣传一下谷歌前两天发布的突破性量子计算芯片研究。我们完全可以将相关信息提供 AI，让其完成从编写脚本到视频生产的全过程。最终，我们得到了如下视频：

，时长00:59

灵感岛数字人介绍谷歌量子计算芯片 Willow

这段视频的制作使用了灵感岛的数字人视频制作功能。我们只需向其上传讲解文本并选择合适的音色或直接上传讲解音频，便可以生成活灵活现的讲解视频。同时，灵感岛的数字人视频制作功能还配备了一些简单的视频编辑功能，让你可以轻松地完成配置背景、添加素材和字幕等操作。

实际上，数字人只是灵感岛大量功能的冰山一角 —— 他们已经围绕 AI 营销构建了一整套功能体系，可借助 AI 完成从创意灵感、内容生成、批量改写、视频制作到内容分发的所有环节，堪称全链路 AI 营销工具。

从创意到分发如何实现全链路 AI 营销

作为一个全链路 AI 营销工具，灵感岛具有各种各样辅助营销的能力，从文案创作到图片生成再到视频制作以及最后的内容分发，涉及各种常用模态，可说是无所不包。这里我们也仅能选择其中一些有代表性的功能进行介绍。

AI 文案创作：大模型助你生成爆款文案

所有内容最难的其实是创意和灵感，比创意灵感更难的是找到能出爆款的创意和灵感！那我们来看看灵感岛是怎么帮助运营一键 get 爆款配方的。

为了更清晰地展示灵感岛的能力，下面我们将基于一个实践案例来逐步揭示灵感岛的其它核心功能。我们将从一款虚构的产品（机 42」毛绒公仔）开始，借助灵感岛的 AI 制作各种营销材料。

机 42 的简短描述：机 42 毛绒公仔是倾情打造的官方周边，以呆萌治愈的设计和柔软舒适的触感，成为智慧与欢乐的象征。不论是陪伴日常、装饰家居，还是作为节日礼品，它都能带来温暖与愉悦，是送礼和收藏的绝佳选择。机 42 毛绒公仔采用优质短毛绒与环保 PP 棉填充，高约 30cm，重约 300g，符合国家玩具安全标准，适合儿童及成年人使用。

首先，带着我们的机 42 公仔产品，进入灵感岛的 AI 创作中心。我们首先想要为其撰写一篇长文介绍，这时候灵感岛那基于大型语言模型的全文生成能力就能帮上大忙了！

不得不说，这篇文章已经有了发布在微信公众号的水准，但我们还可以使用灵感岛的生成标题和内容润色对其进行进一步优化，比如下面我们就展示了如何将上面生成的前两段文本润色成更加「高大上」的版本。

据悉，灵感岛内部 AI 创意 Lab 已经研发了多款内容智能体，涵盖：账号人设、内容日历、爆款雷达、爆文复刻、视频拆解、一键爆款复刻，让内容策划工作者能把时间都放在调研用户需求和洞察上，而基于洞察后的内容生成，则会借助智能体和工具高效完成。

除此之外，灵感岛「AI 文字魔法师」还支持生成电商评估、小红书笔记和微博批量生成、文案提取、内容安全检查等众多实用功能。而如果你是内容工作者，还可以使用移动端的灵感岛 APP，能享受到 30 余种创作应用场景。

下面就展示了如何使用灵感岛生成一则介绍「机 42」的小红书文案。

可以看到，灵感岛非常出色地完成了任务，甚至可以说超出了预期。它不仅使用 Markdown 标出了需要加粗强调的内容，还添加了小红书爆款文案常用的 emoji 以及恰到好处的标签。

不仅如此，灵感岛还针对亚马逊、抖音等特定营销场景开设了专门的文案工作室，在可帮助完成 Listing 文案和标题的创作和优化等任务，为相关业务运营者提供强有力的助力。

下面展示了一个例子，如果我们想在亚马逊上出售我们的机 42 毛绒公仔，那么完全可以借助灵感岛来编写 Listing 文案。这也凸显了灵感岛在外贸营销中的巨大潜力。

AI 图片创作：一键创作产品宣传图

当然，要发小红书，光有文本可不够，我们还得有吸睛的图片。灵感岛配置了强大的图片工作室，支持从智能抠图、高清放大、智能消除到智能商拍的一系列图像处理任务。

首先，当然是给机 42 「拍」一张凸显其可爱的图片啦！这个过程非常简单，用户只需上传无背景或简单背景的商品图片即可。当然用户也可以自行设定场景等具体需求。

如果我们对生成的场景不满意，我们还可以使用灵感岛的参考生成和商品替换功能将产品放入到我们想要的场景之中。

灵感岛另一个值得重点关注的图片能力是图片翻译，其可以在不改变原图风格的情况下将图片中的文本替换成另一种语言。这项能力对从事外贸和跨境电商的企业来说具有非常重要的实际价值。

当然，灵感岛图片工作室还有模特换脸和背景、智能消除、一键扩图、去除水印和文字等更多功能等着你来挖掘。

AI 视频创作：从脚本到视频

现在，我们已经为机 42 准备好了各种图文，是时候进军短视频了。

在视频脚本创作方面，灵感岛为视频脚本的创作设置了 3 个主要场景：智能脚本工具、AI 行业脚本、短视频智能结构。

智能脚本工具可以根据用户设定的主题自动生成相应脚本，而用户也可以对生成的脚本进行进一步的编辑和优化。之后，用户只需按照脚本描述制作相应视频素材并上传，剩下的交给灵感岛的 AI 处理即可 —— 它能为你的视频合成相应的旁白、搭配合适的音乐、制作相应的剪辑效果并生成合适的封面。

而 AI 行业脚本可以让用户更加细化自己的需求，包括设置短视频带货或直播间引流等具体场景、优惠活动、适用人群、用户痛点等等。

又或者，如果你在网上看到一个想要模仿的爆款视频，你也可以将其导入到灵感岛的短视频智能解析，之后你便可以快速学习爆款视频的逻辑，然后再自己创作一条同样有爆款内容潜质的视频。

不仅如此，灵感岛还支持营销视频规模量产，并且他们还采用了去重算法来辅助提升视频效果。这可以帮助商家轻松高效地打造矩阵账号。

此外，灵感岛还搭建了一个视频热榜，可助力用户轻松把握当前热点。通过精准捕捉当前最热门的视频内容和趋势，用户可以快速把握社交媒体的脉搏，及时调整内容策略，抢占营销制高点。

数字人极速版，免费定制形象

数字人技术已经不新鲜了，但如何真的结合实际运营场景，并真的产生效果，是所有数字人平台和运营商努力的方向。灵感岛搭建了一个丰富的数字人形象库，具备超多主播人设风格，还支持多种语言、不同音色的语音，足以满足各种行业的不同需求。

并且，你不仅能使用灵感岛预先配置的数字人，也能定制自己的数字人！只需上传训练视频和音频以及必要的授权资料，你就能克隆出自己的数字版本！

在如何让数字人视频获得好效果上，灵感岛也做了深度优化工作，从脚本灵感、爆款视频模版、到数字人视频素材的灵活使用、智能剪辑工具，让数字人视频不仅可以替代核心主播或者创始人出演，同时还能真正给用户带去优秀内容，获取有效流量转化。

在技术层面，灵感岛的数字人依托四大核心技术，构建了卓越的数字人生成生态系统。首先是 LIP-Sync 音唇同步技术，可确保数字人说话时口型与语音完美契合；其次是 GAN 对抗神经网络，可为数字人提供逼真且富有表现力的视觉形象；再有 TTS 文本语音生成技术，赋予数字人自然流畅的语音表达能力；最后是 NLP 语义理解技术，使数字人能够准确理解和回应人类交互。这四项技术相互协同、缜密配合，显著提升了数字人的生成质量和自然性。

除了数字人短视频以外，数字人直播也在两年多的运营和磨合中，展现出了稳定的效果。通过精准的形象设计和个性化交互，能够为品牌创造更吸引人的销售场景。不同于传统直播间，数字人技术，叠加团队的运营支撑，可以 24 小时不间断地进行带货直播，帮助品牌快速搭建矩阵直播间、低成本测试直播方向、以及快速实现全员全国直播等场景需求。

同时，数字人技术还可以突破地域和语言限制，实现全球化品牌传播，为企业拓展国际市场，提供更多便捷和高效的解决方案。

内容分发：一站式管理自有与外部矩阵

内容分发是现代数字营销中的关键环节，灵感岛深谙其中精髓。通过创新的内容分发功能，用户可以实现从内容制作到多平台投放的无缝衔接。目前，灵感岛支持抖音、小红书、视频号和快手等主流社交媒体平台，为内容创作者和品牌提供了极大的便利。

这个内容分发平台最大的亮点在于其极致的用户体验。用户只需简单操作，就能同时管理多个社交媒体账户，大幅降低了内容传播的人工成本和技术门槛。虽然目前平台尚未正式开放功能给用户，但已经为用户描绘了未来智能化内容分发的蓝图。

灵感岛的这一功能体现了平台对内容创作生态的深入理解：内容创作不应止步于制作本身，更应该实现高效、精准的传播。结合天下秀本身优秀深度的红人账号资源，以及灵感岛 C 端的素人培养计划，可帮助企业构建有效的分发矩阵，深度解决内容到流量的全链路问题。

随着功能的逐步完善，相信这个内容分发平台将成为灵感岛的又一个核心竞争力，为用户提供更加流畅和高效的内容传播体验。

C 端和 B 端齐发力灵感岛深度构建国内 AI 营销生态

灵感岛是国内少有的同时面向 C 端创作者与 B 端企业，提供全链路 AI 营销服务的工具。

从上面的功能介绍和演示可以看出，灵感岛不仅适用于 C 创作者的日常创作需求，还特别契合 B 端商家和品牌的营销目标。这种 C 端与 B 端双线并行的模式再加上强大的 AI 模型与十多年红人营销数据的加持，是灵感岛成为国内最适合商家体质的 AI 营销工具，为各类企业提供了智能化营销的可能性。

灵感岛的表现之所以这么好，主要是两大核心支撑：

AI 大模型技术。灵感岛已与火山引擎、豆包大模型、智谱等多家大模型厂商深度合作，可使用先进的生成模型实现高质量的智能化内容生成；尤其是在社交营销与短视频内容营销上，灵感岛正在通过合作来构建社交营销智能体全家桶。
天下秀十多年积累的海量红人营销数据。通过深度微调和自然语言处理技术，这些海量数据可用于打造出高质量、专业化的红人语言模型和多模态生成模型。

依托于这些技术，灵感岛顺势而生，并且一开始就成为了 AI 营销垂类应用的引领者。

作为国内红人营销的头部平台型公司，天下秀用灵感岛建立了 B 端企业和 C 端创作者之间的超级连接器。该公司表示：「通过 AI 进行双端赋能，一方面可让更多 C 端用户有机会成为内容创作者，另一方面也能让 B 端企业在内容、用户运营、投放都更加精细化，在营销前端以及后面的生成、制作、分发端都降本增效。」

C 端：已助力数十万创作者完成数千万内容创作

在 C 端，灵感岛提供的 AI 内容创作效率工具可帮助用户成为更优质的创作者。另一端，灵感岛又链接了品牌主、商家，可帮助创作者能够更方便、快捷地实现商业化变现。

自 2023 年 5 月灵感岛 APP 上线以来，其 30 余种创作应用场景已帮助数十万内容创作者创作了数千万条内容。这一成绩不仅体现了灵感岛的技术实力，更彰显了其对创作生态的深入理解。

灵感岛在 C 端的定位是「让人人都能创作，让创作更有价值」。通过降低创作门槛和提供高效工具，灵感岛已成为上千位行业知识者运营个人 IP 的得力助手，为专业创作者提供了全方位的支持和发展平台。通过智能工具和生态链接，灵感岛正在重塑内容创作的生态格局。

B 端：三大核心功能，助力企业实现效果效率双提升

在 B 端，灵感岛企业版于今年上线，其定位为「最适合商家需求的全链路 AI 营销工具」，并通过三大核心功能，帮助企业打造高效内容生态：

AI 内容生成：支持批量生成高质量文案、图片和视频；
AI 智能分析与分发：优化内容策略，实现精准投放；
AI 智能分发：快速构建品牌矩阵分发体系，实现内容到流量全闭环。

相较于其它 AI 营销工具，灵感岛的主要优势体现在能够提供全链路 AI 营销服务。从文案生成到图片加工和视频创作再到最后的内容分发，这一切都可以在灵感岛这一个平台上完成。目前，灵感岛企业版的客户已包含多家一线品牌和数十家中小企业。

在数字人应用方面，灵感岛的成果同样令人瞩目。公司已帮助超 2 万家门店成功克隆数字人，打造出了万店流量矩阵，显著提升了它们的品牌营销的效率与效果。

另外，天下秀还向透露，目前该公司还有两大面向 B 端的功能正在布局中。一是前面已经提到的内容分发功能，二是面向外贸企业和跨境电商用户推出的海外短视频电商功能，这两个功能都将在近期上线。此外，灵感岛 12 月内还会推出 AI 视频小程序，其功能主要是针对数字人的相关视频制作，如文案提取、文案改写、数字人一键克隆、视频快速生成等，能够实现手机端智能化批量生产优质素材。灵感岛表示未来还会涉及到更广泛和高效的 AI 业务以及效果流量业务。

值得一提的是，灵感岛于 12 月 2 日成功通过北京市生成式人工智能服务登记，成为北京市首批获批的此类应用之一。这不仅是对其技术实力的认可，也确立了灵感岛在 AI 营销领域的领先地位。

站稳国内红人营销头部市场引领 AI 营销未来

自 2009 年创立以来，天下秀便一直深耕红人营销领域，并早已成长为「红人新经济第一股」。依托于其多年积累的海量红人营销数据，灵感岛是毫无疑问的国内 AI 营销超强工具。

在数字化浪潮和 AI 技术快速迭代的今天，天下秀通过灵感岛重新定义了营销生态。从内容生产到数字人创建，从智能分析到多平台分发，灵感岛构建了一个前所未有的 AI 营销闭环。这不仅是技术创新，更是对整个数字营销生态的颠覆性重构。

回望过去，天下秀在红人营销领域的积累为灵感岛奠定了坚实基础。展望未来，随着 AI 技术的不断进步，灵感岛有望成为连接创作者、品牌和用户的重要平台，推动营销模式的革命性变革。在这个充满可能的时代，天下秀正用灵感岛书写 AI 营销的崭新篇章。

想要更完整地体验灵感岛，请访问官网：

https://market.linggandaquan.com

#World Labs这样实现「空间智能」

遵循世界的 3D 特性，很多事就会变得自然而然。

说到斯坦福大学教授李飞飞（Fei-Fei Li），她提倡的「空间智能」最近正在引领 AI 发展方向。

李飞飞已经在人工智能历史上赢得了一席之地，她多年来一直致力于创建 ImageNet 数据集和竞赛，在深度学习革命中发挥了重要作用。

2012 年，一个名为 AlexNet 的神经网络引爆了 AI 研究界，它的表现远远超过所有其他类型的模型，并赢得了当年的 ImageNet 竞赛。自那时起，神经网络开始腾飞，其动力来自互联网上可用的大量免费训练数据和提供空前计算能力的 GPU。

自 ImageNet 以来的 13 年里，计算机视觉研究者们掌握了物体识别，并转向图像和视频生成。李飞飞与他人共同创办了斯坦福大学以人为本人工智能研究所 (HAI)，并继续突破计算机视觉的界限。

就在今年，她创办了一家初创公司 World Labs，旨在生成用户可以探索的 3D 场景。World Labs 致力于为人工智能提供「空间智能」，即生成、推理和与三维世界互动的能力。

李飞飞昨天在人工智能顶会 NeurIPS 上发表了主题演讲，讲述了她对机器视觉的愿景。她表示，非常荣幸第一次在 NeurIPS 上演讲，50 分钟讲 180 页 PPT 是个很有趣的经历。

在演讲之前，李飞飞接受了 IEEE Spectrum 的独家采访，让我们看看她对空间智能有哪些新的见解：

Eliza Strickland：你为什么把你的演讲命名为「提升视觉智能的阶梯（Ascending the Ladder of Visual Intelligence）？」

李飞飞：智能具有不同层次的复杂性和精细度。在这次演讲中我想传达的是，在过去几十年，尤其是深度学习发生变革的十多年里，我们在视觉智能方面学会做的事情简直令人叹为观止。我们正在变得越来越擅长使用这项技术。同时，我也受到了 Judea Pearl 因果阶梯理论的启发，这一理论出自他 2020 年出版的书《The Book of Why》。

演讲还有一个副标题，即「从看到做到（From Seeing to Doing）」。这是人们没有足够重视的一点：从看到与交互和做事紧密相关，无论是对于动物还是对于 AI 智能体来说都是如此。这与语言背道而驰。语言从根本上来说是一种用来传达思想的交流工具。在我看来，它们是非常互补但同样深刻的智能模式。

Eliza Strickland：你的意思是我们对某些视觉刺激有本能的反应吗？

李飞飞：我不仅仅是在谈论本能。如果你观察感知的演变和动物智能的演变，你会发现它们是深深交织在一起的。每当我们能够从环境中获取更多信息时，进化的力量就会推动事物能力和智能向前发展。如果你不能感知环境，你与世界的关系就非常被动；无论你是捕食者还是被捕食者，都是一个非常被动的行为。

但是一旦你能够通过感知从环境中获取线索，进化的压迫感就会增加，这推动了智能的发展。

Eliza Strickland：你认为这就是我们创造越来越深层次的机器智能的方式吗？通过让机器更多地感知环境？

李飞飞：我不确定「深度」这个词是不是我该用的形容词。我认为我们正在创造更多的能力。我认为它将变得更加复杂，更有能力。解决空间智能问题确实是朝着全面智能（full-scale intelligence）迈出的一个基本且关键的步骤，这是绝对正确的。

Eliza Strickland：我看到过 World Labs 的演示。你为什么想研究空间智能并构建这些 3D 世界。

李飞飞：我认为空间智能是视觉智能的发展方向。如果我们真的想要解决视觉问题，并且将其与行动联系起来，有一个非常简单、显而易见的事实：世界是三维的。我们不是生活在一个平面世界中。我们的物理智能体，无论是机器人还是设备，都将生活在三维世界中。即使是虚拟世界也越来越变得三维化。

如果你和艺术家、游戏开发者、设计师、建筑师、医生交谈，即使他们在虚拟世界中工作，很多内容也是三维的。如果你花一点时间认识到这个简单但深刻的事实，毫无疑问，解决 3D 智能的问题是根本性的。

，时长01:12

Eliza Strickland：我很好奇 World Labs 中的场景是如何保持物体永久性并遵守物理定律的。这感觉像是一个令人兴奋的进步，因为像 Sora 这样的视频生成工具仍然在处理这些事情。

李飞飞：一旦你遵循世界的 3D 特性，很多事情就会变得自然而然。例如，在我们发布的一段视频中，有一个关于篮球的视频。由于场景是 3D 的，篮球会根据重力或其他物理规则正确落地并与环境交互。如果场景只是由 2D 像素生成的，篮球不会有任何物理反应，无法表现出落地或运动的效果。

Eliza Strickland：就像 Sora，球可能会去某个地方，然后消失。在推动这项技术发展的过程中，你面临的最大技术挑战是什么？

李飞飞：没有人解决了这个问题，对吧？这非常非常困难。在一个 demo 中，我们取了一幅梵高的画作，并围绕它生成了整个场景，风格一致：艺术风格、光线，甚至是那个街区会有什么样的建筑。如果你转过身来看到的是摩天大楼，那将完全不可信，对吧？而且它必须是三维的。你必须能够进入其中。所以它不仅仅是像素。

Eliza Strickland：你能说说你用来训练它的数据吗？

李飞飞：非常多。

Eliza Strickland：在算力方面是否存在很多挑战？

李飞飞：这需要大量的算力。是公共部门无法承担的那种计算能力。这也是我需要通过休学术假，以私营部门的方式来做这件事的部分原因。同时，这也是我一直倡导公共部门获得计算资源访问权的部分原因，我自己的经历强调了在足够资源支持下进行创新的重要性。

Eliza Strickland：赋予公共部门权力是一件好事，因为公共部门通常更愿意通过获取知识，为人类谋福利。

李飞飞：知识发现需要资源支持，对吧？在伽利略时代，最好的望远镜是让天文学家观察新天体的望远镜。Hooke 意识到放大镜可以变成显微镜，并发现了细胞。

每当有新的技术工具出现时，它都会帮助人们寻求知识。现在，在人工智能时代，技术工具涉及计算和数据。对于公共部门，我们必须认识到这一点。

Eliza Strickland：你希望联邦政府提供哪些资源？

李飞飞：过去五年来，斯坦福大学 HAI 一直在做这项工作。我们一直在与国会、参议院、白宫、行业和其他大学合作，创建国家人工智能研究资源中心 (NAIRR)。

Eliza Strickland：假设我们能让人工智能系统真正理解 3D 世界，这会给我们带来什么？

李飞飞：它将为人们释放大量创造力和生产力。我希望以更高效的方式设计我的房子。我知道许多医疗用途都涉及理解一个非常特殊的 3D 世界，即人体。我们总是谈论未来人类将创造机器人来帮助我们，但机器人在 3D 世界中导航，它们需要空间智能作为大脑的一部分。

我们还谈论虚拟世界，它将允许人们参观很多地方、学习概念或娱乐。这些都要使用 3D 技术，尤其是混合现实技术，我们称之为 AR [增强现实]。我很想戴着一副眼镜穿过国家公园，它能让我了解树木、道路、云朵的信息。我也想借助空间智能学习不同的技能。

Eliza Strickland：会是什么样的技能？

李飞飞：我举个蹩脚的例子，如果我在高速公路上爆胎了，我该怎么办？现在，我打开一个「如何换轮胎」的视频。但如果我能戴上眼镜，看看我的车发生了什么，然后得到指导，那就太酷了。但这是一个蹩脚的例子。你可以考虑烹饪，你可以考虑雕刻 —— 有趣的事情。

Eliza Strickland：你认为（这个方向）在我们这一代能走多远？

李飞飞：我认为这会是我们有生之年的事，因为技术进步的速度非常快。你已经看到了过去 10 年带来的变化。这肯定预示着接下来会发生什么。

参考内容：

https://spectrum.ieee.org/fei-fei-li-world-labs

https://x.com/drfeifei/status/1867286498086990325

#扩散模型=流匹配？

谷歌DeepMind博客深度详解这种惊人的等价性

扩散模型和流匹配实际上是同一个概念的两种不同表达方式吗？

从表面上看，这两种方法似乎各有侧重：扩散模型专注于通过迭代的方式逐步去除噪声，将数据还原成清晰的样本。

而流匹配则侧重于构建可逆变换系统，目标是学习如何将简单的基础分布精确地映射到真实数据分布。

因为流匹配的公式很简单，并且生成样本的路径很直接，最近越来越受研究者们的欢迎，于是很多人都在问：

「到底是扩散模型好呢？还是流匹配好？」

现在，这个困扰已得到解答。Google DeepMind 的研究团队发现，原来扩散模型和流匹配就像一枚硬币的两面，本质上是等价的 (尤其是在流匹配采用高斯分布作为基础分布时)，只是不同的模型设定会导致不同的网络输出和采样方案。

这无疑是个好消息，意味着这两种框架下的方法可以灵活搭配，发挥组合技了。比如在训练完一个流匹配模型后，不必再局限于传统的确定性采样方法，完全可以引入随机采样策略。

链接：https://diffusionflow.github.io

在这篇博客的开头，作者们写道：「我们的目标是帮助大家能够自如地交替使用这两种方法，同时在调整算法时拥有真正的自由度 —— 方法的名称并不重要，重要的是理解其本质。」

扩散模型与流匹配

扩散模型主要分为前向过程和反向两个阶段。

前向过程用公式表示为：

其中 z_t 是在时间点 t 时的带噪声数据，x 代表原始数据，ε 代表随机噪声，a_t 和 σ_t 是控制噪声添加程度的参数。

若满足

，称为「方差保持」，意味着在每个时间步骤中，噪声的方差保持不变或接近不变。

DDIM 采样器的反向过程用公式表示为：

其中，

而在流匹配中，前向过程视为数据 x 和噪声项 ε 之间的线性插值：

采样

人们普遍认为，这两个框架在生成样本的方式上有所不同：流匹配采样是确定性的，具有直线路径，而扩散模型采样是随机性的，具有曲线路径。下面文章将澄清这一误解：首先关注更简单的确定性采样，稍后再讨论随机情况。

假设你想使用训练好的降噪器模型将随机噪声转换为数据点。可以先回想一下 DDIM 的更新

，有趣的是，重新排列项可以用以下公式来表达，这里涉及几组网络输出和重新参数化：

我们再回到公式（4）中的流匹配更新，和上述方程看起来很相似。如果在最后一行将网络输出设为

，并令

，可以得到

、

这样我们就恢复了流匹配更新！更准确地说，流匹配更新可以被视为重参数化采样常微分方程（ODE）的欧拉积分：

对于 DDIM 采样器而言，普遍存在以下结论：DDIM 采样器对于应用于噪声调度 α_t、σ_t 的线性缩放是不变的，因为缩放不会影响

和

，这对于其他采样器来说并不成立，例如概率流 ODE 的欧拉采样器。

为了验证上述结论，本文展示了使用几种不同的噪声调度得到的结果，每种调度都遵循流匹配调度，并具有不同的缩放因子。如下图，随意调整滑块，在最左侧，缩放因子是 1，这正是流匹配调度，而在最右侧，缩放因子是

。可以观察到 DDIM（以及流匹配采样器）总是给出相同的最终数据样本，无论调度的缩放如何。对于概率流 ODE 的欧拉采样器，缩放确实会产生真正的差异：可以看到路径和最终样本都发生了变化。

看到这里，需要思考一下。人们常说流匹配会产生直线路径，但在上图中，其采样轨迹看起来是弯曲的。

在下面的交互式图表中，我们可以通过滑块更改右侧数据分布的方差。

不过，在像图像这样的真实数据集上找到这样的直线路径要复杂得多。但结论仍然是相同的：最优的积分方法取决于数据分布。

我们可以从确定性采样中得到的两个重要结论：

采样器的等价性：DDIM 与流匹配采样器等价，并且对噪声调度的线性缩放不变。
对直线性的误解：流匹配调度仅在模型预测单个点时才是直线。

训练

对于扩散模型，学习模型是通过最小化加权均方误差（MSE）损失来完成的：

流匹配也符合上述训练目标：

网络应该输出什么

下面总结了文献中提出的几个网络输出，包括扩散模型使用的几个版本和流匹配使用的其中一个版本。

然而，在实践中，模型的输出可能会产生非常大的影响。例如，基于相似的原因，

在低噪声水平下是有问题的，因为

没有信息量，并且错误在

中被放大了。

因此，一种启发式方法是选择一个网络输出，它是

、

的组合，这适用于

和流匹配矢量场

如何选择加权函数

加权函数是损失函数中最重要的部分，它平衡了图像、视频和音频等数据中高频和低频分量的重要性。这一点至关重要，因为这些信号中的某些高频分量是人类无法感知的。如果通过加权情况来查看损失函数，可以得出以下结果：

即公式 (7) 中的条件流匹配目标与扩散模型中常用的设置相同。下面绘制了文献中常用的几个加权函数。

流匹配加权（也称为 v-MSE + 余弦调度加权）会随着 λ 的增加而呈指数下降。该团队在实验中发现了另一个有趣的联系：Stable Diffusion 3 加权 [9]（这是流匹配的一种重新加权版本）与扩散模型中流行的 EDM 加权 [10] 非常相似。

如何选择训练噪声调度？

最后讨论训练噪声调度，因为在以下意义上，它对训练的重要程度最低：

1. 训练损失不会随训练噪声调度变化。具体来说，损失函数可以重写为

它只与端点（λ_max, λ_min）有关，但与中间的调度 λ_t 无关。在实践中，应该选择合适的 λ_max, λ_min，使得两端分别足够接近干净数据和高斯噪声。λ_t 可能仍然会影响训练损失的蒙特卡洛估计量的方差。一些文献中提出了一些启发式方法来在训练过程中自动调整噪声调度。这篇博文有一个很好的总结：https://sander.ai/2024/06/14/noise-schedules.html#adaptive

2. 类似于采样噪声调度，训练噪声调度不会随线性扩展（linear scaling）而变化，因为人们可以轻松地将线性扩展应用于 z_t，并在网络输入处进行 unscaling 以获得等价性。噪声调度的关键定义属性是对数信噪比 λ_t。

3. 人们可以根据不同的启发式方法为训练和采样选择完全不同的噪声调度：对于训练，最好有一个噪声调度来最小化蒙特卡洛估计量的方差；而对于采样，噪声调度与 ODE / SDE 采样轨迹的离散化误差和模型曲率更相关。

总结

下面给出了训练扩散模型 / 流匹配的一些要点：

加权中的等价性：加权函数对于训练很重要，它平衡了感知数据不同频率分量的重要性。流匹配加权与常用的扩散训练加权方法相同。
训练噪声调度的不重要性：噪声调度对训练目标的重要性要小得多，但会影响训练效率。
网络输出的差异：流匹配提出的网络输出是新的，它很好地平衡了

更深入地理解采样器

这一节将更详细地介绍各种不同的采样器。

回流算子

流匹配中的回流（Reflow）运算是使用直线将噪声与数据点连接起来。通过基于噪声运行一个确定性的采样器，可以得到这些 (数据，噪声) 对。然后，可以训练模型，使之可以根据给定噪声直接预测数据，而无需采样。在扩散技术的相关文献中，这同样的方法是最早的蒸馏技术之一。

确定性采样器与随机采样器

此前已经讨论了扩散模型或流匹配的确定性采样器。另一种方法是使用随机采样器，例如 DDPM 采样器。

执行一个从 λ_t 到 λ_t+Δλ 的 DDPM 采样步骤完全等价于执行一个到 λ_t+2Δλ 的 DDIM 采样步骤，然后通过执行前向扩散重新噪声化到 λ_t+Δλ。也就是说，通过前向扩散重新噪声化恰好逆转了 DDIM 所取得的一半进展。为了理解这一点，让我们看一个 2D 示例。从相同的高斯分布混合开始，我们可以执行一个小的 DDIM 采样步骤，左图带有更新反转的符号，右图则是一个小的前向扩散步骤：

对于单个样本而言，这些更新的行为完全不同：反转的 DDIM 更新始终将每个样本推离分布模式，而扩散更新完全是随机的。但是，在汇总所有样本时，更新后得到的分布是相同的。因此，如果执行 DDIM 采样步骤（不反转符号），然后执行前向扩散步骤，则整体分布与更新之前的分布保持不变。

通过重新加噪来撤消的 DDIM 步骤的比例是一个超参数，并且可以自由选择（即不必一定是 DDIM 步骤的一半）。这个超参数在《Elucidating the design space of diffusion-based generative models》中被称为 level of churn，可译为「搅动水平」。有趣的是，将搅动添加到采样器的效果是：减少采样过程早期做出的模型预测对最终样本的影响，并增加对后续预测的权重。如下图所示：

在这里，我们使用余弦噪声调度以及

预测将不同采样器都运行了 100 个采样步骤。忽略非线性相互作用，采样器产生的最终样本可以写成采样过程中做出的预测和高斯噪声 e 的加权和：

这些预测的权重 h_t 显示在 y 轴上，而 x 轴上显示不同的扩散时间 t。DDIM 会在此设置下对

预测赋予相等的权重，而 DDPM 则更注重在采样结束时所做的预测。另请参阅《Dpm-solver++: Fast solver for guided sampling of diffusion probabilistic models》以了解

中这些权重的解析表达式。

SDE 和 ODE 视角

前面，我们已经观察到扩散模型和流匹配算法之间的等价性。下面将使用 ODE 和 SDE 来形式化地描述正向过程和采样的等价性，以实现理论上的完整性。

扩散模型

扩散模型的前向过程涉及到随时间推移逐渐破坏一个数据，而该过程可使用以下随机微分方程（SDE）来描述：

其中 dz 是无穷小的高斯（即布朗运动）。f_t 和 g_t 决定了噪声调度。其生成过程由前向过程的逆过程给出，其公式为：

其中 ∇log p_t 是前向过程的分数。

请注意，这里引入了一个附加参数 η_t，它控制的是推理时的随机性。这与之前介绍的搅动（churn）参数有关。当离散化后向过程时，如果 η_t=0，则是恢复 DDIM；如果 η_t=1，则是恢复 DDPM。

流匹配

流匹配中 x 和 ε 之间的插值可以用以下常微分方程（ODE）描述：

假设该插值为

其生成过程只是在时间上反转这个 ODE，并将 u_t 替换为其对 z_t 的条件期望。这是随机插值（stochastic interpolants）的一个特例 —— 在这种情况下，它可以泛化成 SDE：

其中 ε_t 控制着推理时的随机性。

两个框架的等价性

这两个框架都分别由三个超参数定义：扩散的三个参数是 f_t、g_t、η_t，而流匹配的三个参数是 α_t、σ_t、ε_t。通过从一组超参数推导得到另一组超参数，可以显示这两组超参数的等价性。从扩散到流匹配：

从流匹配到扩散：

总之，除了训练考虑和采样器选择之外，扩散和高斯流匹配没有根本区别。

结语

读到这里，想必你已经理解了扩散模型和高斯流匹配的等价性。不过，文中重点介绍的是流匹配为该领域带来的两个新模型规范：

网络输出：流匹配提出了一种网络输出的向量场参数化方案，并且其不同于扩散文献中使用的方案。当使用高阶采样器时，网络输出可能会有所不同。它也可能影响训练动态。
采样噪声调度：流匹配利用了简单的采样噪声调度 α_t = 1-t 和 σ_t = t，并且更新规则与 DDIM 相同。

该团队最后表示：「如果能通过实证方式研究这两个模型规范在不同的真实应用中的重要性，那一定会很有趣。我们将此留给了未来的工作。」

#Insight-V

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

本文的主要作者来自南洋理工大学 S-Lab、腾讯公司和清华大学智能视觉实验室。本文的共同第一作者为南洋理工大学博士生董宇昊和清华大学自动化系博士生刘祖炎，主要研究方向为多模态模型。本文的通讯作者为南洋理工大学助理教授刘子纬和腾讯高级研究员饶永铭。

大语言模型（LLMs）通过更多的推理展现出了更强的能力和可靠性，从思维链提示发展到了 OpenAI-o1 这样具有较强推理能力的模型。尽管人们为改进语言模型的推理做出了种种努力，但在多模态视觉语言任务中，高质量的长链推理数据以及优化的训练流程仍未得到充分的探索。

为了解决上述问题，来自南洋理工大学、腾讯、清华大学的研究者们提出一种能够进行长链视觉推理的多模态模型 Insight-V。Insight-V 提供了 1）针对复杂的多模态任务，可扩展地生成冗长且可靠的推理数据；2）建立有效的训练流程，以增强多模态语言模型的推理能力。

Insight-V 的核心创新点包括：1）一个用于生成长链、高质量推理数据的可扩展的数据生成流程；2）一个将视觉推理任务分解为推理和总结的多智能体系统；3）一个用于增强视觉推理能力的两阶段训练流程。这些设计赋予了 Insight-V 较强的视觉推理能力。

论文：https://arxiv.org/abs/2411.14432

代码：https://github.com/dongyh20/Insight-V

模型：https://huggingface.co/THUdyh/Insight-V-Reason

1. 介绍

现有的研究通过长链推理来提升语言模型（LLMs）的推理能力，已经取得了显著进展，这在很大程度上得益于结构化、高质量数据的可获取性以及成熟的训练流程。相比之下，多模态语言模型（MLLMs）进行长链视觉推理仍然是一项重大挑战，主要原因是缺乏大规模、高质量的数据集以及高效有效的训练策略。与纯文本数据相比，视觉推理数据不仅收集成本更高，而且由于缺乏有效的数据生成流程，还需要大量人力来进行详细标注和验证。此外，当前的多模态语言模型无法有效利用视觉线索进行精确的视觉推理，需要一种有效的训练程序，使多模态语言模型在保持清晰视觉感知的同时能够进行详细推理。

图 1：Insight-V 方法展示。

为了解决以上挑战，本文提出了一个视觉推理的多模态系统 Insight-V，能够实现结构化的长链视觉推理。如图 1 所示，Insight-V 由两个智能体组成，一个专门负责推理，另一个负责总结，这使得它在各类视觉推理基准测试中的性能有了显著提升。

Insight-V 的主要贡献包括：

一个用于生成长链、高质量推理数据的可扩展的数据生成流程。通过利用已有的模型构建数据生成流程，从而提供丰富的，可扩展的视觉推理训练数据。
一个将视觉推理任务分解为推理和总结的多智能体系统。通过将视觉任务分解为推理和总结，并利用不同的模型来分别解决不同的任务，来提升视觉推理能力。
一个用于增强视觉推理能力的两阶段训练流程，从而使 Insight-V 能够在视觉推理评测集上取得优异的性能。

我们提供了 Insight-V 的模型权重，在视觉推理任务上表现出色，在 7B 规模下取得了综合最好的结果，在部分数据集超过最先进的综合模型和商业模型，为多模态视觉推理的发展提供了一个值得探索的方向。

2. 方法概览

结构化推理数据构建

图 2：结构化数据构建。

现有的研究已经探索了将推理能力融入多模态大型语言模型（MLLMs）中。然而，训练 MLLMs 具备强大的推理技能仍然是一个相当大的挑战，尤其是由于数据方面的限制。为了解决这一问题，我们介绍了提出的数据生成流程，该流程旨在通过渐进式生成过程和多粒度评估来生成高质量的长链推理数据。如图 2 所示，这种可扩展的方法使我们能够生成高质量的数据，从而有效地提升模型的推理能力。

渐进式长链推理数据生成。我们通过调用能力强大的多模态综合模型，来收集单步推理结果。在每一步推理结束之后，模型根据历史的推理结果来生成针对下一轮推理的动作，如果动作为‘继续推理’，下一步模型继续执行单步推理；如果动作为‘总结’，下一步模型根据历史推理内容总结得出答案。

多粒度评估。我们通过两个步骤来对生成的推理数据进行评估。首先，我们直接使用真实答案来对推理数据进行过滤，过滤掉最终答案错误的数据。之后，我们使用一个推理步骤打分模型，来针对推理数据的质量进行打分，将推理数据分为不同质量的子集，以供最后训练数据集的构建。

模型设计

推理模型。我们提出了一种专门的推理智能体，其旨在针对输入查询生成一个详细的、逐步推进的推理过程。我们通过为每个问题选取得分最高的推理路径来构建推理数据集。在基于该数据集进行训练之后，模型转变为一个具有更强推理能力的推理智能体，使其能够生成更详细、结构化的推理过程。

总结模型。我们开发了一种对推理路径中的不准确之处具有较强适应性的总结模型，该模型可根据需要有选择性地纳入或忽略某些元素。这种方法在最大程度发挥推理模型效能的同时，将引入误导性信息的风险降至最低。我们利用所收集的数据集来完成总结任务，该数据集由两类数据组成：具有最优推理过程的数据和具有有缺陷推理过程的数据。此外，为了保留原有的多模态能力，我们用标准问答数据对数据集进行补充，以维持总结智能体在直接问答方面的性能。

图 3：训练流程。

训练策略

Insight-V 的训练策略简单直接。我们从一个已经训练好的多模态模型出发，利用这个模型的权重来初始化 Insight-V 当中的两个模型。

第一阶段，我们进行多智能体系统的监督微调。对于推理模型，我们利用精心整理的推理数据集来培养逐步推理的能力。对于总结模型，我们按照上文所述构建了一个数据集，并从用于基础模型的数据集中抽取了大约一百万对通用的图文组合，以保留其原有的视觉感知能力。

在第二阶段，我们利用强化学习算法来进一步提升模型的推理能力。我们使用迭代式直接偏好优化（Iterative DPO）。通过进行多轮直接偏好优化（DPO）训练和抽样，这种方法能使该模型在训练期间更好地模拟在线环境，从而进一步提升其性能。

3. 实验结果

视觉推理

我们在 7 个基准测试上开展了评估实验，涵盖了通用推理和特定任务推理评估。当应用于 LLaVA-NeXT 和我们的基线模型时，Insight-V 展现出了显著的有效性和通用性，大幅超越了其他最先进的大型语言模型（MLLMs）。在 MMStar 数据集中，Oryx 取得 61.5% 的平均准确率。在 MME 数据集上取得了 2312 的总分，并且在 MME 的感知和认知子任务上都取得了先进的结果。针对 7 个数据集的平均结果，Insight-V 表现出色，超越了一系列先进的模型。

基础视觉感知

为了更进一步测试 Insight-V 的通用性，我们在一些侧重评估模型基础视觉感知能力的数据集上进行了测试。结果表明，InsightV 在不影响一般视觉感知能力的情况下提升了推理能力，甚至在对感知能力要求更高的基准测试上也实现了性能提升。当 Insight-V 与 LLaVA-NeXT 模型结合时，在 TextVQA，DocVQA，OCRBench，AI2D 等测试集上都有显著的性能提升，当与我们构建的更强的基础模型结合时，在这些 benchmark 上也表现出了更好的结果。

分析实验

多智能体系统的有效性。针对 Insight-V 的设计，我们与其他可能的设计选择进行了对比，包括直接进行微调、多轮对话监督、只训练总结模型。结果显示，多智能体设计的表现优于其他配置，突出了推理和总结分解的关键作用。

数据 Scaling Law 实验。我们研究了数据扩展对于 Insight-V 的影响，尤其是对于推理模型的效果。结果表明，随着推理模型训练数据的扩展，推理模型的性能得到了显著的提升。推理模型得益于数据扩展，能为总结模型提供更有价值的见解。

强化学习算法的效果。我们探究了不同的强化学习策略对于推理模型效果的影响。我们对比了使用 RLAIF 数据进行训练，直接进行 DPO 以及 Insight-V 的多轮迭代式 DPO。结果显示，相比其他方法，迭代直接偏好优化（Iterative DPO）逐步增强了模型的推理能力，从而带来了性能的提升。

4. 案例分析

我们对 Insight-V 与思维链（Chain-of-Thought）以及通过直接监督微调学习进行了定性比较。对于 Insight-V 系统而言，其推理智能体能够提供一个更加连贯且结构化的推理过程，从而引导总结智能体得出正确答案；然而，其他方法在面对复杂推理任务时会显得吃力，无法解决这类具有挑战性的问题。

5. 总结

在本文中，我们介绍了 Insight-V，这是一种新颖的系统，它将用于长链、高质量推理数据的可扩展数据生成系统与有效的多智能体训练系统相结合，以增强多模态语言模型（MLLMs）的推理能力。通过开发该系统，我们提供了一种旨在提高推理性能的可扩展模型训练方法。我们在各种基准测试中的广泛评估证明了我们这种方法的有效性，为赋予多模态语言模型更强的推理能力铺平了道路。

#NeurIPS神仙打架

李飞飞180页PPT谈视觉智能，Bengio同OpenAI员工吵架，何恺明谈AI宿命论

我们无法忽视世界是三维的，解决三维智能是根本性的。

李飞飞最新采访来了，继续延伸她在NeurIPS有关视觉智能的话题。

她表示，解决空间智能问题是迈向全面智能化的基础和关键一步。

不过从现场传出的NeurIPS演讲PPT中竟然有写：AI将取代人类？！

这究竟是怎么一回事？！

有网友表示，当她看到这页时，她的表情be like：

有一说一，今年NeurIPS好不热闹，大佬们聚在一起，就是容易制造各种话题（Doge）。

比如，疑似Bengio和OpenAI o1的人吵起来了。

何恺明竟然探讨起了AI宿命论？？？

来来来，来看看一个吃瓜汇总。

李飞飞180页PPT谈视觉智能

今年李飞飞在NeurIPS演讲的话题是《从看到到做：攀登视觉智能的阶梯》。

她自曝准备了180页ppt，从各种路透图来看，确实是干货满满。

而在最新IEEE Spectrum采访中，她进一步揭示了相关细节。（该采访是在NeurIPS演讲前进行）

采访实录：

Q：为什么演讲题目是“攀登视觉智能的阶梯（Ascending the Ladder of Visual Intelligence）”？

李飞飞：我认为，直觉告诉我们，智能具有不同的复杂度和精密度。在演讲中，我想传达这样一种感觉：在过去的几十年里，尤其是过去十多年的深度学习革命中，我们在视觉智能方面所取得的成就令人惊叹。我们越来越擅长使用这项技术。我还受到了 Judea Pearl 的“因果关系阶梯”的启发。（收录于2020年出版的《the Book of Why》）

（这里插一嘴，Judea Pearl本人还特意纠正了一下，他表示因果关系阶梯所定义的等级是第一定律的数学结果，而不是一种判断性的建构。

李飞飞：演讲还有一个副标题，即“从看到到做（From Seeing to Doing）”。这是人们没有足够重视的一点：“看 ”都与互动和 “做 ”密切相关，无论是对于动物，还是AI Agents来说都是如此。这与语言是不同的。语言从根本上说是一种交流工具，用来传递思想。在我看来，这些都是非常互补但同样深刻的智能模式。

Q：你的意思是说，我们会对某些景象做出本能的反应？

李飞飞：我说的不仅仅是本能。如果你看一下感知力的进化和动物智力的进化，就会发现这两者之间有着深刻的联系。每当我们能够从环境中获得更多信息时，进化的力量就会推动能力和智力的发展。如果你不能感知环境，你与世界的关系就会非常被动；你是吃还是被吃，都是非常被动的行为。但是，一旦你能够通过感知从环境中获取线索，进化的压力就会真正增强，从而推动智力向前发展。

Q：你认为这就是我们创造更深入的机器智能的方式吗？让机器感知更多的环境？

李飞飞：我不知道 “深度 ”是不是我想用的形容词。我认为我们正在创造更多的能力。我认为它正变得越来越复杂，越来越有能力。我认为，解决空间智能问题是迈向全面智能化的基础和关键一步，这是绝对正确的。

Q：我看过世界实验室的演示。你为什么要研究空间智能并构建这些三维世界？

李飞飞：我认为空间智能是视觉智能的发展方向。如果我们真的要破解视觉问题，并将其与做事联系起来，那么有一个极其简单、一目了然的事实：世界是三维的。我们生活的世界不是平面的。我们的物理Agent，无论是机器人还是设备，都将生活在三维世界中。就连虚拟世界也变得越来越3D化。如果你与艺术家、游戏开发者、设计师、建筑师、医生交谈，即使他们是在虚拟世界中工作，其中大部分也是三维的。如果你能花点时间认识到这个简单而深刻的事实，那么毫无疑问，解决3D智能问题就是根本所在。

一旦你尊重了世界的三维性，很多事情就自然而然地发生了。例如，在我们发布在社交媒体上的一个视频中，篮球被投放到一个场景中。因为它是三维的，所以你可以拥有这种能力。如果场景只是 2D 生成的像素，篮球将无处可去。

Q：或者，就像Sora中那样，它可能会去到某个地方，但随后就消失了。在你尝试推进这项技术的过程中，最大的技术挑战是什么？

李飞飞：没有人解决过这个问题，对吧？这非常非常难。在世界实验室的演示视频中，你可以看到我们将一幅梵高的画作，以一致的风格生成了它周围的整个场景：艺术风格、灯光，甚至是那个社区会有什么样的建筑。如果你转过身去，它就变成了摩天大楼，那就完全没有说服力了，对吗？它必须是 3D 的。你必须进入其中。所以它不仅仅是像素。

Q：你能说说你用来训练它的数据吗？

李飞飞：很多。

Q：你们在计算负担方面遇到过技术挑战吗？

李飞飞：计算量很大。这是公共部门负担不起的计算量。这也是我很高兴能休假，以私营部门的方式来做这件事的部分原因。我的亲身经历强调了在获得充足资源的情况下进行创新的重要性。

知识的发现需要资源的支持，对吧？在伽利略时代，是最好的望远镜让天文学家观测到了新的天体。是虎克意识到放大镜可以变成显微镜，发现了细胞。每一次新技术工具的出现，都有助于知识的探寻。而现在，在人工智能时代，技术工具涉及计算和数据。我们必须认识到这一点。

Q：假设我们能让人工智能系统真正理解三维世界，这会给我们带来什么？

李飞飞：它将为人们释放大量的创造力和生产力。我希望能以更高效的方式设计我的房子。我知道，许多医疗用途都涉及到理解一个非常特殊的三维世界，那就是人体。我们总在谈论未来人类将创造机器人来帮助我们，但机器人是在三维世界中航行的，它们需要空间智能作为大脑的一部分。我们也在谈论虚拟世界，它能让人们参观景点、学习概念或娱乐。这些虚拟世界使用三维技术，尤其是混合技术，也就是我们所说的 AR（增强现实技术）。我很想戴着一副眼镜在国家公园里漫步，它能为我提供有关树木、道路和云彩的信息。我还想通过空间智能学习不同的技能。

Q：什么样的技能？

李飞飞：我举个蹩脚的例子，如果我在高速公路上爆胎了，我该怎么办？现在，我打开了一个 “如何换轮胎 ”的视频。但如果我能戴上眼镜，看到我的车发生了什么，然后在指导下完成这个过程，那就很酷了。但这只是个蹩脚的例子。你可以考虑烹饪，可以考虑雕刻—有趣的事情。

Q：你认为我们在有生之年能在这方面取得多大进展？

李飞飞：哦，我认为这将在我们有生之年实现，因为科技进步的步伐真的很快。你已经看到了过去 10 年所带来的变化。这无疑预示着下一步会发生什么。

今年NeurIPS好热闹

NeurIPS整个会议期间，可以说是好不热闹。

比如，Bengio和OpenAI的人吵起来了。

据在场的人爆料，在今年因果关系小组讨论中，OpenAI o1的主创表示，我们最终应该训练Agent来优化对世界的理解，来解决科学问题。

Bengio还有一位谷歌AGI安全研究员Tom Everitt则指出这样做很可怕！他们表示不应该制造这样强大的Agent，还有其他方法可以增强人类的能力，并进行科学研究，比如让模型学习因果图。

而就在刚才，Bengio还进一步回应了，再次强调了AI Agent潜在的风险。

如果我们不解决调整和控制问题，随着我们赋予系统越来越多的代理权，人工智能的风险将继续增长。在此之前，我们需要在科学和政策两方面取得重大进展。

而何恺明竟然探讨起了AI宿命论？！

据热心网友们的爆料，他是在被问到AI属于发明还是发现的时候。

他表示这要看你相不相信宿命论了。（Doge）

除此之外，他在演讲中探讨了AI未来的发展：Super-human AI？

据小红书网友爆料，他提到一个有意思的观点，他将人类比作大模型的传感器：

人类感知，理解，压缩了世界的所有的知识并用文本和语言记录下来。大语言模型吸取，学习这些内容并将其建模为一个强大而丰富的空间。但是就像你只用RGB观测宇宙一样，总会有紫外，红外这样看不到，看不清的东西。

好了，NeurIPS期间还有没有发生什么有意思的事情，欢迎小伙伴们跟我们爆料。

参考链接：
[1]https://spectrum.ieee.org/fei-fei-li-world-labs
[2]https://x.com/connoraxiotes/status/1866921924703498412
[3]https://x.com/kyliebytes/status/1866987524805234785
[4]https://www.xiaohongshu.com/explore/6759be860000000001029429
[5]http://xhslink.com/a/IFIoiN1IoRy1
[6]https://x.com/yoshua_bengio/status/1867274312941523193?s=46&t=iTysI4vQLQqCNJjSmBODPw

51c大模型~合集89

#OpenAI很会营销

#World Labs这样实现「空间智能」

#扩散模型=流匹配？

#Insight-V

#NeurIPS神仙打架

相关文章：

51c大模型~合集89

【蓝桥杯备战】Day 1

FedAdam算法:供给方信用，数据质量；更新一致性

内存卡格式化后的数据恢复全攻略

介绍交叉熵损失（Cross-Entropy Loss）以及交叉熵在对比学习中的应用：中英双语

RabbitMQ的几个概念

Ollama部署大模型并安装WebUi

Debedium如何忽略Oracle的purge命令

PlantUML 语言

linux的 .so和.ko文件分别是什么？主要区别是什么？

XX服务器上的npm不知道咋突然坏了

数据结构（优先级队列：Priority Queue）

nginx.conf 请求时间部分参数说明新手教程

【Linux-ubuntu通过USB传输程序点亮LED灯】

《开源时间序列数据：探索与应用》

三相异步电动机跳闸的原因是什么?

连续思维链Coconut ，打开LLM推理新范式

阿里云数据库MongoDB版助力极致游戏高效开发

ESP32-S3模组上跑通ES8388（29）

使用ElasticSearch实现全文检索

通过Wrangler CLI在worker中创建数据库和表

网络编程（UDP编程）

基于matlab策略迭代和值迭代法的动态规划

NPOI操作EXCEL文件 ——CAD C# 二次开发

Bean 作用域有哪些？如何答出技术深度？

libfmt: 现代C++的格式化工具库介绍与酷炫功能

认识CMake并使用CMake构建自己的第一个项目

Spring Boot + MyBatis 集成支付宝支付流程

TCP/IP 网络编程 | 服务端客户端的封装

leetcode73-矩阵置零