当前位置: 首页 > news >正文

开源生成式物理引擎Genesis,可模拟世界万物

这是生成大模型时代 —— 它们能生成文本、图像、音频、视频、3D 对象…… 而如果将所有这些组合到一起,我们可能会得到一个世界!

现在,不管是 LeCun 正在探索的世界模型,还是李飞飞想要攻克的空间智能,又或是其他研究团队提出的其它类似概念,我们都毫无疑问地在离这个世界越来越近。

2024年12月24日,Genesis横空出世。

据项目贡献者 CMU 机器人研究所博士生 Zhou Xian 和领导者 Chuang Gan 教授在 X 上分享的内容看,该项目耗费了 2 年多时间,海内外近 20 家机构参与了内部测试,最终这个联合团队得到的 Genesis 生成式物理引擎可以生成 4D 动态世界,而其基础是一个用于通用机器人和物理 AI 应用的物理模拟平台。

Genesis,意为「创世纪」,从名字也能看出,这或许真是一个新世界的起点。

Genesis是什么?

Genesis是卡内基梅隆大学、马里兰大学、斯坦福大学、麻省理工学院等研究机构联合推出的开源生成式物理引擎,能模拟世界万物。

Genesis能用简单的语言描述,快速生成精确的物理模拟,包括物体运动、人物动作和机器人策略等。引擎的特点在于高度的物理准确性、快速的模拟速度(比现实世界快约43万倍),及用户友好的Python化设计。

Genesis能模拟各种材料和物理现象,提供一个轻量级、超快速的机器人仿真平台,及一个强大而快速的照片级写实渲染系统。

Genesis能将用户的自然语言描述转换为数据模式,用在生成式数据引擎。

Genesis为通用机器人、具身AI和物理AI应用而设计,预示着物理模拟和机器人技术领域的重大进步。

Genesis主要功能

  • 物理模拟:模拟各种材料和物理现象,包括物体的运动、碰撞、流体动力学等。
  • 机器人仿真:提供轻量级、超快速的机器人仿真平台,支持多种机器人类型,如机械臂、腿式机器人、无人机、软体机器人等。
  • 照片级渲染:拥有强大而快速的照片级写实渲染系统,能生成高质量的视觉输出。
  • 生成式数据引擎:将用户的自然语言描述转换为数据模式,用在生成模拟场景。
  • 交互式3D场景:支持完全交互式的3D场景生成,包括家居室内场景、游戏环境等。
  • 开放世界物体生成:能生成开放世界中的铰接式物体,提供高质量的mesh资产软体。
  • 机器人模拟:针对软性机器人实现逼真的模拟,如虫、柔软的抓手等。
  • 面部动画和语音同步:生成面部动作和表情,与语音同步,实现逼真的面部动画。

Genesis的技术原理

  • 通用物理引擎:从头开始构建,集成各种物理求解器,如刚体、MPM(物质点方法)、SPH(光滑粒子流体动力学)、FEM(有限元方法)、PBD(位置基动力学)等,实现精确的物理拟。
  • 生成Agent框架:在核心物理引擎之上运行,用在自动化数据生成,包括视频、摄像机运动、角色动作、机器人策略等。
  • 可微分仿真:支持可微分仿真,让仿真过程与机器学习算法结合,用在训练和优化。
  • 多模态集成:将物理模拟与视觉渲染、动作捕捉、语音合成等多模态技术集成,实现全面的模拟体验。
  • 跨平台兼容性:设计为可在不同操作系统和计算后端(如CPU、Nvidia GPU、AMD GPU、Apple Metal)上运行。

Genesis应用场景

  • 机器人仿真训练:模拟复杂环境,训练机器人在现实世界中执行任务。
  • 游戏物理引擎:在游戏开发中,创建逼真的物理效果和角色动作。
  • 电影特效制作:模拟逼真的物理破坏和动态效果,用在电影后期制作。
  • 科学研究模拟:在物理学和工程学研究中,模拟实验和测试理论。
  • 虚拟教学平台:在教育领域,创建虚拟实验室,辅助物理和科学教学。

当然,也能用于生成训练用的自动驾驶场景数据。

接下来,我们看看具体的示例展示。

生成4D动态物理世界

Genesis 物理引擎由基于 VLM 的生成式智能体提供支持,该智能体使用模拟基础设施提供的 API 作为工具来创建 4D 动态世界,然后将其用作提取各种模式数据的基础数据源。

结合生成相机和物体运动模块,Genesis 能够生成物理上精确且视图一致的视频和其他形式的数据。并且,Genesis 还支持模拟各种不同的材料,包括刚体、铰接体、布料、液体、烟雾、可变形体、薄壳材料、弹性 / 塑性体、机器人肌肉等。

模拟一层巧克力酱,自然不在话下。

图片

绞碎泡沫的质感看起来也非常真实。

图片

星球与太空船的质感也非常高,看起来就像是来自一部大制作的科幻电影。

图片

子弹击破水球的物理过程就好像真的是来自设备精良的高速摄影。

图片

一壶字母糖,看起来很 Q 弹。

图片

对充气人偶的模拟也恰到好处,同样也非常幽默地模拟现实状况。

图片

角色动作生成

有了如此高质量的物理引擎,对于游戏制作业来说也是好消息,许多复杂的动作和效果都可以通过提示词来快速生成了:

图片

提示:手持棍棒的迷你版悟空在桌面上飞奔 3 秒,然后跳到空中,落地时右臂向下摆动。镜头从他的脸部特写开始,然后稳定地跟随角色,同时逐渐缩小。当悟空跳到空中时,在跳跃的最高点,动作暂停几秒钟。镜头围绕角色 360 度旋转,然后缓慢上升,然后继续动作。

设计动作的时间成本一下子就被打下来了。

图片

机器人策略生成

Genesis 可以利用生成式机器人智能体和物理引擎自动生成不同场景下各种技能的机器人策略和演示数据。这意味着研究人员可以在仿真环境中快速获得符合物理规律的机器人动作方案,并将其可靠地迁移到实体机器人上。

下面展示了一些不同形态的机器人执行不同任务的示例。

图片

提示:一个移动的 Franka 机械臂使用碗和微波炉做爆米花

图片

提示:宇树 Go2 四足机器人在雨中奔跑 (Sim)

比如,从提示词到在仿真环境中的动作策略,再迁移到实体机器人上,可以如此丝滑:

图片

提示:宇树 H1-2 人形机器人向前行走 (Sim2Real)

做倒立需要精确平衡控制和全身协调,这么高难度的动作,现在也可以通过 Genesis 来实现 Sim2Real:

图片

提示:四足机器人用前两条腿做倒立 (Sim2Real)

倒立不够,在 Genesis 的助力下,机器狗还能更快地学会「体操技巧」,稳稳地做两个直体后空翻:

图片

四足机器人连着后空翻两次 (Sim2Real)

像拉椅子这样要和真实世界里的物体交互的动作,也没问题:

图片

大型欠驱动机器人的运动操作 (Sim2Real)

3D完全交互式场景生成

Genesis 的生成框架支持生成 3D 和完全交互的场景,这些场景可用于训练机器人技能。

图片

     家庭室内场景,有客厅(包括用餐区)、卫生间、书房和卧室。

图片

餐厅内部

开放世界铰接物体生成

Genesis 也能生成具有铰接结构的物体及其交互过程,例如汽车开关门、打开合上笔记本电脑、折叠金属刀片。

图片

软体机器人

Genesis 还是首个为软肌肉和软机器人及其与刚性机器人的交互提供全面支持的平台。Genesis 还附带类似 URDF 的软机器人配置系统。官方还提供了一个相关教程:https://genesis-world.readthedocs.io/en/latest/user_guide/getting_started/soft_robots.html

图片

Genesis 也能模拟带有软皮肤和刚性骨骼的混合机器人。

图片

语音音频,面部表情和情绪生成

音频以及面部表情也是 Genesis 想要整合的模态,下面展示了两个示例:

人物情绪从中性转变为愤怒,然后再转变为快乐。 

 Genesis 将情绪的转变泛化到不同的面部

结语

最后,Zhou Xian 展示了一个用 Genesis 打造的俄罗斯方块游戏,其中的方块是果冻材质的,并且能以符合现实的物理规律运动。

图片

我们以前可能也刷到过类似的视频,但那些是视频特效师们精心制作的结果,而现在 Genesis 已经可以一键导出,并进一步转化为真实可实现的技术突破。

淦创教授在 X 上分享了自己参与这个项目的经历:自 2018 年以来,我决定将自己的研究重点从视觉转向具身 AI,因为我着迷于创建能够与物理世界和其他具有类似人类灵活性的智能存在交互的通用智能体——我们将这个领域称为具身 AGI(embodied AGI)。

他还写到:「说实话,有时候我觉得这个模拟器可能太先进了,不能发布,但我们相信让它完全开源并围绕我们的使命建立一个强大的社区是至关重要的!请加入 Genesis 社区!我们希望让机器人学研究社区相信『Generative Physics Simulator is all You Need

 

Genesis项目地址

项目官网:Genesisicon-default.png?t=O83Ahttps://genesis-embodied-ai.github.io/?utm_source=ai-bot.cn
GitHub仓库:GitHub - Genesis-Embodied-AI/Genesis: A generative world for general-purpose robotics & embodied AI learning.A generative world for general-purpose robotics & embodied AI learning. - Genesis-Embodied-AI/Genesisicon-default.png?t=O83Ahttps://github.com/Genesis-Embodied-AI/Genesis

相关文章:

开源生成式物理引擎Genesis,可模拟世界万物

这是生成大模型时代 —— 它们能生成文本、图像、音频、视频、3D 对象…… 而如果将所有这些组合到一起,我们可能会得到一个世界! 现在,不管是 LeCun 正在探索的世界模型,还是李飞飞想要攻克的空间智能,又或是其他研究…...

kubernetes第七天

1.影响pod调度的因素 nodeName 节点名 resources 资源限制 hostNetwork 宿主机网络 污点 污点容忍 Pod亲和性 Pod反亲和性 节点亲和性 2.污点 通常是作用于worker节点上,其可以影响pod的调度 语法:key[value]:effect effect:[ɪˈfek…...

RK3588上CPU和GPU算力以及opencv resize的性能对比测试

RK3588上CPU和GPU算力以及opencv resize的性能对比测试 一.背景二.小结三.相关链接四.操作步骤1.环境搭建A.安装依赖B.设置GPU为高性能模式C.获取GPU信息D.获取CPU信息 2.调用OpenCL SDK获取GPU信息3.使用OpenCL API计算矩阵乘4.使用clpeak测试GPU的性能5.使用OpenBLAS测试CPU的…...

基于Centos 7系统的安全加固方案

创作不易,麻烦点个免费的赞和关注吧! 声明! 免责声明:本教程作者及相关参与人员对于任何直接或间接使用本教程内容而导致的任何形式的损失或损害,包括但不限于数据丢失、系统损坏、个人隐私泄露或经济损失等&#xf…...

IT行业的发展趋势

一、引言 IT(信息技术)行业自诞生以来,就以惊人的速度发展,不断改变着我们的生活、工作和社会结构。如今,随着技术的持续创新、市场需求的演变以及全球经济格局的变化,IT行业正迈向新的发展阶段&#xff0…...

《探秘开源多模态神经网络模型:AI 新时代的万能钥匙》

《探秘开源多模态神经网络模型:AI 新时代的万能钥匙》 一、多模态模型的崛起之路(一)从单一到多元:模态的融合演进(二)关键技术突破:解锁多模态潜能 二、开源多模态模型深度剖析(一&…...

ROS核心概念解析:从Node到Master,再到roslaunch的全面指南

Node 在ROS中,最小的进程单元就是节点(node)。一个软件包里可以有多个可执行文件,可执行文件在运行之后就成了一个进程(process),这个进程在ROS中就叫做节点。 从程序角度来说,node就是一个可执行文件&…...

2025广州国际汽车内外饰技术展览会:引领汽车内外饰发展新潮流-Automotive Interiors

随着科技的不断进步和消费者对汽车品质的要求日益提高,汽车内外饰的设计和制造也在不断创新和发展。AUTO TECH China 2025广州国际汽车内外饰技术展览会作为行业内的重要盛会,将于2025年11月20日至22日在广州保利世贸博览馆盛大举办。本次展览会将汇集全…...

ElasticSearch内存占用率过高怎么办?

文章目录 1,先用top看看各个进程的内存占用情况2,不能简单的杀死进程,然后再重启。3,查看一下ElasticSearch进程的具体启动情况4,修改Elasticsearch 的Java堆内存 1,先用top看看各个进程的内存占用情况 先…...

基于Qt的OFD阅读器开发原理与实践

摘要 本文详细探讨了基于Qt开发OFD阅读器的原理与实践。通过解析OFD文件格式、构建文档结构、实现页面渲染、处理用户交互以及进行性能优化,本文展示了如何使用Qt框架开发一个功能强大、性能优异的OFD阅读器。文章还提供了示例代码和未来发展方向,为开发…...

用 HTML5 Canvas 和 JavaScript 实现流星雨特效

最近在研究前端动画效果时,实现了一个超酷的流星雨特效,今天来和大家分享下具体实现过程。 1,整体实现思路 这个流星雨特效主要由 HTML、CSS 和 JavaScript 协同完成。HTML 搭建基础结构,CSS 负责页面样式设计,JavaScript 实现星星和流星的动态效果。 效果展示: 用 HTM…...

Apifox=Postman+Swagger+Jmeter+Mock

A. 开发人员接口管理使用(Swagger 工具管理接口) B. 后端开发人员通过Postman 工具,一边开发一边测试 C. 前端开发人员需要Mock 工具提供前端调用 D. 测试人员通过(Postman、Jmeter)等工具进行接口测试 为了后台开发、前端开发、测试工程师等不同角色更加便捷管理…...

SpringBoot多数据源架构实现

文章目录 1. 环境准备2. 创建Spring Boot项目3. 添加依赖4. 配置多数据源5. 配置MyBatis-Plus6. 使用多数据源7. 创建Mapper接口8. 实体类定义9. 测试多数据源10. 注意事项10.1 事务导致多数据源失效问题解决方案: 10.2 ClickHouse的事务支持10.3 数据源切换的性能开…...

HarmonyOS开发:传参方式

一、父子组件传参 1、父传子(Prop方式) 父组件代码 Entry Component struct ParentComponent {State parentMessage: string Hello from Parent;build() {Column() {ChildComponent({ message: this.parentMessage });}} } 子组件代码 Component s…...

OpenCV计算机视觉 07 图像的模块匹配

在做目标检测、图像识别时,我们经常用到模板匹配,以确定模板在输入图像中的可能位置 API函数 cv2.matchTemplate(image, templ, method, resultNone, maskNone) 参数含义: image:待搜索图像 templ:模板图像 method&…...

国产游戏崛起,燕云十六移动端1.9上线,ToDesk云电脑先开玩

游戏爱好者的利好消息出新了!网易大型武侠仙游《燕云十六声》正式官宣,移动端要在1月9日正式上线了!你期待手游版的燕云吗?不妨评论区留言说说你的看法。小编分别花了几个小时在台式机电脑和手机上都试了下,欣赏画面还…...

企业级PHP异步RabbitMQ协程版客户端 2.0 正式发布

概述 workerman/rabbitmq 是一个异步RabbitMQ客户端,使用AMQP协议。 RabbitMQ是一个基于AMQP(高级消息队列协议)实现的开源消息组件,它主要用于在分布式系统中存储和转发消息。RabbitMQ由高性能、高可用以及高扩展性出名的Erlan…...

[OPEN SQL] 限定选择行数

本次操作使用的数据库表为SCUSTOM&#xff0c;其字段内容如下所示 航班用户(SCUSTOM) 该数据库表中的部分值如下所示 指定查询多少行数据&#xff0c;我们可以使用语法UP TO n ROWS来实现对数据前n项的查询 语法格式 SELECT * FROM <dbtab> UP TO n ROWS 参数说明 db…...

Vite源码学习分享(一)

!](https://i-blog.csdnimg.cn/direct/971c35b61c57402b95be91d2b4965d85.png) 同一个项目 vite VS webpack启动速度对比...

定位,用最通俗易懂的方法2:TDOA与对应的CRLB

二郎就不设置什么VIP可见啥的了&#xff0c;这样大家都能看到。 如果觉得受益&#xff0c;可以给予一些打赏&#xff0c;也算对原创的一些鼓励&#xff0c;谢谢。 钱的用途&#xff1a;1&#xff09;布施给他人&#xff1b;2&#xff09;二郎会有更多空闲时间写教程 起因&…...

Linux第一课:c语言 学习记录day06

四、数组 冒泡排序 两两比较&#xff0c;第 j 个和 j1 个比较 int a[5] {5, 4, 3, 2, 1}; 第一轮&#xff1a;i 0 n&#xff1a;n个数&#xff0c;比较 n-1-i 次 4 5 3 2 1 // 第一次比较 j 0 4 3 5 2 1 // 第二次比较 j 1 4 3 2 5 1 // 第三次比较 j 2 4 3 2 1 5 // …...

ExplaineR:集成K-means聚类算法的SHAP可解释性分析 | 可视化混淆矩阵、决策曲线、模型评估与各类SHAP图

集成K-means聚类算法的SHAP可解释性分析 加载数据集并训练机器学习模型 SHAP 分析以提取特征对预测的影响 通过混淆矩阵可视化模型性能 决策曲线分析 模型评估&#xff08;多指标和ROC曲线的目视检查&#xff09; 带注释阈值的 ROC 曲线 加载 SHAP 结果以进行下游分析 与…...

2025年第三届“华数杯”国际大学生数学建模竞赛A题题目

问题A&#xff1a;他能游得更快吗&#xff1f; 背景介绍 在2024年巴黎奥运会上&#xff0c;中国游泳运动员潘展乐凭借出色的表现成为全球瞩目的焦点。年仅19岁的他在男子100米自由泳比赛中以46秒40 的成绩夺冠&#xff0c;并创造了自己保持的世界纪录。在男子4100米混合泳接力…...

用c实现C++类(八股)

在 C 语言中&#xff0c;虽然没有内建的面向对象编程&#xff08;OOP&#xff09;特性&#xff08;如封装、继承、多态&#xff09;&#xff0c;但通过一些编程技巧&#xff0c;我们仍然可以模拟实现这些概念。下面将用通俗易懂的方式&#xff0c;逐步介绍如何在 C 中实现封装、…...

【C++多线程编程:六种锁】

目录 普通互斥锁&#xff1a; 轻量级锁 独占锁&#xff1a; std::lock_guard&#xff1a; std::unique_lock: 共享锁&#xff1a; 超时的互斥锁 递归锁 普通互斥锁&#xff1a; std::mutex确保任意时刻只有一个线程可以访问共享资源&#xff0c;在多线程中常用于保…...

【Javascript Day5】for循环及典型案例

for 循环 // 语法&#xff1a; for( 开始 ; 结束 ; 步长 ){ 循环体 } // for( var i 循环初始值 ; i的循环范围 ; i的增加或减少规则 ){ 循环体 } // 死循环 // for(;;){ // console.log("for循环"); // } // 循环打…...

#渗透测试#网络安全#一文了解什么是shell反弹!!!

免责声明 本教程仅为合法的教学目的而准备&#xff0c;严禁用于任何形式的违法犯罪活动及其他商业行为&#xff0c;在使用本教程前&#xff0c;您应确保该行为符合当地的法律法规&#xff0c;继续阅读即表示您需自行承担所有操作的后果&#xff0c;如有异议&#xff0c;请立即停…...

《解锁图像的语言密码:Image Caption 开源神经网络项目全解析》

《解锁图像的语言密码&#xff1a;Image Caption 开源项目全解析》 一、开篇&#xff1a;AI 看图说话时代来临二、走进 Image Caption 开源世界三、核心技术拆解&#xff1a;AI 如何学会看图说话&#xff08;一&#xff09;深度学习双雄&#xff1a;CNN 与 RNN&#xff08;二&a…...

抢占欧洲电商高地,TikTok 运营专线成 “秘密武器”

在当今数字化浪潮席卷全球的时代&#xff0c;社交媒体平台已成为商业拓展的关键阵地&#xff0c;TikTok 更是其中的闪耀新星。近日&#xff0c;一则重磅消息引发行业关注&#xff1a;TikTok 正计划于 2025 年初进军荷兰电商市场。这一战略布局&#xff0c;不仅彰显了 TikTok 对…...

人工智能-数据分析及特征提取思路

1、概况 基于学生行为数据预测是否涉黄、涉黑等。 2.数据分析 数据分析的意义包括得到数据得直觉、发掘潜在的结构、提取重要的变量、删除异常值、检验潜在的假设和建立初步的模型。 2.1数据质量分析 2.1.1数据值分析 查看数据类型&#xff1a; 首先明确各字段的数据类型…...

二手车做的好的网站有哪些/百度信息流投放

接上篇&#xff1a;搜索引擎优化要领&#xff1a;8条辅助技巧&#xff08;二&#xff09; 六、正确使用重定向 有很多的原因&#xff0c;你可能会重定向的内容&#xff1a; 当移动一个旧站点到一个新的领域 指挥交通从一个网页到还有一个 移动通信从过期的页面到现有的页面 要移…...

wordpress 首页多栏/黑帽seo排名优化

转载至&#xff1a;https://www.anquanke.com/post/id/170850PHP中的格式化字符串函数在PHP中存在多个字符串格式化函数&#xff0c;分别是printf()、sprintf()、vsprintf()。他们的功能都大同小异。printf, int printf ( string $format [, mixed $args [, mixed $... ]] ),直…...

网站建设属于什么税/微信营销方式

SDN&#xff1a;简述对SDN的认识SDN &#xff0c;即软件定义网络&#xff08;Software Defined Network&#xff09;。SDN只是一种架构&#xff0c;一种思想&#xff0c;具体的实现多种多样&#xff0c;OpenFlow只是其中一种。 SDN的三个本质属性&#xff1a; a.认为…...

西安营销型网站建设/免费入驻的卖货平台

在现实生活中&#xff0c;有些集合对象中存在多种不同的元素&#xff0c;且每种元素也存在多种不同的访问者和处理方式。例如&#xff0c;公园中存在多个景点&#xff0c;也存在多个游客&#xff0c;不同的游客对同一个景点的评价可能不同&#xff1b;医院医生开的处方单中包含…...

广州企业注册一网通/seo优化工具大全

Java分布式锁 原文出自&#xff1a;https://blog.csdn.net/seesun2012 ### 什么是锁&#xff1f; 在单进程的系统中&#xff0c;当存在多个线程可以同时改变某个变量&#xff08;可变共享变量&#xff09;时&#xff0c;就需要对变量或代码块做同步&#xff0c;使其在修改这…...

做高仿包的网站有哪些/百度搜索排名规则

chunlvxiong的博客 题目描述&#xff1a; 给出一个5*5的棋盘&#xff0c;每个骑士可以走日字走到空格位置&#xff0c;问最少几步形成如下局面。 如果最少步数超过15步&#xff0c;输出-1。 思考&分析&#xff1a; 搜索无非也就是深搜或广搜&#xff0c;如果广搜的话由于总…...