一张图生成可交互3D世界：李飞飞团队Marble发布，空间智能Chatgpt时刻来临

RF-or

1467人浏览 · 2025-11-19 01:28:24

RF-or · 2025-11-19 01:28:24 发布

在这里插入图片描述

网站链接：https://marble.worldlabs.ai/
官方网站：https://www.worldlabs.ai/blog/marble-world-model
长文链接：https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence?subscribe_prompt=free

官方视频

重磅开篇！！

在这里插入图片描述
作为李飞飞“空间智能”理念的首个规模化落地成果，李飞飞在产品发布推文及此前的万字长文中均明确指出：“空间智能是AI的下一个前沿，它将把‘看见’转变为‘推理’，将‘感知’转变为‘行动’，将‘想象’转变为‘创造”，而Marble正是这一理念的具象化实践。

一、Marble

空间智能，是指 AI 拥有了 “立体思维和动手能力”，能像人一样看懂、构建、操控 3D 世界，还能和这个世界互动。它仅凭文字描述、一张照片、几段视频，就能在 “大脑” 里还原出有前后、上下、左右的立体空间，甚至生成全新的虚拟场景；更能对这个 3D 世界随意修改 —— 比如给房间换家具、把小场景扩建成大城堡、拼接多个空间形成复杂环境，最后还能把建好的立体世界导出成可用的格式，适配游戏、设计、机器人训练等不同场景。

作为World Labs的首款空间智能产品，Marble搭载了自主研发的多模态世界模型，核心优势在于**“低门槛输入、高保真输出、可再生编辑”** 。它打破了传统3D建模的技术壁垒，让任何人（无论是否具备专业技能）都能通过简单输入生成可自由探索、精细编辑、多格式导出的3D虚拟世界，为科研实验、产品开发、创意创作提供了高效解决方案。

在这里插入图片描述

1.1 产品核心特性总览

在这里插入图片描述

特性类别	关键能力	价值亮点
输入方式	单图/多图、文本、视频、3D布局、全景图	多模态兼容，无需专业数据采集设备
生成质量	高保真纹理、持久化3D环境、3A游戏级视觉效果	细节还原度高，支持自由旋转、缩放探索
编辑能力	AI原生编辑工具、Chisel 3D布局控制	从局部修改到整体重构，精细度可控
导出格式	高斯溅射点、三角网格、视频、360全景图	适配行业标准工具，支持下游科研/开发场景
差异化优势	首个支持混合3D编辑、持久化3D生成的产品	区别于实时生成类工具，可下载、可迭代

二、核心功能深度解析：从输入到输出的全流程革新

2.1 多模态输入：零门槛创建3D世界

Marble支持五种输入方式，覆盖从快速原型到高精度建模的全场景需求，无需复杂操作即可启动3D生成：

在这里插入图片描述

（1）文本+单图输入：最简单的“想象变现”

这是最基础也最易用的输入模式。只需一句文本描述（如“a detailed, lived-in hobbit kitchen filled with woven baskets and copper kettles”），或一张2D图片（如机器人叠衣服的照片），Marble就能自动补全细节，生成完整的3D世界。

文本输入优势：无需可视化素材，直接将抽象构想转化为具象场景，支持多种艺术风格（写实、科幻、奇幻、室内、室外等）切换。
单图输入优势：可与Midjourney、Stable
Diffusion等AI绘图工具联动——先用绘图工具生成目标场景的2D图像，再导入Marble升级为3D世界，实现“2D→3D”的快速转化。

在这里插入图片描述
实测效果显示，该模式生成的3D场景在光影、材质还原上达到3A游戏水准，用户可任意旋转镜头、放大细节，唯一不足是部分复杂物体（如机器人）可能存在轻微“幻觉”（形态不够精准），但整体不影响场景使用。

（2）多图像+视频输入：高精度还原与创意控制

针对科研场景中“需要精准还原真实物体/场景”的需求，Marble支持多图像或视频输入模式，解决了单输入模式的细节控制局限：

多图像输入：上传同一物体/场景的多角度照片（如从正面、侧面、顶部拍摄的文物），Marble会无缝融合这些素材，生成结构精准的3D模型，细节还原度远超单图输入。

在这里插入图片描述

视频输入：导入一段从不同角度拍摄的短视频（如绕着房间拍摄的vlog），系统可提取关键帧信息，生成包含真实空间布局的3D世界，适用于数字孪生、场景复刻等场景。

这种输入模式构建了全新的工作流程：研究者可先用普通相机采集多视角素材，再通过Marble快速生成3D模型，无需依赖激光扫描仪等专业设备，大幅降低数据采集成本。

（3）3D布局输入：结构化构建场景框架

对于需要精确控制空间结构的科研场景（如机器人导航仿真、建筑布局优化），Marble支持3D布局输入模式：用户可先搭建简单的3D结构框架（如房间的墙体、门窗位置），再由AI自动填充视觉细节（材质、家具、装饰等），实现“结构可控+细节自动化”的平衡。

2.2 世界编辑与Chisel工具：从“生成”到“雕琢”的精准控制

科研与创作的核心需求之一是“迭代优化”——生成的3D世界往往需要根据实验目的或创意需求持续修改。Marble内置的AI原生编辑工具和Chisel 3D雕琢功能，彻底解决了传统3D工具“编辑复杂、操作门槛高”的问题：

（1）AI原生世界编辑工具

编辑功能覆盖从局部微调到底部重构的全场景：

局部修改：移除场景中的多余物体（如仿真场景中的障碍物）、修饰特定区域（如调整墙面材质）；
整体优化：替换核心物体（如将房间里的椅子换成桌子）、改变视觉风格（如从写实风格切换为科幻风格）、重构空间结构（如扩大房间面积、添加新的房间）。

在这里插入图片描述
这种“所见即所得”的编辑方式，让研究者无需学习专业建模软件（如3ds Max、Blender），即可快速调整3D场景，适配不同实验需求（如测试机器人在不同家具布局下的导航性能）。

（2）Chisel：3D空间的“魔法雕琢棒”

当需要精确控制物体尺寸、位置或场景布局时，Chisel工具可实现“毫米级调控”：它允许用户直接在3D空间中拖拽、缩放、旋转物体，或修改场景的空间结构（如调整墙体角度、改变家具间距），弥补了AI自动生成在“精准定位”上的不足。

在这里插入图片描述
例如，在机器人抓取实验中，研究者可通过Chisel精确调整物体的摆放位置和角度，生成多样化的实验场景，无需手动修改模型参数，大幅提升实验效率。

（3）世界组合：用 Composer 模式打造宏大空间

在 Marble 的Composer 模式里，就像你在玩积木一样。你可以先造出一个个小积木世界，然后再把它们拼接在一起，组成一个巨大的空间。每一块积木放在哪儿、怎么摆放，全都由你自己决定。这样，你就能像搭积木一样，把不同的世界组合成一个符合你创意的大场景### 2.3 多格式导出：无缝衔接科研与生产流程

在这里插入图片描述
官方演示中通过不同的元素Compose出了一整列火车车厢，借由不同的元素使得每个车厢呈现出不同奇幻风貌。

2.3 多格式导出：无缝衔接科研与生产流程

生成和编辑后的3D世界，需要适配不同的下游场景（如仿真实验、论文可视化、产品开发）。Marble提供四种核心导出格式，覆盖科研与行业的主流需求：
在这里插入图片描述

（1）高斯溅射点（Splats）：最高保真度的呈现方式

高斯溅射点将3D场景表示为大量半透明粒子集合，是Marble最高保真度的输出格式。研究者可通过与THREE.js集成的开源渲染器Spark，在浏览器中实时渲染该格式，适用于需要极致视觉效果的场景（如论文中的3D模型展示、高保真仿真）。

在这里插入图片描述

（2）三角网格模型（Mesh）：适配行业标准工具

Marble可导出两种网格模型：

低精度碰撞体网格：用于粗略物理模拟（如机器人与物体的碰撞检测实验）；
高质量网格：尽可能匹配高斯溅射点的视觉精度，可直接导入Blender、Unity、Unreal等主流3D工具，用于进一步的实验开发或产品制作。

在这里插入图片描述
这种兼容性让Marble生成的3D模型能无缝衔接现有科研与生产流程，无需额外的格式转换工作。

（3）视频导出：便捷分享与成果展示

对于需要展示实验结果或创意作品的场景，Marble支持将3D世界渲染为视频，并提供像素级精准的相机控制功能：用户可自定义镜头路径、调整拍摄角度和速度，生成专业级的展示视频，适用于论文配图、项目汇报、成果推广等场景。

（4）360全景图导出：沉浸式场景体验

导出的360全景图可在普通浏览器中打开，用户可通过鼠标拖拽查看场景的各个角度，适用于沉浸式展示（如虚拟实验室、数字博物馆等场景）。

三、产品差异化与科研价值：为何Marble能引领空间智能革命？

在AI生成式内容爆发的当下，Marble并非唯一的3D生成工具，但它的三大差异化优势，使其成为科研与行业领域的“刚需产品”：

3.1 持久化3D环境：区别于“实时生成”的核心优势

市面上多数3D生成工具（包括World Labs自家的RTFM实时模型）采用“实时生成”模式——用户探索场景时，系统才动态生成当前视角的画面，无法形成完整、可下载的3D模型。而Marble生成的是持久化的3D环境，整个场景的所有细节一次性生成，支持自由探索、反复编辑和完整下载，完全满足科研实验中“固定场景、可重复测试”的核心需求。

3.2 AI原生编辑+混合3D编辑器：科研级的精细控制

同类产品往往只注重“生成”，缺乏高效的编辑功能，生成的3D模型一旦不符合需求，只能重新生成，效率极低。Marble是首个同时提供AI原生编辑工具和混合3D编辑器的产品，让用户既能享受AI自动生成的便捷，又能通过手动调控实现精准控制，完美匹配科研工作中“既要效率又要精度”的双重需求。

3.3 多模态兼容+低门槛操作：降低科研准入门槛

传统3D建模需要专业的技能培训和昂贵的设备支持，而Marble支持文本、图片、视频等低成本输入方式，操作流程简单直观（上传素材→输入提示词→生成→编辑→导出），即使是非计算机图形学专业的研究者，也能快速上手使用，让更多领域的科研人员（如考古学、建筑学、机器人学）能利用3D技术推进研究。

3.4 典型科研应用场景

科研领域	应用场景	Marble带来的革新
计算机视觉	3D目标检测、姿态估计数据集生成	快速生成多样化3D场景，无需手动标注
机器人学	导航、抓取、交互仿真实验	可自定义场景布局，支持批量生成实验环境
考古学	文物数字化保护与复原	多图输入快速生成高保真3D模型，降低采集成本
建筑学	建筑布局优化、室内设计仿真	快速迭代不同设计方案，可视化展示效果
数字孪生	工业场景、城市空间复刻	视频/多图输入快速生成数字孪生体，支持实时更新

四、空间智能的底层逻辑：李飞飞的技术愿景与未来方向

Marble的推出，是李飞飞“空间智能”理念的阶段性落地。她在万字长文中强调：人类对世界的感知本质是多模态的——我们通过视觉、听觉、触觉、语言等多种感官整合信息，构建对世界的心理模型，从而实现理解与行动。

世界模型的终极目标，就是让机器具备类似的能力：通过整合多模态输入，构建完整、动态、可交互的3D世界认知，并能根据新信息持续迭代更新。Marble正是朝着这个目标迈出的关键一步：它不再是孤立的“生成工具”，而是具备“感知-推理-创造”能力的智能系统——能理解输入素材中的空间关系，推理未直接呈现的细节，创造出逻辑自洽、可交互的3D世界。

4.1 未来技术方向：交互性升级

李飞飞团队表示，Marble只是空间智能征途的起点，未来的核心突破方向是“交互性”：

人类与3D世界的交互：支持用户在生成的3D世界中直接操作物体（如移动家具、启动设备），而非仅能被动探索；
智能体与3D世界的交互：让AI智能体（如机器人、虚拟助手）能在Marble生成的世界中自主决策、执行任务，为机器人训练、智能系统测试提供更真实的仿真环境。

这种交互性的升级，将彻底打通“生成-测试-优化”的闭环，使Marble从“3D生成工具”升级为“空间智能实验平台”，在仿真、机器人技术、自动驾驶等领域释放更大价值。

4.2 科研伦理与长期价值

李飞飞在文中特别强调了空间智能的伦理考量：“我们构建的技术，应当成为人类的伙伴，而非替代者。”Marble的设计理念始终围绕“赋能人类”——降低技术门槛，让更多人能利用3D技术解决科研与生活中的问题；同时通过商业使用权分级（Pro及以上套餐提供商业授权），平衡科研公益与商业价值。

从长期来看，空间智能技术将在三个维度改变世界：

加速科研创新：降低3D数据获取与建模成本，推动计算机视觉、机器人学、人工智能等领域的实验效率提升；
革新生产方式：在建筑、制造、影视等行业，实现“虚拟设计→仿真测试→实体落地”的全流程数字化，减少资源浪费；
提升生活质量：在医疗康复（如虚拟康复训练场景）、教育（如3D交互式教学模型）、文化保护（如文物数字化）等领域，提供全新的解决方案。

五、Marble定价方案与使用指南

5.1 分级定价：适配科研与商业场景

Marble提供四个套餐档位，价格从免费到95美元/月不等，科研人员可根据需求选择合适的方案（Pro版首月仅1美元的限时优惠，性价比极高）：

套餐类型	月费	每月积分	最多生成世界数量	核心权益（科研相关）
Free（免费版）	$0	7,000	4个	支持图像输入；可生成基础3D世界，用于初步测试
Standard（标准版）	$20	20,000	12个	支持多图像、视频、文本输入；基础编辑与导出功能
Pro（专业版）	首月 $1 ，常规$ 35	40,000	25个	商业使用权；Chisel 3D布局控制；社区资源下载；高分辨率导出
Max（高级版）	$95	120,000	75个	世界扩展功能；AI增强视频输出；全部导出格式支持

5.2 积分消耗参考（科研常用操作）

操作类型	积分消耗	适用场景
文本/图像输入	80积分/次	快速生成3D场景原型
多图像/视频输入	100积分/次	高精度场景复刻、文物数字化
标准3D世界生成	1,500积分/个	科研实验用场景生成
扩展世界（现有场景）	2,000积分/次	生成更大规模的仿真环境
创建高质量网格导出	3,500积分/次	导入Unity/Unreal进行后续开发
AI增强视频导出	100积分/秒	实验成果展示视频制作

注：所有套餐均支持购买补充积分，避免因积分不足影响科研进度。

5.3 快速上手步骤

访问体验网址：https://marble.worldlabs.ai/，无需注册即可体验免费版功能；
选择输入方式：根据需求上传图像/视频，或输入文本描述、搭建3D布局；
生成3D世界：点击“Create”按钮，系统将自动生成3D场景（生成时间根据输入复杂度不同，通常为1-5分钟）；
编辑与优化：使用内置编辑工具或Chisel功能调整场景细节；
导出与使用：选择合适的格式导出（如网格模型用于仿真实验，视频用于成果展示）。

结语：空间智能时代，人人都是“世界构建者”

从实验室里的“3D困境”到Marble的“一键生成”，技术的进步正在打破专业与大众的壁垒，让3D建模从“少数人的技能”变成“多数人的工具”。李飞飞团队用Marble证明，空间智能不仅是一个前沿概念，更是能解决实际问题、推动科研创新的落地技术。

对于研究生和科研从业人员而言，Marble不仅是提升工作效率的“利器”，更是探索空间智能前沿方向的“窗口”——它让我们能以更低的成本验证科研假设，以更灵活的方式构建实验环境，以更直观的方式展示研究成果。

正如李飞飞所说：“我们有幸成为赋予机器空间智能的一代技术专家，更有幸用这些能力为人类谋福祉。”随着Marble的开放和空间智能技术的持续迭代，一个“想象即创造、感知即行动”的新时代正在到来。现在，不妨趁着Pro版首月1美元的优惠，亲自体验这款“创世神器”，解锁属于你的3D世界构建之旅。

🚗🤖 这是我们的官方 GitHub 仓库！汇总了自动驾驶与机器人领域前沿资源，涵盖 VLM/VLA 技术、端到端模型、SLAM 方案等，同步公众号「智驾与机器人前瞻局」内容，论文 + 代码 + 解析一键获取→ 👉
https://github.com/YangHRandLiuZ/Autonomous-Driving-Robot-Frontier-Learning
欢迎 PR 补充，一起完善这个学习库！也麻烦给我们的仓库点上一个小⭐⭐，这对我们真的很重要！感谢你的支持~

在这里插入图片描述
别急着走！搜索并关注“智驾和机器人前瞻局”公众号。更多优质内容等你来。

更多精彩内容加入交流群等你分享！

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

2026企业级AI多模型调度实战：六大聚合平台技术维度横评与选型指南

*硅基流动**强调性价比，但审计功能相对基础；1.**复杂生产环境与合规刚需**：如果您的业务涉及核心交易、敏感数据处理，且必须同时调用GPT-5.5、Claude 4.8及Gemini等系列模型，对链路稳定性和审计合规性有严苛要求，**星链4SAPI**的架构设计和治理机制更为契合。1.**学术研究与快速验证**：如果是个人开发者进行短期实验，或对模型多样性有极高要求（如尝试各种小众微调版），*

AI编程社区

2026多模型统一调度平台深度横评：六家API聚合服务选型解析

相比之下，**OpenRouter** 受益于开源社区生态，模型目录最为庞杂，包含大量社区微调版本，但在最新闭源模型的官方直连上有时存在滞后，部分链路并非官方源。**硅基流动** 的重点在于国产开源模型的推理优化，对海外顶级闭源模型的支持链路相对间接。硅基流动追求国产模型的极低本地化时延；-**若您的首要诉求是生产环境的稳定与合规**，尤其是需要同时调用Claude、GPT、Gemini等多个系列

AI编程社区

IMA知识库接入Trae_MCP

MCP 协议核心：Trae/Cursor/Claude Desktop 通过 stdio 管道与 MCP Server 通信，使用 JSON-RPC 2.0 协议。Server 必须用官方 SDK 实现，自写 stdin 解析会不兼容。认证方式选择OpenAPI 认证（ClientID + APIKey）：稳定，从官网获取，推荐使用Cookie 认证（x-ima-cookie + x-ima-bk