一张图生成可交互3D世界:李飞飞团队Marble发布,空间智能Chatgpt时刻来临

网站链接:https://marble.worldlabs.ai/
官方网站:https://www.worldlabs.ai/blog/marble-world-model
长文链接:https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence?subscribe_prompt=free
官方视频
重磅开篇!!

作为李飞飞“空间智能”理念的首个规模化落地成果,李飞飞在产品发布推文及此前的万字长文中均明确指出:“空间智能是AI的下一个前沿,它将把‘看见’转变为‘推理’,将‘感知’转变为‘行动’,将‘想象’转变为‘创造”,而Marble正是这一理念的具象化实践。
一、Marble
空间智能,是指 AI 拥有了 “立体思维和动手能力”,能像人一样看懂、构建、操控 3D 世界,还能和这个世界互动。它仅凭文字描述、一张照片、几段视频,就能在 “大脑” 里还原出有前后、上下、左右的立体空间,甚至生成全新的虚拟场景;更能对这个 3D 世界随意修改 —— 比如给房间换家具、把小场景扩建成大城堡、拼接多个空间形成复杂环境,最后还能把建好的立体世界导出成可用的格式,适配游戏、设计、机器人训练等不同场景。
作为World Labs的首款空间智能产品,Marble搭载了自主研发的多模态世界模型,核心优势在于**“低门槛输入、高保真输出、可再生编辑”** 。它打破了传统3D建模的技术壁垒,让任何人(无论是否具备专业技能)都能通过简单输入生成可自由探索、精细编辑、多格式导出的3D虚拟世界,为科研实验、产品开发、创意创作提供了高效解决方案。

1.1 产品核心特性总览

| 特性类别 | 关键能力 | 价值亮点 |
|---|---|---|
| 输入方式 | 单图/多图、文本、视频、3D布局、全景图 | 多模态兼容,无需专业数据采集设备 |
| 生成质量 | 高保真纹理、持久化3D环境、3A游戏级视觉效果 | 细节还原度高,支持自由旋转、缩放探索 |
| 编辑能力 | AI原生编辑工具、Chisel 3D布局控制 | 从局部修改到整体重构,精细度可控 |
| 导出格式 | 高斯溅射点、三角网格、视频、360全景图 | 适配行业标准工具,支持下游科研/开发场景 |
| 差异化优势 | 首个支持混合3D编辑、持久化3D生成的产品 | 区别于实时生成类工具,可下载、可迭代 |
二、核心功能深度解析:从输入到输出的全流程革新
2.1 多模态输入:零门槛创建3D世界
Marble支持五种输入方式,覆盖从快速原型到高精度建模的全场景需求,无需复杂操作即可启动3D生成:

(1)文本+单图输入:最简单的“想象变现”
这是最基础也最易用的输入模式。只需一句文本描述(如“a detailed, lived-in hobbit kitchen filled with woven baskets and copper kettles”),或一张2D图片(如机器人叠衣服的照片),Marble就能自动补全细节,生成完整的3D世界。
-
文本输入优势:无需可视化素材,直接将抽象构想转化为具象场景,支持多种艺术风格(写实、科幻、奇幻、室内、室外等)切换。
-

-
单图输入优势:可与Midjourney、Stable
Diffusion等AI绘图工具联动——先用绘图工具生成目标场景的2D图像,再导入Marble升级为3D世界,实现“2D→3D”的快速转化。

实测效果显示,该模式生成的3D场景在光影、材质还原上达到3A游戏水准,用户可任意旋转镜头、放大细节,唯一不足是部分复杂物体(如机器人)可能存在轻微“幻觉”(形态不够精准),但整体不影响场景使用。
(2)多图像+视频输入:高精度还原与创意控制
针对科研场景中“需要精准还原真实物体/场景”的需求,Marble支持多图像或视频输入模式,解决了单输入模式的细节控制局限:
- 多图像输入:上传同一物体/场景的多角度照片(如从正面、侧面、顶部拍摄的文物),Marble会无缝融合这些素材,生成结构精准的3D模型,细节还原度远超单图输入。

- 视频输入:导入一段从不同角度拍摄的短视频(如绕着房间拍摄的vlog),系统可提取关键帧信息,生成包含真实空间布局的3D世界,适用于数字孪生、场景复刻等场景。
这种输入模式构建了全新的工作流程:研究者可先用普通相机采集多视角素材,再通过Marble快速生成3D模型,无需依赖激光扫描仪等专业设备,大幅降低数据采集成本。
(3)3D布局输入:结构化构建场景框架
对于需要精确控制空间结构的科研场景(如机器人导航仿真、建筑布局优化),Marble支持3D布局输入模式:用户可先搭建简单的3D结构框架(如房间的墙体、门窗位置),再由AI自动填充视觉细节(材质、家具、装饰等),实现“结构可控+细节自动化”的平衡。
2.2 世界编辑与Chisel工具:从“生成”到“雕琢”的精准控制
科研与创作的核心需求之一是“迭代优化”——生成的3D世界往往需要根据实验目的或创意需求持续修改。Marble内置的AI原生编辑工具和Chisel 3D雕琢功能,彻底解决了传统3D工具“编辑复杂、操作门槛高”的问题:
(1)AI原生世界编辑工具
编辑功能覆盖从局部微调到底部重构的全场景:
- 局部修改:移除场景中的多余物体(如仿真场景中的障碍物)、修饰特定区域(如调整墙面材质);
- 整体优化:替换核心物体(如将房间里的椅子换成桌子)、改变视觉风格(如从写实风格切换为科幻风格)、重构空间结构(如扩大房间面积、添加新的房间)。

这种“所见即所得”的编辑方式,让研究者无需学习专业建模软件(如3ds Max、Blender),即可快速调整3D场景,适配不同实验需求(如测试机器人在不同家具布局下的导航性能)。
(2)Chisel:3D空间的“魔法雕琢棒”
当需要精确控制物体尺寸、位置或场景布局时,Chisel工具可实现“毫米级调控”:它允许用户直接在3D空间中拖拽、缩放、旋转物体,或修改场景的空间结构(如调整墙体角度、改变家具间距),弥补了AI自动生成在“精准定位”上的不足。

例如,在机器人抓取实验中,研究者可通过Chisel精确调整物体的摆放位置和角度,生成多样化的实验场景,无需手动修改模型参数,大幅提升实验效率。
(3)世界组合:用 Composer 模式打造宏大空间
在 Marble 的Composer 模式里,就像你在玩积木一样。你可以先造出一个个小积木世界,然后再把它们拼接在一起,组成一个巨大的空间。每一块积木放在哪儿、怎么摆放,全都由你自己决定。这样,你就能像搭积木一样,把不同的世界组合成一个符合你创意的大场景### 2.3 多格式导出:无缝衔接科研与生产流程

官方演示中通过不同的元素Compose出了一整列火车车厢,借由不同的元素使得每个车厢呈现出不同奇幻风貌。
2.3 多格式导出:无缝衔接科研与生产流程
生成和编辑后的3D世界,需要适配不同的下游场景(如仿真实验、论文可视化、产品开发)。Marble提供四种核心导出格式,覆盖科研与行业的主流需求:
(1)高斯溅射点(Splats):最高保真度的呈现方式
高斯溅射点将3D场景表示为大量半透明粒子集合,是Marble最高保真度的输出格式。研究者可通过与THREE.js集成的开源渲染器Spark,在浏览器中实时渲染该格式,适用于需要极致视觉效果的场景(如论文中的3D模型展示、高保真仿真)。

(2)三角网格模型(Mesh):适配行业标准工具
Marble可导出两种网格模型:
- 低精度碰撞体网格:用于粗略物理模拟(如机器人与物体的碰撞检测实验);
- 高质量网格:尽可能匹配高斯溅射点的视觉精度,可直接导入Blender、Unity、Unreal等主流3D工具,用于进一步的实验开发或产品制作。

这种兼容性让Marble生成的3D模型能无缝衔接现有科研与生产流程,无需额外的格式转换工作。
(3)视频导出:便捷分享与成果展示
对于需要展示实验结果或创意作品的场景,Marble支持将3D世界渲染为视频,并提供像素级精准的相机控制功能:用户可自定义镜头路径、调整拍摄角度和速度,生成专业级的展示视频,适用于论文配图、项目汇报、成果推广等场景。
(4)360全景图导出:沉浸式场景体验
导出的360全景图可在普通浏览器中打开,用户可通过鼠标拖拽查看场景的各个角度,适用于沉浸式展示(如虚拟实验室、数字博物馆等场景)。
三、产品差异化与科研价值:为何Marble能引领空间智能革命?
在AI生成式内容爆发的当下,Marble并非唯一的3D生成工具,但它的三大差异化优势,使其成为科研与行业领域的“刚需产品”:
3.1 持久化3D环境:区别于“实时生成”的核心优势
市面上多数3D生成工具(包括World Labs自家的RTFM实时模型)采用“实时生成”模式——用户探索场景时,系统才动态生成当前视角的画面,无法形成完整、可下载的3D模型。而Marble生成的是持久化的3D环境,整个场景的所有细节一次性生成,支持自由探索、反复编辑和完整下载,完全满足科研实验中“固定场景、可重复测试”的核心需求。
3.2 AI原生编辑+混合3D编辑器:科研级的精细控制
同类产品往往只注重“生成”,缺乏高效的编辑功能,生成的3D模型一旦不符合需求,只能重新生成,效率极低。Marble是首个同时提供AI原生编辑工具和混合3D编辑器的产品,让用户既能享受AI自动生成的便捷,又能通过手动调控实现精准控制,完美匹配科研工作中“既要效率又要精度”的双重需求。
3.3 多模态兼容+低门槛操作:降低科研准入门槛
传统3D建模需要专业的技能培训和昂贵的设备支持,而Marble支持文本、图片、视频等低成本输入方式,操作流程简单直观(上传素材→输入提示词→生成→编辑→导出),即使是非计算机图形学专业的研究者,也能快速上手使用,让更多领域的科研人员(如考古学、建筑学、机器人学)能利用3D技术推进研究。
3.4 典型科研应用场景
| 科研领域 | 应用场景 | Marble带来的革新 |
|---|---|---|
| 计算机视觉 | 3D目标检测、姿态估计数据集生成 | 快速生成多样化3D场景,无需手动标注 |
| 机器人学 | 导航、抓取、交互仿真实验 | 可自定义场景布局,支持批量生成实验环境 |
| 考古学 | 文物数字化保护与复原 | 多图输入快速生成高保真3D模型,降低采集成本 |
| 建筑学 | 建筑布局优化、室内设计仿真 | 快速迭代不同设计方案,可视化展示效果 |
| 数字孪生 | 工业场景、城市空间复刻 | 视频/多图输入快速生成数字孪生体,支持实时更新 |
四、空间智能的底层逻辑:李飞飞的技术愿景与未来方向
Marble的推出,是李飞飞“空间智能”理念的阶段性落地。她在万字长文中强调:人类对世界的感知本质是多模态的——我们通过视觉、听觉、触觉、语言等多种感官整合信息,构建对世界的心理模型,从而实现理解与行动。
世界模型的终极目标,就是让机器具备类似的能力:通过整合多模态输入,构建完整、动态、可交互的3D世界认知,并能根据新信息持续迭代更新。Marble正是朝着这个目标迈出的关键一步:它不再是孤立的“生成工具”,而是具备“感知-推理-创造”能力的智能系统——能理解输入素材中的空间关系,推理未直接呈现的细节,创造出逻辑自洽、可交互的3D世界。
4.1 未来技术方向:交互性升级
李飞飞团队表示,Marble只是空间智能征途的起点,未来的核心突破方向是“交互性”:
- 人类与3D世界的交互:支持用户在生成的3D世界中直接操作物体(如移动家具、启动设备),而非仅能被动探索;
- 智能体与3D世界的交互:让AI智能体(如机器人、虚拟助手)能在Marble生成的世界中自主决策、执行任务,为机器人训练、智能系统测试提供更真实的仿真环境。
这种交互性的升级,将彻底打通“生成-测试-优化”的闭环,使Marble从“3D生成工具”升级为“空间智能实验平台”,在仿真、机器人技术、自动驾驶等领域释放更大价值。
4.2 科研伦理与长期价值
李飞飞在文中特别强调了空间智能的伦理考量:“我们构建的技术,应当成为人类的伙伴,而非替代者。”Marble的设计理念始终围绕“赋能人类”——降低技术门槛,让更多人能利用3D技术解决科研与生活中的问题;同时通过商业使用权分级(Pro及以上套餐提供商业授权),平衡科研公益与商业价值。
从长期来看,空间智能技术将在三个维度改变世界:
- 加速科研创新:降低3D数据获取与建模成本,推动计算机视觉、机器人学、人工智能等领域的实验效率提升;
- 革新生产方式:在建筑、制造、影视等行业,实现“虚拟设计→仿真测试→实体落地”的全流程数字化,减少资源浪费;
- 提升生活质量:在医疗康复(如虚拟康复训练场景)、教育(如3D交互式教学模型)、文化保护(如文物数字化)等领域,提供全新的解决方案。
五、Marble定价方案与使用指南
5.1 分级定价:适配科研与商业场景
Marble提供四个套餐档位,价格从免费到95美元/月不等,科研人员可根据需求选择合适的方案(Pro版首月仅1美元的限时优惠,性价比极高):
| 套餐类型 | 月费 | 每月积分 | 最多生成世界数量 | 核心权益(科研相关) |
|---|---|---|---|---|
| Free(免费版) | $0 | 7,000 | 4个 | 支持图像输入;可生成基础3D世界,用于初步测试 |
| Standard(标准版) | $20 | 20,000 | 12个 | 支持多图像、视频、文本输入;基础编辑与导出功能 |
| Pro(专业版) | 首月 1 ,常规 1,常规 1,常规 35 | 40,000 | 25个 | 商业使用权;Chisel 3D布局控制;社区资源下载;高分辨率导出 |
| Max(高级版) | $95 | 120,000 | 75个 | 世界扩展功能;AI增强视频输出;全部导出格式支持 |
5.2 积分消耗参考(科研常用操作)
| 操作类型 | 积分消耗 | 适用场景 |
|---|---|---|
| 文本/图像输入 | 80积分/次 | 快速生成3D场景原型 |
| 多图像/视频输入 | 100积分/次 | 高精度场景复刻、文物数字化 |
| 标准3D世界生成 | 1,500积分/个 | 科研实验用场景生成 |
| 扩展世界(现有场景) | 2,000积分/次 | 生成更大规模的仿真环境 |
| 创建高质量网格导出 | 3,500积分/次 | 导入Unity/Unreal进行后续开发 |
| AI增强视频导出 | 100积分/秒 | 实验成果展示视频制作 |
注:所有套餐均支持购买补充积分,避免因积分不足影响科研进度。
5.3 快速上手步骤
- 访问体验网址:https://marble.worldlabs.ai/,无需注册即可体验免费版功能;
- 选择输入方式:根据需求上传图像/视频,或输入文本描述、搭建3D布局;
- 生成3D世界:点击“Create”按钮,系统将自动生成3D场景(生成时间根据输入复杂度不同,通常为1-5分钟);
- 编辑与优化:使用内置编辑工具或Chisel功能调整场景细节;
- 导出与使用:选择合适的格式导出(如网格模型用于仿真实验,视频用于成果展示)。
结语:空间智能时代,人人都是“世界构建者”
从实验室里的“3D困境”到Marble的“一键生成”,技术的进步正在打破专业与大众的壁垒,让3D建模从“少数人的技能”变成“多数人的工具”。李飞飞团队用Marble证明,空间智能不仅是一个前沿概念,更是能解决实际问题、推动科研创新的落地技术。
对于研究生和科研从业人员而言,Marble不仅是提升工作效率的“利器”,更是探索空间智能前沿方向的“窗口”——它让我们能以更低的成本验证科研假设,以更灵活的方式构建实验环境,以更直观的方式展示研究成果。
正如李飞飞所说:“我们有幸成为赋予机器空间智能的一代技术专家,更有幸用这些能力为人类谋福祉。”随着Marble的开放和空间智能技术的持续迭代,一个“想象即创造、感知即行动”的新时代正在到来。现在,不妨趁着Pro版首月1美元的优惠,亲自体验这款“创世神器”,解锁属于你的3D世界构建之旅。
🚗🤖 这是我们的官方 GitHub 仓库!汇总了自动驾驶与机器人领域前沿资源,涵盖 VLM/VLA 技术、端到端模型、SLAM 方案等,同步公众号「智驾与机器人前瞻局」内容,论文 + 代码 + 解析一键获取→ 👉
https://github.com/YangHRandLiuZ/Autonomous-Driving-Robot-Frontier-Learning
欢迎 PR 补充,一起完善这个学习库!也麻烦给我们的仓库点上一个小⭐⭐,这对我们真的很重要!感谢你的支持~

别急着走!搜索并关注“智驾和机器人前瞻局”公众号。更多优质内容等你来。
更多精彩内容加入交流群等你分享!
更多推荐

所有评论(0)