川观智库研究员 徐也晴
近期,几家头部科技公司竞相发布“世界模型”引发关注。12月初,斯坦福大学教授李飞飞创立的科技公司公布了一款“大型世界模型”(Large World Model);谷歌DeepMind紧随其后,发布了新一代世界模型Genie 2;12月下旬,卡内基梅隆大学等20多所实验室开源发布了一个生成式物理引擎Genesis……
简单来说,上述这些“世界模型”或能通过一张图片生成3D场景,或能通过一段文字描述完整地模拟物理世界。有行业媒体给出一个较为广泛的定义——世界模型是通过预测未来的范式对数字世界和物理世界进行理解,它也是通往实现通用人工智能(AGI)的关键路径之一。图灵奖得主、Meta首席科学家杨立昆也曾表示,构建世界模型意味着让AI像人类一样观察世界并理解世界以何种方式演变,然后预测世界将如何随着可能的行动而演变。
具体而言,世界模型将会给真实世界带来怎样的影响?综合公开资料,借助世界模型,智能驾驶和具身智能(如机器人)将得以飞速发展。
从智能驾驶来看,有行业媒体认为,目前数据越来越重要,但实车采集、人工标注的成本也在同步提升,而且能够满足训练要求的数据更是稀缺。因此,一旦自动驾驶应用了世界模型,就可以借助视频生成技术,创建驾驶场景,降低成本的同时,也能够很好地提升车辆的智驾能力。
从具身智能来看,国外应用软件公司Snap前AI主管亚历克斯·马什拉博夫表示,如果世界模型目前面临的主要障碍被克服后,世界模型可以在机器人技术和AI决策方面取得突破。他认为,如今的机器人在功能上受到限制,是因为它们缺乏对周围现实世界(或自身身体)的意识,而世界模型在一定程度上可以为它们提供意识。