揭秘谷歌Genie设计法则:只需一张图,AI就能创造一个游戏世界!

AI绘画笔记2个月前发布 彩格AI
3 0
北京时间2月27日,谷歌发布了一种新的AI模型Genie(精灵),它可以接收文本提示、草图或想法,将其变成一个可以互动和玩耍的虚拟世界。

对用户而言,只要提供一段文本、一张草图,甚至是一个想法,Genie就会完成剩下的工作,生成一款2D游戏。谷歌称,Genie可以将任何图像转换成可互动的2D世界。

人类一共有九大艺术,分别是绘画、雕刻、建筑、音乐、文学、舞蹈、戏剧、电影、最后一个是游戏,现在已经全部都被AI攻克了。

从2023年开始,人工智能成为最有潜力的朝阳产业,类似于这种交互环境的游戏,没有什么是AI做不到的。

随着科技巨头谷歌的强势加入,世界模型领域瞬间风起云涌,各大玩家纷纷摩拳擦掌,欲争夺这一新兴领域的领导地位。然而,究竟谁能引领世界模型的风向,成为行业的领头羊,目前仍是众说纷纭,难下定论。

Sora的视频生成方式与世界模型所追求的因果预测大相径庭。从Sora发布的视频来看,虽然其高保真的效果让人眼前一亮,但在模拟物理规律方面似乎略显薄弱,难以让人看到其交互能力的影子。

与此同时,谷歌推出的新型世界模型Genie,却在交互性上大放异彩。这款模型能够精准推断出生成环境中的潜在动作,为用户带来更加沉浸式的体验。然而,在视频的真实性和清晰度方面,Genie似乎还未能达到Sora那样的卓越水平。

揭秘谷歌Genie设计法则:只需一张图,AI就能创造一个游戏世界!
图片来源于网络

Genie模型拥有高达110亿个参数,它犹如一位经验丰富的探险家,能从互联网视频中汲取知识,精准地掌握每一个细微的控制点。它不仅能洞悉哪些元素是可以控制的,还能预测并生成潜在的动作序列,为用户带来前所未有的游戏体验。

据谷歌发布的论文揭示,Genie的强大功能得益于其独特的三重结构。首先,一个简单的潜在动作模型,能够精准推断每一对帧之间的微妙变化;其次,一个视频分词器将原始的视频帧转化为离散的标志(token),使得模型能够更高效地处理信息;最后,一个动态模型则根据潜在动作和过去的帧token来预测下一帧的内容,为用户呈现出连贯而流畅的游戏画面。

从谷歌发布的演示视频来看,Genie的表现令人惊艳。只需输入一张动漫人物闯关的图片,Genie便能生成背景变换丰富、人物跳跃连贯且踩点精准的视频,其动作的流畅度和合理性让人叹为观止。即便输入的是真实世界的图片,Genie也能让其中的人物和动物作出合理的跳跃或移动动作,尽管像素略显粗糙,但这并不影响其展现出的巨大潜力。

蒂姆·洛克特尔,作为该项目的掌舵人,对“Genie”充满信心。他透露,这款工具专注于规模学习,其使用的数据集由来自2D平台的20多万小时的视频组成。而这些视频资料,均是在无人监督的情况下,通过未标记的数据进行训练的。这也意味着,“Genie”能够自主学习各种角色运动、控制和动作,并以高度一致的方式呈现给玩家。

英伟达科学家Jim Fan表示,蒂姆是我认识最有想象力的研究员之一,而Genie(精灵)是他最具想象力的作品之一。与Sora不同,Genie实际上是一个具有推断动作的适当动作驱动世界模型。

揭秘谷歌Genie设计法则:只需一张图,AI就能创造一个游戏世界!
图片来源于网络

当然,目前“Genie”所生成的游戏画面分辨率仅为160 x 90像素,与市面上的高清游戏相比,品质尚显稚嫩。但正如古人所言:“千里之行,始于足下。”随着人工智能技术的不断发展和完善,我们有理由相信,在不远的将来,由AI创作的4K级别高清游戏将不再是遥不可及的梦想。

尽管目前“Genie”尚处于萌芽阶段,主要局限于构建简单的平台类游戏,但其背后所蕴含的技术力量已足以让人惊叹。它不仅能依据用户提供的图像资料生成独具特色的平台游戏,还能巧妙融合文本、图像、音乐等多元素材,为玩家带来前所未有的游戏体验。

“Genie”的诞生,不仅为游戏界注入了新的活力,更为我们展现了一个充满无限可能的虚拟世界。

有可能我们的世界就是从一张图片开始的。以后游戏开发效率大大提升,就不需要那么多工程师了。

© 版权声明

相关文章