新闻中心

hth地址:AI教母李飞飞万字长文引爆硅谷!大语言模型路线错了它才是走向AGI的唯一路径 附原文



hth正版:

  “它们如同身处暗室的文字巨匠——能言善辩却缺乏经验,知识渊博却脱离现实。”

  当“AI教母”、顶级科学家李飞飞用这句话来定义今天所有的大语言模型时,她一针见血地指出了一个残酷的现实:尽管AI看似无所不能,但它们其实都“活在黑暗中”。

  它们会写诗、会画画,甚至会制作以假乱真的视频,但却没办法理解一个杯子旋转90度后会是啥样子,也无法让一个虚拟人真正地遵守物理定律。

  在李飞飞看来,这种窘境的根源在于,我们从始至终以来都走错了方向。AI的下一步,不是更大的语言模型,而是要赋予它们一种连婴儿都与生俱来的能力——空间智能 (Spatial Intelligence)。这,才是通往真正通用AI的唯一路径。

  你让AI写首诗,它分分钟变身李白杜甫;但你让AI做几个简单的物理题,比如:

  只要留意,那些看上去很酷的AI视频里,都会有各种“穿帮”镜头:一个人的手突然多了一根手指,或者物体丝毫没有征兆地穿墙而过。

  · 古希腊的埃拉托斯特尼是通过观察两地影子的角度不同,从而计算出的地球周长。

  · 沃森和克里克是通过亲手搭建3D分子模型,“拼”出的DNA双螺旋结构。

  李飞飞认为,空间智能是人类想象力、创造力以及和世界互动的基础。遗憾的是,当下的AI基本没这个能力。

  李飞飞给出了自己的答案:AI的未来,不在于更大的“语言模型”(LLM),而在于全新的“世界模型”(World Models)。

  ·生成性(Generative):它必须能创造出符合物理、几何规律的3D世界。比如,它“知道”重力,知道物体会下落,知道水会往低处流。

  ·多模态(Multimodal):它必须能处理一切输入。比如不仅能听懂你说的“话”,还要能看懂图片、视频、深度信息、甚至你的一个“手势”。

  ·交互性(Interactive):这是最关键的。当你告诉它一个“动作”,它必须能预测出“下一秒会发生啥”。比如“推一下积木”,它就知道积木会倒。

  她解释道,语言是一维的、序列化的信号,而世界是四维的(三维空间+时间),受重力、物理定律等无数复杂规则的约束。

  李飞飞透露,她一年前和他人共同创立了World Labs,以及最近向少数用户展示的第一个世界模型Marble,都是为了攻克这个难题。

  首先,是“超能力”般的创造力。李飞飞团队World Labs正在研发的Marble模型,能让电影制作人、游戏设计师、建筑师用“提示词”快速创建和迭代3D世界。未来,这些人不再需要学习复杂的3D软件,只需要用语言描述,就能生成一个可以走进、与之交互的3D世界。届时,人人都能成为“造物主”。

  其次,是真正的“具身智能”。机器人将不再是“笨手笨脚”的机器臂。在“世界模型”的加持下,它们会在模拟环境中学会成千上万种实用技能,然后走进我们的家庭、医院,成为得力的助手和看护。

  · 医疗:AI可以在多维度上模拟分子间的相互作用,加速药物的发现进程,也或帮助医生分析影像,为患者和护理人员提供持续支持。

  · 教育:学生不再只是看书,而可以“走进”古罗马的街道,或者亲身“探究”细胞内部。教师能借助互动环境教学,专业技术人员则可以在高度逼真的仿真环境中练习并掌握复杂技能。

  · 科研:通过模拟深海、外太空等人类无法亲自到达的环境,我们大家可以扩大科学探索的范围;通过将多维度模拟与真实世界数据采集相结合,拓展实验室观察与理解的边界。

  作为帮助开启了现代AI时代的科学家之一,李飞飞在文章的最后,回归了她最核心的人文关怀。她强调,AI的终极目标,绝非取代人类,而是“为人类赋能”:

  “让AI成为增强人类专长、加速人类发现、放大人类关怀的力量——而不是取代那份属于人的判断力、创造力与共情力。”

  她认为,AI由人开发、由人使用、由人管理,必须始终尊重人的能动性和尊严。它的魔力在于扩展我们的能力,让我们更有创造力、更有效率。

  “空间智能”代表的正是这样一个“更深刻、更丰富、更有力量的生活的愿景”。它有望“构建出与真实世界高度契合的机器,让它们是我们应对重大挑战的真正伙伴。”

  1950年,当计算还不过是自动化算术和简单逻辑的代名词时,艾伦·图灵 (Alan Turing) 提出了一个至今仍回响不绝的问题:机器能思考吗?能够想象他所预见的一切,需要非凡的想象力:有朝一日,智能或许可以被构建,而非与生俱来。这一洞见后来开启了一场名为“人工智能” (Artificial Intelligence, AI) 的不懈科学探索。在我自己投身AI领域的二十五年里,图灵的愿景依旧激励着我。但我们离它还有多近?答案并非一言两语能说清。

  如今,以大语言模型 (Large Language Models, LLMs) 为代表的前沿AI技术已开始改变我们获取和处理抽象知识的方式。它们如同身处暗室的文字巨匠——能言善辩却缺乏经验,知识渊博却脱离现实。而空间智能 (Spatial Intelligence) 将改变我们创造以及与真实和虚拟世界互动的方式——它将彻底变革故事叙述、创造力、机器人技术、科学发现等诸多领域。这正是AI的下一个前沿。

  自踏入该领域以来,对视觉和空间智能的追求一直是指引我的“北极星”。正因如此,我花费数年时间构建了ImageNet——首个大规模视觉学习和基准测试数据集,它与神经网络算法和现代计算设备如图形处理器 (Graphics Processing Units, GPUs)一道,成为催生现代AI诞生的三大关键要素之一。正因如此,我在斯坦福大学的学术实验室在过去十年里始终致力于将计算机视觉与机器人学习相结合。也正因如此,一年多以前,我与联合发起人贾斯汀·约翰逊 (Justin Johnson)、克里斯托夫·拉斯纳 (Christoph Lassner)、本·米尔登霍尔 (Ben Mildenhall) 一道共同创立了World Labs:为了首次将这一可能性全面地变为现实。

  ·在本文中,我将阐释什么是空间智能,它为何重要,以及我们正在如何构建将解锁这一能力的世界模型 (World Models)——其影响将重塑创造力、具身智能 (Embodied Intelligence) 和人类的进步。

  AI从未像现在这样激动人心。生成式AI模型,如大语言模型,已从研究实验室走入日常生活,成为数十亿人进行创造、提高生产力和沟通的工具。它们展现了曾被认为不可能的能力,能够轻松生成连贯的文本、堆积如山的代码、照片般逼真的图像,甚至短视频片段。AI是否会改变世界,这已不再是个问题。无论以何种合理的定义来看,它都已经做到了。

  然而,仍有太多事物遥不可及。自主机器人的愿景依旧引人入胜,但仍停留在推测阶段,远未成为未来学家们长期承诺的日常生活的一部分。在治愈疾病、新材料发现和粒子物理学等领域实现研究大幅加速的梦想,在很大程度上仍未实现。而让AI真正理解并赋能人类创造者的承诺——无论是帮助学生学习分子化学中复杂的概念,辅助建筑师进行空间可视化,协助电影制作人构建世界,还是为任何寻求完全沉浸式虚拟体验的人提供支持——也依然遥不可及。

  要了解为何这些能力仍然难以实现,我们应该审视空间智能是如何演化的,以及它如何塑造我们对世界的理解。

  视觉长期以来都是人类智能的基石,但其力量源于更为根本的东西。远在动物学会筑巢、照顾幼崽、用语言交流或建立文明之前,“感知”这一简单的行为就已悄然开启了一段通往智能的进化之旅。

  这种看似孤立的、从外部世界收集信息的能力——无论是感知一缕微光还是触摸一种质地——在感知与生存之间建立了一座桥梁,而这座桥梁随着世代更迭而愈发坚固和精巧。神经元在这座桥梁上层层生长,形成了能够解释世界并协调生物体与其环境互动的神经系统。因此,许多科学家推测,感知和行动成为了驱动智能进化的核心循环,也是大自然创造我们这个物种——感知、学习、思考和行动的终极体现——的基础。

  空间智能在定义我们如何与物理世界互动方面扮演着至关重要的角色。每一天,我们都依赖它来完成最普通不过的行为:通过想象保险杠与路缘之间不断缩小的间隙来停车;接住从房间另一头扔过来的钥匙;在拥挤的人行道上穿行而不发生碰撞;你半夜起床倒水,不开灯也能摸到杯子并把水倒进去。。在更极端的情况下,消防员在倒塌的建筑中穿越一直在变化的浓烟,对结构的稳定性和生存机会做出瞬间判断,并通过手势、身体语言和一种共同的职业本能进行交流,这种本能是任何语言都无法替代的。而婴幼儿在学会说话前的数月甚至数年里,完全通过与环境进行充满趣味的互动来学习这样一个世界。所有这一切都发生得直观而自然——这是机器尚未能达到的流畅程度。

  空间智能也是我们想象力和创造力的基础。故事描述者在脑海中创造出异常丰富的世界,并利用从古代洞穴壁画到现代电影再到沉浸式视频游戏等多种形式的视觉媒介,将这些世界呈现给他人。无论是孩子们在沙滩上堆砌沙堡,还是在电脑上玩《我的世界》(Minecraft),基于空间的想象力都构成了在真实或虚拟世界中进行互动体验的基础。在许多行业应用中,对物体、场景和动态交互环境的模拟,为从工业设计到数字孪生 (Digital Twins)再到机器人训练等无数关键的商业用例提供了动力。

  历史上充满了由空间智能扮演核心角色的、定义文明进程的时刻。在古希腊,埃拉托斯特尼 (Eratosthenes) 将影子转化为几何学——在太阳直射赛印 (Syene) 的那一刻,他在亚历山大港测量出7度的夹角——从而计算出地球的周长。哈格里夫斯 (Hargreaves) 的“珍妮纺纱机” (Spinning Jenny) 通过一个空间上的洞察彻底改变了纺织制造业:将多个纺锤并排排列在一个框架中,让一名工人可以同时纺多根纱线,生产效率提高了八倍。沃森 (Watson) 和克里克 (Crick) 通过亲手搭建三维分子模型发现了DNA的结构,他们不断摆弄金属板和金属丝,最终将碱基对的空间排列“拼”了出来。在每一个案例中,当科学家和发明家需要操纵物体、将结构可视化并对物理空间进行推理时,空间智能都推动了文明的进步——而这些都无法仅用文字来捕捉。

  空间智能是我们认知赖以构建的脚手架。无论我们是被动观察还是主动创造,它都在发挥作用。它驱动着我们的推理和规划,即便是针对最抽象的话题。它对我们互动的方式至关重要——无论是口头还是身体上的,无论是与同伴还是与环境本身。虽然我们大多数人并非每天都能像埃拉托斯特尼那样揭示新的真理,但我们一般都以同样的方式思考——通过感官感知来理解一个复杂的世界,然后利用一种直观的理解,来掌握它在物理和空间层面是如何运作的。

  过去几年确实取得了巨大进步。多模态大语言模型 (Multimodal LLMs, MLLMs),除了文本数据外,还利用大量的多媒体数据来进行训练,从而引入了一些基本的空间意识,如今的AI可以分析图片、回答有关问题,并生成超逼真的图像和短视频。通过传感器和触觉技术的突破,我们最先进的机器人也开始能在高度受限的环境中操纵物体和工具。

  然而,坦率的现实是,AI的空间能力仍远未达到人类水平,其局限性很快就会暴露出来。在估算距离、方向和尺寸,或通过从新角度重新生成物体来进行“心理旋转”等任务上,最先进的多模态大语言模型模型的表现很少能超过随机猜测。它们无法走出迷宫、识别捷径或预测基本的物理现象。AI生成的视频——虽然是新生事物,而且确实很酷——往往在几秒钟后就会失去连贯性。

  虽然目前最先进的AI在阅读、写作、研究和数据模式识别方面表现出色,但同样是这些模型,在表征或与物理世界互动时,却存在根本性的局限。我们对世界的看法是整体性的——不单单是我们正在看什么,还包括所有事物在空间上的相互关系、它们的意义以及为何重要。通过想象、推理、创造和互动——而不仅仅是描述——来理解这一切,正是空间智能的力量所在。没有它,AI就与其试图理解的物理现实脱节了。它无法有效地驾驶我们的汽车,无法在我们家中和医院里引导机器人,无法为学习和娱乐创造全新的沉浸式和互动式体验,也无法加速材料科学和医学领域的发现。

  哲学家维特根斯坦 (Wittgenstein) 曾写道:“我语言的极限意味着我世界的极限。”我不是哲学家。但我知道,至少对于AI而言,世界远不止于文字。空间智能代表了超越语言的前沿——这种能力将想象、感知和行动联系在一起,并为机器真正提升人类生活开启了可能性,从医疗保健到创造力,从科学发现到日常辅助。

  那么,我们该如何构建具备空间智能的AI?怎么样才可以打造出能够像埃拉托斯特尼那样用视觉进行推理,像工业设计师那样进行精密工程设计,像故事描述者那样富有想象力地创造,以及像急救人员那样流畅地与环境互动的模型?

  构建具备空间智能的AI需要比大语言模型更宏大的目标:世界模型 (World Models),这是一种新型的生成式模型,其理解、推理、生成以及与语义、物理、几何和动态上都极为复杂的虚拟或真实世界进行互动的能力,远超当今大语言模型的范畴。该领域尚处萌芽阶段,目前的方法从抽象推理模型到视频生成系统不一而足。World Labs于2024年初正是基于这一信念而创立:基础性方法仍在确立之中,这使其成为未来十年的决定性挑战。

  在这个新兴领域,最重要的是确立指导发展的原则。对于空间智能,我通过三个基本能力来定义世界模型:

  要解锁空间理解和推理,世界模型也一定要能生成它们自己的模拟世界。它们一定要能根据语义或感知指令,生成无穷无尽、多种多样的模拟世界——同时保持几何、物理和动态上的一致性——无论这些世界代表的是真实空间还是虚拟空间。研究界正在积极探索这些世界应该以隐式还是显式的方式来表示其固有的几何结构。此外,我相信一个通用的世界模型除了需要强大的潜在表征外,还一定要能为其输出生成一种显式的、可观察的世界状态,以适应多种不同的用例。特别是,它对当下的理解必须与它的过去、与导致当前状态之前的世界状态,连贯一致。

  正如动物和人类一样,世界模型应该可处理多种形式的输入——在生成式AI领域中称为“提示词” (prompts)。给定部分信息——无论是图像、视频、深度图、文本指令、手势还是动作——世界模型都应能预测或生成尽可能完整的世界状态。这要求它能以真实视觉的保真度处理视觉输入,同时以同等的流畅度解读语义指令。这使得智能体和人类都能通过多种输入与模型就世界进行交流,并反过来接收多种输出。

  最后,如果动作和/或目标是给世界模型的提示词的一部分,那么其输出必须包括世界的下一个状态,无论是隐式还是显式表示。当仅给定一个带或不带目标状态的动作作为输入时,世界模型应产生一个与世界先前状态、任何预期的目标状态,以及其语义含义、物理定律和动态行为相一致的输出。随着具备空间智能的世界模型在其推理和生成能力上慢慢的变强大和稳健,可以想见,在给定一个目标的情况下,世界模型本身将不仅能预测世界的下一个状态,还能根据新状态预测下一个动作。

  虽然语言纯粹是人类认知的一种生成现象,但世界遵循的规则要复杂得多。例如,在地球上,引力支配着运动,原子结构决定了光怎么样产生颜色和亮度,无数的物理定律约束着每一次互动。即使是最奇幻、最具创意的世界,也是由遵循定义它们的物理定律和动态行为的空间物体和智能体组成的。要将所有这一切——语义、几何、动态和物理——协调一致,需要全新的方法。表示一个世界的维度,远比表示像语言这样的一维顺序信号要复杂得多。要实现可提供我们人类所享有的那种通用能力的世界模型,需要克服几个艰巨的技术障碍。在World Labs,我们的研究团队正致力于为实现这一目标取得根本性进展。

  一种新的、通用的训练任务函数: 定义一个像大语言模型中“预测下一个Token” (nexttoken prediction) 那样简洁优雅的通用任务函数,长期以来一直是世界模型研究的核心目标。其输入和输出空间的复杂性,使得这样一个函数在形式化上天生就更加困难。尽管仍有许多尚待探索之处,但这个目标函数及相应的表征必须反映几何和物理定律,尊重世界模型作为想象与现实的“接地气”表征这一根本性质。

  大规模训练数据: 训练世界模型需要比文本处理复杂得多的数据。好消息是:海量的数据源已经存在。互联网规模的图像和视频集代表了丰富、易于获取的训练材料——挑战在于开发能够从这些二维的、基于图像或视频帧的信号(即RGB)中提取更深层空间信息的算法。过去十年的研究已经显示了在语言模型中,数据量与模型规模之间的缩放定律 (scaling laws) 的力量;世界模型的关键突破在于构建能够以相当规模利用现有视觉数据的架构。此外,我不会低估高质量合成数据及像深度和触觉信息等额外模态的力量。它们在训练过程的关键步骤中补充了互联网规模的数据。但前进的道路依赖于更好的传感器系统、更稳健的信号提取算法以及远为强大的神经模拟方法。

  新的模型架构和表征学习: 世界模型的研究将不可避免地推动模型架构和学习算法的进步,尤其是在当前的多模态大语言模型和视频扩散范式之外。这两种范式通常将数据“Token化”为一维或二维序列,这使得简单的空间任务变得不必要地困难——比如计算一个短视频中不重复椅子的数量,或者记住一个小时前房间的样子。替代性架构可能会起到一定的帮助,例如用于“Token化”、上下文和记忆的三维或四维感知方法。例如,在World Labs,我们最近关于一个名为RTFM的实时生成式、基于帧的模型的工作就展示了这种转变,它使用基于空间的帧作为一种空间记忆形式,以实现高效的实时生成,同时保持所生成世界的一致性。

  显然,在我们能通过世界建模完全解锁空间智能之前,我们仍面临着艰巨的挑战。这项研究不单单是一次理论演练,它是催生一类新型创造力和生产力工具的核心引擎。而World Labs内部的进展一直令人鼓舞。我们最近与少数用户分享了Marble的一瞥,这是有史以来第一个能够最终靠多模态输入提示,来生成并维持一致的三维环境的世界模型,供用户和故事描述者在他们的创作工作流中进行探索、互动和进一步构建。我们正在努力使其尽快向公众开放!

  Marble只是我们创造一个真正具备空间智能的世界模型的第一步。随着进展的加速,研究人员、工程师、用户和商界领袖们都开始认识到其非凡的潜力。下一代世界模型将使机器能够在全新的层面上实现空间智能——这一成就将解锁当今AI系统中仍然普遍缺乏的关键能力。

  AI发展的动机至关重要。作为帮助开创现代AI时代的科学家之一,我的动机一直很明确:AI必须增强人类的能力,而不是取而代之。多年来,我始终致力于使AI的开发、部署和治理与人类的需求保持一致。如今,技术乌托邦和末日论的极端叙事比比皆是,但我继续持有一种更为务实的观点:AI由人开发,由人使用,并由人治理。它必须始终尊重人的能动性和尊严。它的魔力在于扩展我们的能力;让我们更具创造力、更紧密相连、更富生产力、更感充实。空间智能正代表了这一愿景——AI赋能人类的创造者、照护者、科学家和梦想家,去实现曾经不可能的事情。正是这一信念,驱动着我致力于将空间智能作为AI下一个伟大的前沿。

  空间智能的应用横跨不同的时间线。创造性工具正在涌现——World Labs的Marble已经将这些能力交到了创造者和故事描述者的手中。随着我们逐渐完备感知与行动之间的循环,机器人技术代表了一个雄心勃勃的中期目标。最具变革性的科学应用将需要更长的时间,但有望对人类的繁荣产生深远影响。

  在所有这些时间线中,有几个领域因其重塑人类能力的潜力而脱颖而出。这需要巨大的集体努力,远非一个团队或一个企业所能实现。它需要整个AIECO的参与——研究人员、创新者、企业家、公司,甚至政策制定者——共同为一个共同的愿景而努力。但这个愿景值得追求。以下便是那个未来所蕴含的可能:

  “创造力是智慧在寻开心。”这是我个人英雄阿尔伯特·爱因斯坦 (Albert Einstein) 的一句名言,也是我最喜欢的一句。远在书面语言出现之前,人类就在讲述故事——将它们画在洞穴墙壁上,代代相传,在共同的叙事之上建立起整个文化。故事是我们理解世界、跨越时空建立联系、探索人性意义,以及最重要地,在我们内心找到生命意义和爱的方式。今天,空间智能有潜力改变我们创造和体验叙事的方式,这样的形式既尊重其根本重要性,又将其影响从娱乐扩展到教育,从设计扩展到建筑。

  World Labs的Marble平台将把前所未有的空间能力和编辑可控到电影制作人、游戏设计师、建筑师和各类故事描述者的手中,让他们可以快速创造和迭代完全可探索的三维世界,而无需传统三维设计软件的繁重开销。创造性行为本身依然如故,充满了许多活力且富于人性;AI工具只是放大和加速了创造者所能达成的成就。这包括:

  ·新维度的叙事体验:电影制作人和游戏设计师正在使用Marble来创造出不受预算或地理限制的完整世界,探索在传统制作流程中难以驾驭的各种场景和视角。随着不同形式的媒体和娱乐之间的界限日益模糊,我们正接近一种全新的互动体验,它融合了艺术、模拟和游戏——个性化的世界,其中任何人,而不仅仅是工作室,都可以创造并沉浸在自己的故事中。随着将概念和故事板提升为完整体验的更新、更快捷方式的兴起,叙事将不再受限于单一媒介,创作者能自由地在无数的界面和平台上构建具有共同主线贯穿的世界。

  ·通过设计实现空间叙事:基本上,每一个制造出来的物体或建造出来的空间,在其实体创造之前,都必须在虚拟三维空间中进行设计。这样的一个过程迭代性强,且在时间和金钱上都成本高昂。有了具备空间智能的模型,建筑师能够迅速将结构可视化,而无需投入数月时间进行设计,他们能够在尚未存在的空间中漫步——这本质上是在讲述我们未来可能如何生活、工作和聚集的故事。工业和时尚设计师可以即时将想象转化为形式,探索物体如何与人体和空间互动。

  ·全新的沉浸式和互动式体验:体验本身是我们这个物种创造意义最深刻的方式之一。在整个人类历史中,只有一个单一的三维世界:我们共同分享的物理世界。仅仅在近几十年来,通过游戏和早期的虚拟现实 (virtual reality, VR),我们才开始瞥见分享我们自己创造的另类世界意味着什么。现在,空间智能与新的产品形态,如VR和扩展现实 (Extended Reality, XR) 头戴设备和沉浸式显示器相结合,以前所未有的方式提升了这些体验。我们正迈向一个未来,在那里,步入完全实现的多维世界将变得像打开一本书一样自然。空间智能使得世界构建不再仅仅是拥有专业制作团队的工作室的专利,而是向个人创作者、教育工作者以及任何有愿景分享的人开放。

  从昆虫到人类,动物都依赖空间智能来理解、导航和与它们的世界互动。机器人也不例外。具备空间感知能力的机器自该领域诞生之日起就是人们的梦想,这也包括我自己与我的学生和合作者在斯坦福研究实验室的工作。这也是怎么回事我对利用World Labs正在构建的这类模型来实现这一可能性如此兴奋。

  ·通过世界模型扩展机器人学习:机器人学习的进展取决于一个可扩展的、可行的训练数据解决方案。考虑到机器人需要学习理解、推理、规划和互动的可能性状态空间极其巨大,许多人推测,需要结合互联网数据、合成模拟和真实世界的人类演示捕捉,才能真正创造出具有泛化能力的机器人。但与语言模型不同,当今机器人研究的训练数据十分稀缺。世界模型将在此扮演决定性角色。随着它们感知保真度和计算效率的提高,世界模型的输出可以迅速弥合模拟与现实之间的差距。这反过来将有利于在无数状态、互动和环境的模拟中训练机器人。

  ·伴侣与合作者:机器人作为人类的合作者,无论是辅助实验室里的科学家,还是协助独居老人,都可以在急需更多劳动力和生产力的领域扩展部分劳动力。但这需要具备感知、推理、规划和行动的空间智能,同时——这是最重要的——与人类的目标和行为保持共情的一致。例如,一个实验室机器人能处理仪器,让科学家专注于需要灵巧或推理的任务,而一个家庭助手能够在一定程度上帮助老年人做饭,而不会削弱他们的乐趣或自主性。能够预测下一个状态,甚至有可能预测与此期望一致的行动的、真正具备空间智能的世界模型,对于实现这一目标至关重要。

  ·扩展具身形式:人形机器人在我们为自己构建的世界中扮演着一个角色。但创新的全部益处将来自更多样化的设计:输送药物的纳米机器人,穿梭于狭窄拥挤的空间的软体机器人,以及为深海或外太空建造的机器。无论其形态如何,未来的空间智能模型都必须整合这些机器人所栖息的环境和它们自身的具身感知和运动。但开发这些机器人的一个关键挑战在于,缺乏这些多种多样的具身形态的训练数据。世界模型将在模拟数据、训练环境和基准测试任务等方面为这些努力发挥关键作用。

  除了创意和机器人应用,空间智能的深远影响还将扩展到那些AI能以拯救生命和加速发现的方式增强人类能力的领域。我下面重点介绍三个具有深度变革潜力的应用领域,但毋庸置疑,空间智能的用例在更多行业中都具有广阔的前景。

  ·在科学研究中,具备空间智能的系统能模拟实验,并行测试假设,并探索人类没办法进入的环境——从深海到遥远的行星。这项技术能改变气候科学和材料研究等领域的计算建模。通过将多维模拟与真实世界数据收集相结合,这些工具能够更好的降低计算门槛,并扩展每个实验室所能观察和理解的范围。

  ·在医疗保健领域,空间智能将重塑从实验室到病床的一切。在斯坦福,我的学生和合作者多年来一直与医院、养老院和居家患者合作。这段经历让我确信了空间智能在此处的变革潜力。AI能够最终靠多维模拟分子相互作用来加速药物发现,通过帮助放射科医生在医学影像中发现模式来增强诊断,并实现环境监视测定系统,在不取代康复所需的人际联系的情况下支持患者和护理人员,更不用说机器人在许多不同场景下让我们的医护人员和患者的潜力了。

  ·在教育领域,空间智能能轻松实现沉浸式学习,使抽象或复杂的概念变得具体可感,并创造出对我们大脑和身体学习方式至关重要的迭代体验。在AI时代,更快、更有效的学习和技能再培训的需求,对学龄儿童和成年人而言都特别的重要。学生可以在多维空间中探索细胞机器或漫步于历史事件。教师能通过互动环境获得个性化教学的工具。从外科医生到工程师的专业技术人员,都可以在逼真的模拟中安全地练习复杂技能。

  在所有这些领域,可能性是无限的,但目标始终如一:让AI成为增强人类专长、加速人类发现、放大人类关怀的力量——而不是取代那份属于人的判断力、创造力与共情力。

  过去十年见证了AI成为一个全球现象,和技术、经济乃至地理政治学的一个拐点。但作为一名研究者、教育者,以及现在的企业家,最能激励我的,仍然是图灵75年前那个问题背后的精神。我仍然分享着他的那份好奇心。正是这份好奇心,让我每天都为空间智能这一挑战而充满活力。

  历史上第一次,我们有望构建出与物理世界如此协调的机器,以至于我们大家可以在面对最严峻的挑战时,将它们视为真正的伙伴。无论是加速我们在实验室中理解疾病的方式,彻底改变我们讲述故事的方式,还是在我们因疾病、受伤或年老而最脆弱的时刻支持我们,我们都正处在一项技术的前沿,它将提升我们最关心的生活方面。这是一个更深刻、更丰富、更有力量的生活愿景。

  在大自然于远古动物身上释放出空间智能的第一缕微光近五亿年后,我们有幸成为能够很快赋予机器同样能力的这一代技术人员——并有幸利用这些能力为世界各地的人们造福。我们对真正智能机器的梦想,没有空间智能是无法完整的。(辰辰)

...