Read Buf

Read Buf

一个由 Google Gemini 驱动的机器人

ai

在加利福尼亚州山景城的一个开放式办公室里,一个高大纤细的轮式机器人,借助大语言模型的升级,正在忙着充当导游和非正式的办公室助手。Google DeepMind 今天透露,这款机器人使用了最新版本的 Google 的 Gemini 大语言模型来解析命令并找到路径。

pic

例如,当有人告诉它“找个地方让我写字”时,机器人会勤奋地移动,引导人们到建筑物内的一个崭新白板前。

Gemini 处理视频和文本的能力,加上它能够吸收大量视频导览信息,使得这个“Google 助手”机器人能够理解其环境,并在接收到需要常识推理的命令时正确导航。机器人结合了 Gemini 和一个生成特定行动的算法来应对命令以及它前面看到的东西,例如转弯。

当 Gemini 在十二月推出时,Google DeepMind 的 CEO Demis Hassabis 告诉 WIRED,它的多模态能力可能会开启新的机器人功能。他补充说,该公司的研究人员正努力测试该模型的机器人潜力。

在一篇概述该项目的新论文中,研究人员表示,他们的机器人在导航方面的可靠性高达 90%,即使在接收到如“我把杯垫放在哪里了?”这样的棘手命令时也是如此。DeepMind 的系统“显著改善了人类与机器人的互动自然性,并大大提高了机器人的可用性,”团队写道。

pic

这次演示巧妙地展示了大语言模型(Large Language Models, LLM)在实际应用中的潜力。Gemini 和其他聊天机器人主要在网页浏览器或应用程序中运行,但它们处理视觉和听觉输入的能力正在提升,Google 和 OpenAI 最近已经展示了这一点。今年五月,Hassabis 展示了一个升级版的 Gemini,它能够通过智能手机摄像头理解办公室的布局。

学术界和工业界的研究实验室正在竞相探索如何利用语言模型来增强机器人的能力。在五月举行的国际机器人与自动化会议(International Conference on Robotics and Automation)上,列出了近二十篇涉及使用视觉语言模型的论文。该会议是机器人研究领域的重要活动。

投资者也在大力支持将 AI 技术应用于机器人领域的初创公司。参与 Google 项目的一些研究人员离开公司,创办了一家名为 Physical Intelligence 的初创公司,并获得了 7000 万美元的初始资金;他们正在努力将大语言模型与现实世界的训练相结合,赋予机器人通用问题解决能力。由卡内基梅隆大学的机器人专家创办的 Skild AI 也有类似的目标,本月宣布获得了 3 亿美元的资金。