DeepMind的AI系统可以绕过之前从未见过的模拟城市
DeepMind表示,它设计了一个系统,该系统可以利用现有知识来解决任务,同时探索收集新知识并在面临新任务时计划使用新知识进行计划。在2020年计算机视觉和模式识别会议(CVPR)上接受的论文中,该公司的研究人员描述了一个在情节性记忆(可以明确说明的日常事件的记忆)上运行的AI“计划模块”,他们说该表现优于就规划和探索而言,最接近的基线要增加2至3倍。
人工智能面临的一大挑战是设计一种能够进入陌生环境并立即投入使用的模型。例如,Paragon家用机器人将使用有关房屋的常识来查找清洁用品并获取它预期将有用的信息,例如衣物篮在其经过的房间中的位置。然后,它可以利用新发现的知识(例如,妨碍位置)来计划未来任务(例如洗衣服)的解决方案,以更快地解决任务。
不幸的是,即使是最先进的情景记忆模型也能够探索而不是计划,这可能是因为它们缺乏使用记忆进行计划的机制。DeepMind声称已通过新颖的模块-情节计划网络(EPN)对此进行了补救,该模块可促使AI代理在陌生的环境中进行有效的探索和计划。
EPN利用自我注意力,一种用于计算任意数量的项目之间的关系的方法,该项目之间没有任何特定的结构。EPN从反映到目前为止情景中的经验的情景记忆开始,每个记忆都包含当前观察值,先前动作和先前观察值的表示。
DeepMind研究人员在一项实验中想到了Facebook在两年前开源的纽约市导航AI,该研究人员在One-Shot StreetLearn中训练了基于EPN的软件代理,该模拟从GoogleStreetLearn数据中将环境作为邻域进行采样真实世界的街道图像集。在“一键式StreetLearn”中,您可以通过选择座席必须从其当前位置导航到的位置和方向来定义任务。
仅给出显示当前位置的图像,代表目标位置的图像以及向左,向右或向前移动的能力,基于EPN的特工在不熟悉的地方成功地达到了每集28.7个目标(平均连续100个情节)。根据合著者的说法。他们还完成了仅15-20个任务即可完成新任务的最少步骤数,并且将其很好地推广到包含更多路口的较大邻域中,其中9个路口的成功率达到77%,而原始任务中只有5个路口。
研究人员写道:“在目前的实验中,通过计划观察状态,该药剂可以成功。”“但是,没有什么能阻止EPN被用于计划信念状态,这是在动态部分观察的环境中运行的潜在关键能力……未来的工作可能会以更广泛的任务分布来解决[问题]……并测试EPN的程度有效地解决了更广泛的任务。”
EPN建立在DeepMind现有的城市导航工作和Dreamer的基础上,Dreamer内部化了世界模型,并通过“想象”其长期成果来预先计划选择行动。最近,实验室对Agent57进行了详细介绍,该系统使用情节记忆来学习一系列用于探索和利用的策略。(Agent57是Arcade Learning Environment数据集中所有57种Atari游戏中优于人类的首批系统之一。)
今日中国·版权声明
本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同 其观点和对其真实性负责,也不构成任何其他建议。本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。如 果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
本网站所提供的信息,只供参考之用。本网站不保证信息的准确性、有效性、及时性和完整性。本网站及其雇员 一概毋须以任何方式就任何信息传递或传送的失误、不准确或错误,对用户或任何其他人士负任何直接或间接责任。在法律允许的范围内,本网站在此声明,不承担 用户或任何人士就使用或未能使用本网站所提供的信息或任何链接所引致的任何直接、间接、附带、从属、特殊、惩罚性或惩戒性的损害赔偿。
【特别提醒】:如您不希望作品出现在本站,可联系我们要求撤下您的作品。邮箱 sunny@chinatodayclub.com
相关文章
最新文章
-
2021-12-22
-
2021-12-22
-
2021-12-22
-
2021-12-22
-
2021-12-22
-
2021-12-22