人类引导的人工智能框架有望在新环境中实现更快的机器人学习
原创 2023-08-08 09:03 南山 来源:AGV在智能家居时代即将来临的未来,购买家务机器人可能会成为常态。然而,当这些自动助手无法执行看似简单的任务时,消费者可能会感到挫败。此时,美国麻省理工学院电气工程和计算机科学系的研究员 Andi Peng 及其团队的研究就显得尤为重要,他们正在研发一个新的方法来改善机器人的学习能力。
Peng女士和她的研究团队创新性地构建了一个人机交互框架,该系统的核心特性是能够生成反事实叙述,准确指出机器人要成功执行任务所需的改变。比如,当机器人无法识别一只特殊颜色的杯子时,该系统会为机器人提供可能的替代情景,也许,如果杯子是更常见的颜色,机器人就能成功识别。这些反事实解释与人类反馈相结合,简化了为机器人微调生成新数据的过程。
Peng女士阐释道:“微调是优化已经熟练掌握一项任务的现有机器学习模型的过程,使其能够执行另一项类似的任务。”
该系统的测试效果令人印象深刻,使用此方法训练的机器人表现出了快速的学习能力,同时也减少了人类教师的投入时间。如果能在更广泛的领域成功实施,这种创新的框架可能帮助机器人更快地适应新环境,最大程度地减少用户对高级技术的需求。这项技术可能会成为推动通用机器人更好地帮助老年人或残疾人的关键。
Peng女士表示:“最终目标是使机器人能够在一个类似于人类的抽象层面上进行学习和发挥作用。”
机器人学习的一个主要难点是所谓的“分布转移”,指的是机器人遇到在训练过程中未见过的物体或空间的情况。为了解决这个问题,研究人员引入了一种名为“模仿学习”的方法。然而,这种方法仍有其局限性。
Peng女士说:“想象一下,我们必须用 30,000 个杯子进行示范,机器人才能够拿起任何一只杯子。相比之下,我更希望只用一个杯子进行示范,然后教机器人如何拿起任何颜色的杯子。”
因此,他们的系统将识别哪些对象属性对完成任务至关重要(比如杯子的形状),哪些属性则不是(比如杯子的颜色)。有了这些信息,该系统将生成合成数据,改变“非必要”的视觉元素,以优化机器人的学习过程。
为了评估这一框架的效果,研究人员进行了一项涉及人类用户的测试,以确定系统的反事实解释是否增强了他们对机器人任务表现的理解。
Peng女士说:“我们发现,人类天生就擅长这种形式的反事实推理。正是这种反事实元素使我们能够将人类的推理能力无缝地转化为机器人逻辑。”
在多次模拟中,机器人通过他们的方法学习得更快,表现优于其他技术,同时还减少了用户示范的需求。
在未来,这个团队计划在实际的机器人上实施这个框架,并致力于通过生成机器学习模型来缩短数据生成时间。这种突破性的方法可能改变机器人的学习轨迹,为机器人更好地融入我们日常生活中的未来铺平道路。