资讯

强化学习能让四旋翼无人机能竖着飞?

转载 2022-03-07 11:44 空中机器人前沿 来源:空中机器人前沿
西湖大学智能无人系统实验室

全文1396字,预计阅读时间3分钟

原创 | 汪治堃

编辑 | 吕嘉玲

四旋翼无人机近些年得到了快速的发展,我们通常见到的四旋翼无人机基本都是在水平悬停状态下飞行,那四旋翼无人机能否竖着飞呢?最近英国谢菲尔德大学和中国西湖大学智能无人系统实验室的研究人员在IEEE Robotics and Automation Letters发表了一篇利用强化学习使可变桨距四旋翼无人机实现“竖着飞”(Tic-toc 特技)的研究论文[1],我们一起来看一看吧。

什么是可变桨距四旋翼无人机?

可变桨距四旋翼无人机是一种相对较新的四旋翼无人机,与传统固定桨距四旋翼无人机只能改变力的大小相比,该种型号的四旋翼可以通过执行器控制桨叶的俯仰角,改变力的方向。如图1-2所示,逆时针旋转的螺旋桨在桨叶角度为正的情况下产生向上的力,反之,则产生向下的力。此外,可变桨距无人机的动力单元还可以利用电机旋转速度改变产生的力和扭矩,因此,其动力性能更优,在许多需要高性能飞行的应用中展现出巨大潜力。

什么是tic-toc机动?

tic-toc机动是一种典型的直升机机动动作,如图3所示[2]。tic-toc机动动作试图使无人机在垂直平面而不是水平平面上飞行,因此,在特技飞行中,tic-toc特技也是飞手实现的最具挑战性的动作之一。

图3Tic-toc特技

Tic-toc 机动还没有在四旋翼无人机上进行过研究。研究它可以扩大四旋翼无人机的飞行范围,提高其在极端特技飞行任务中的性能。由于四旋翼无人机只存在垂直升力,要稳定地保持竖直姿态飞行,必须依靠其定期地来回摆动。在生活中也有类似这样的场景出现,例如图4展示的一种传统民间运动,“打花棍”。

图4 民间运动“打花棍 ”

如何利用强化学习实现“竖着飞”?

强化学习是一种机器学习方法,使智能体在与环境的交互过程中通过学习策略实现特定目标[3]。由于强化学习有可能解决传统控制方法难以解决的问题,近年来受到了极大的关注[4-5]。尽管强化学习已被应用于多旋翼无人机的控制,但它主要用于实现稳定飞行,如抛掷悬停[6]和姿态控制[7]。

为了实现四旋翼无人机“竖着飞“,深度确定性梯度策略(DDPG)方法被用于训练强化学习控制器。如图5-6所示,得到的强化学习控制器可以产生两种飞行模式:Spinning机动和Tic-toc机动。在两种飞行模式控制器的基础上,通过分析“竖着飞”的飞行特点,并运用支配性排序方法进行评估,选出更符合条件的强化学习控制器。

此外,这篇文章引入了一个补偿控制和一个基于LQR的恢复控制来扩展该强化学习控制器的整体性能,从而使四旋翼无人机能够从tic-toc恢复到悬停飞行。最后,文章还提出了一个基于模型的控制信号迁移补偿器,使得一旦知道了标准训练模型和目标模型的参数,就可以将该强化学习控制器在无需训练的情况下,迁移到目标模型上,并使其性能保持一致。

该研究首次提出了一个基于强化学习网络的控制器,该控制器在一个平面四旋翼无人机模型上进行了训练,成功实现了Tic-toc机动飞行。视频1-2展示了其在模拟环境中进行位置跟踪和狭窄垂直隧道通过的能力。

视频1 狭窄垂直隧道通过的能力的3D视角

视频2 狭窄垂直隧道通过的能力的2D视角

结论与展望

该研究展示了了强化学习在变螺距无人机控制上的潜在应用,研究旨在探索可变桨距四旋翼无人机的可操作性极限。这项研究可以加深我们对可变桨距四旋翼无人机动力学特征的理解,并引导出更有趣和实用的控制策略。

不过这篇论文只是进行了仿真验证,据说该团队已经在进行该算法的现实平台研究了,让我们一起关注后续进展吧!

论文详细内容请参看:Zhikun Wang, Roderich Gross, and Shiyu Zhao. "Aerobatic Tic-Toc Control of Planar Quadcopters via Reinforcement Learning." IEEE Robotics and Automation Letters (RA-L), vol. 7, no. 2, pp. 2140-2147, 2022

参考资料

[1] Zhikun Wang, Roderich Gross, and Shiyu Zhao. "Aerobatic Tic-Toc Control of Planar Quadcopters via Reinforcement Learning." IEEE Robotics and Automation Letters (RA-L), vol. 7, no. 2, pp. 2140-2147, 2022

[2] Jon Hull. "Master the Tic Toc.", 2021. URL: http://www.helipilotonline.com/master-the-tic-toc/.

[3] R. S. Sutton, A. G. Barto et al., "Reinforcement learning: An introduction." MIT press, 1998.

[4] T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, and D. Wierstra, "Continuous control with deep reinforcement learning," arXiv preprint, arXiv:1509.02971, 2015.

[5] J. Hwangbo, J. Lee, A. Dosovitskiy, D. Bellicoso, V. Tsounis, V. Koltun, and M. Hutter, "Learning agile and dynamic motor skills for legged robots," Science Robotics, vol. 4, no. 26, p.eaau5872, 2019.

[6] J. Hwangbo, I. Sa, R. Siegwart, and M. Hutter, "Control of a quadrotor with reinforcement learning," IEEE Robotics and Automation Letters, vol. 2, no. 4, pp. 2096–2103, 2017.

[7] W. Koch, R. Mancuso, R. West, and A. Bestavros, "Reinforcement learning for UAV attitude control," ACM Transactions on Cyber-Physical Systems, vol. 3, no. 2, pp. 1–21, 2019.

本文由西湖大学智能无人系统实验室访问学生汪治堃原创,申请文章授权请联系后台相关运营人员,未经授权不得转载。

0 0

网友评论

取消