广告

拐角环境中基于DQN的AAV的仿真结果:普通DQN和TLS-DQN的比较研究

会议论文
的一部分网络与系统课堂讲稿书系列(LNN,第279卷)

摘要

深度Q-Network(DQN)是深度增强学习算法之一,它使用深神经网络结构来估计在q学习的价值。在之前的工作中,我们设计并实现了一个基于DQN的自主无人机(AAV)试验台,并提出了一种基于Tabu List策略的DQN (TLS-DQN)。本文将角环境作为一种新的仿真场景,分别对普通DQN和TLS-DQN的机动性控制进行了仿真。仿真结果表明,TLS-DQN在拐角环境下的性能优于普通DQN。

笔记

致谢

本研究由JSPS KAKENHI资助编号20K19793。

参考

  1. 1.
    Stöcker, C., Bennett, R., Nex, F., Gerke, M., Zevenbergen, J.:无人机法规现状综述。远程Sens。9(5),1-26(2017)CrossRef谷歌学术
  2. 2.
    Artemenko, O., Dominic, O., Andryeyev, O., Mitschele-Thiel, A.:使用无人机的移动设备定位的能量感知轨迹规划。见:第25届计算机通信与网络国际会议论文集,ICCCN-2016,第1-9页(2016)谷歌学术
  3. 3.
    Popović,M.等,Al .:基于UAV的地形监控的信息路径规划框架。auton。机器人。44.,889-911(2020年)CrossRef谷歌学术
  4. 4.
    LAVAPilot:基于态势感知的嵌入式自主跟踪和定位无线电标签的轻型无人机轨迹规划器,第1-8页。ARXIV:2007.15860(2020)
  5. 5。
    ODA,T.,Obukata,R.,Ikeda,M.,Barolli,L.,Takizawa,M .:基于无线传感器和演员网络的移动播放节点控制的基于深Q网络的仿真系统的设计和实现。:在:第31次IEEE高级信息网络和应用研讨会上的第31次国际会议,IEEE Aina 2017,PP。195-200(2017)谷歌学术
  6. 6。
    一种基于DQN的自动驾驶系统的设计与实现。见:第十五届宽带和无线计算国际会议论文集,通信与应用,BWCCA 2020, 321-329 (2020)谷歌学术
  7. 7。
    Sandino,J.,Vanegas,F.,Maire,F.,Caccetta,P.,Sanderson,C.,Gonzalez,F .: UAV框架,用于自主车载导航和杂乱的室内环境中的人/对象检测。远程Sens。12(20)、日至31日(2020年)CrossRef谷歌学术
  8. 8。
    Scherer,J.,等,用于搜索和救援的自主多UV系统。在:Micro Acm车辆网络,系统和应用中的第6次ACM研讨会的程序,DRONET 2015,PP。33-38(2015)谷歌学术
  9. 9.
    Moulton,J.,El .:长期操作的自主地面车辆。在:MTS / IEEE海洋的诉讼程序,第1-10(2018)谷歌学术
  10. 10。
    Oda, T., Ueda, C., Ozaki, R., Katayama, K.:基于深度q网络的环境智能驱动决策仿真系统设计。见:第33届先进信息网络与应用国际会议论文集,AINA 2019, pp. 362-370 (2019)谷歌学术
  11. 11.
    ODA,T.,Matsuo,K.,Barolli,L.,Yamada,M.,Liu,Y.:设计和实施基于物联网的电子学习测试。int。J. Web网格服务。13(2),228-241(2017年)CrossRef谷歌学术
  12. 12.
    Hirota,Y.,ODA,T.,Saito,N.,Hirata,A.,Hirota,M.,Katatama,K .:环境智能训练的建议和实验结果,用于焊接铁控股。在:第15届宽带和无线计算会议,通信和应用,BWCCA 2020,第444-453(2020)谷歌学术
  13. 13.
    伍迪:低成本、开源的人形躯干机器人。见:第17届普适机器人国际会议论文集,ICUR 2020,第247-252页(2020)谷歌学术
  14. 14.
    MNIH,V.等人:通过深度加强学习进行人力水平控制。自然518,529-533(2015)CrossRef谷歌学术
  15. 15.
    Mnih, V.等:使用深度强化学习玩雅达利,第1-9页。arxiv:1312.5602(2013)
  16. 16。
    雷涛,明立:一种基于q -学习网络的机器人探索策略。见:IEEE实时计算与机器人国际会议,IEEE RCAR-2016, pp. 57-62 (2016)谷歌学术
  17. 17。
    神经拟合Q迭代-第一经验与数据有效的神经强化学习方法。见:第16届欧洲机器学习会议论文集,ECML-2005, 317-328页(2005)谷歌学术
  18. 18。
    林丽娟:基于神经网络的机器人强化学习。技术报告,DTIC文件(1993)谷歌学术
  19. 19.
    Lange,S.,Riedmiller,M .:深度自动编码的钢筋学习中的神经网络。:在:国际神经网络联席会议的诉讼程序,IJCNN 2010,PP。1-8(2010)谷歌学术
  20. 20。
    Kaelbling, l.p., Littman, m.l., Cassandra, a.r.:在部分可观测的随机域中规划和作用。Artif。智能。101.(1 - 2), 99 - 134 (1998)Mathscinet.CrossRef谷歌学术
  21. 21。
    葛洛佛:禁忌搜索-第一部分。1(3),190-206(1989年)CrossRef谷歌学术
  22. 22。
    Takano,K.,ODA,T.,Kohata,M .: DSL设计用于将Rust编程语言转换为RTL的DSL。在:第8届新兴互联网,数据和网络技术,EIDWT 2020,PP的第8次国际会议的诉讼。342-350(2020)谷歌学术
  23. 23.
    理解训练深度前馈神经网络的困难。见:第13届人工智能与统计国际会议论文集,AISTATS-2010,第249-256页(2010)谷歌学术
  24. 24.
    陈建平,陈建平。深度稀疏整流神经网络。见:第14届人工智能与统计国际会议论文集,AISTATS 2011, pp. 315-323 (2011)谷歌学术

版权信息

©作者,在施普林格Nature Switzerland AG 2022独家许可下beplay登入

作者和联系

  1. 1.工业研究生院冈山理工大学日本冈山日本
  2. 2.信息与计算机工程系冈山理工大学日本冈山日本
  3. 3.信息科学系冈山理工大学日本冈山日本
  4. 4.信息与通信工程系福冈理工学院福冈日本

个性化推荐