引言

将前一项任务中学到的知识,应用到新的任务中,这是人类大脑的一项最重要的机制。可是,对于机器人来说,将自主的行为,在部分相似的环境中进行重用,这仍然是一个公开的难题。然而,卡耐基梅隆大学的研究人员最近发表的一篇论文,在这个方向上迈出了一小步。他们提出了一种学习“可迁移的运动策略”的通用架构,旨在利用相似域中的训练数据,解决目标域的学习问题。他们使用自主飞行微型无人机,在复杂凌乱的户外森林环境中,进行了飞行试验,验证方法的有效性。

现有无人机“自主”飞行的训练方法及其弊端

如今,无人机应用已十分广泛。然而,在复杂环境中,让无人机进行有效的自主操作,完成特殊任务例如避障,就需要人工智能,神经网络,机器学习领域的复杂知识,设计“感知器”和“软件控制系统“。这些年,许多人工智能和机器学习算法,在无人机的感知和控制方面,扮演了重要角色。

但是,这种“数据驱动”方法,有一个主要弊端,即“吃一堑,长一智”,知识主要来源于对象受到的“损伤”,另外还需要复杂的数据获取和训练流程。

而在新研究中,研究人员认为对于许多机器人任务来说,获取训练数据几乎不可能。例如,训练昂贵的机器人系统,使用模仿学习进行避障,通常需要搜集失败范例的数据。这常常是危险而具有灾难性的,例如让一架直升机坠毁。所以,需要借助其他办法,例如综合仿真,训练真实世界中的模型。

对于那些获取训练数据的任务,由于数据集“有限的变化性”,已学到的策略,也只能应用在他们所处的特定环境和物理系统中。另外,真实世界常常会遇到动态变化,例如环境和光线,这些常常会改变域属性

基于“域自适应”的学习策略

通过传统的学习方法,并不能保证策略有效。所以,需要新技术来减少失败的成本,利用相关源域的标签数据,例如现有数据集和综合仿真。“域自适应”,可以正式的解决领域偏差,就也是解决问题的方法。目前,有关提高“学习策略可迁移性”的“迁移学习”的尝试仍然很少。更进一步地,通过真实世界的实验来进行验证,则更少。

而研究人员通过在杂乱的环境中,使用基于视觉的自主微型无人机的飞行实验,来拓展这些想法,通过“迁移学习”从源域获取标签数据,使用“域自适应”的方法,有效地加速新目标域的学习。

技术和实验方法

技术方法主要是,使用自主的微型无人机飞行,来学习可迁移的策略。首先,在展示的系统中,商用平台的微型无人机,在最高1.5米/秒的速度下近地,低负载的自主飞行,通过浓密的森林环境,使用被动单目视觉系统作为唯一传感器研究人员使用了一种分布式处理的网络,从前向摄像头搜集图像流,通过Wi-Fi发送到基站。基站对于这些图像进行处理,然后发送相应的命令给无人机。

研究人员通过观察无人机在坠落前的几次飞行的平均距离,来评估系统性能。测试,在具有不同树木密度的森林区域展开。人类控制的1千米飞行,作为源域的训练数据搜集方法。然后,在近1千米的自主飞行中,使用学习到的策略,在使用和不使用“域自适应”的两种条件开展测试。测试结果和上下限:使用随机策略的飞行,和使用完整训练数据的飞行,进行比较。

A. 使用“模仿学习”学习反应性策略

摄像头输入的视觉功能,提供了用来控制无人机和进行避障的一组丰富信息。基于“模仿学习”的技术,通过视觉输入,直接学习无人机左右速度的线性控制器。研究人员通过人类飞行员在复杂的森林环境中的示范,以及相关图片,训练控制器,学习反应性策略,可以调整无人机飞行时朝向,避开树木。经过几次学习和经验,学习者可以学会一个优化策略,模仿和飞行员在这种环境中一样的行为。然而,这种方法的主要限制是,它无法无缝的通用化到新环境中。

B. 使用”深度域自适应”的策略迁移

一种使用使用深度适应网络的框架,从模拟的源域到目标域,学习可转移的策略。

在研究中,研究人员,使用来自源域的有标签信息和来自目标域的无标签的信息,将以上的方法拓展到学习”域自适应”的策略。问题就变成了,训练一个模型来学习一些列特征,来减少跨域的偏差。基于深卷积神经网络(CNN)的模型,比传统的方法在解决复杂学习问题方面,更具优势。他们已经显示出对于新的任务的适应性。而主要挑战就是目标域,没有有标签的信息。所以,通过微调对于目标域直接采取CNN,是不可能的。所以,研究最近构建了一个深度适应网络(DAN)架构,将深度卷积神经网络普遍化,进“域自适应”方案中。主要的目标,就是提高在深度神经网络的特殊任务层面的域可迁移性,减少域之间的偏差。

基于三种迁移的性能评估方法

  • 跨系统迁移

我们可以从一个传感器配置到另外一个,在不同的物理系统间迁移策略吗?

研究人员,使用ARDrone作为源域,使用一个修改过的,装备有高动态范围的PointGrey Chameleon摄像头的3DR ArduCopter作为目标域。传感器系统,图像分辨率和摄像头内部,都和ARDrone不一样。因此,从一个系统学习的到的策略,不能在另外一个系统通用。


  • 跨气候条件迁移


我们可以从夏季到冬季,在不同的气候条件间迁移策略吗?


研究人员从夏天搜集训练数据作为源域,然后使用冬季的目标域,进行策略迁移。在这种情况中,域变化由于不同视觉表现引起的。夏季,充满浓密植物;冬季,缺少植物,白雪一片。


  • 跨环境迁移


我们可以从一个物理地点到另外一个,在不同的环境间迁移策略吗?


这相当于使用现成的数据集作为源域,在另外一个独立的目标域进行测试,研究人员使用苏黎世大学的丛林小路作为源域,数据集提供了大规模的,森林环境中,尝试飞行(左,右或者中间)的图像集。使用这些源标签,他们测试了微型无人机的反应性控制,并且在卡耐基梅隆大学附近的森林环境作为目标域中进行了测试。这里,域偏差通过物理位置和自然任务的不同而引入。

实验和数据

(第一行)ARDrone和 ArduCopter间的物理系统迁移

(第二行) 夏天到冬天间的气候条件迁移

(第三行) 瑞士苏黎世大学和卡耐基梅隆大学间的环境迁移

实验结果分析

这项研究中获取的主要结果,是使用建议的方法进行“迁移学习”,相对于在新的域中比简单的复用学习策略,对象的性能显著提升。定量分析方面,在不同树木浓密度的在环境中,进行了6千米的飞行实验。尽管没有训练数据,在目标域中,微型无人机能够成功的避开1900个树,精准率达90%。

对于飞行测试的定性评估来说,如下图所示,自然的训练数据,来自夏天,无人机飞行的路径上,时间顺序展开的预测的左右速度命令的快照。更长远的说,同时他们也分析了没有使用“域自适应”,这种方法学习到的策略,是通过使用快照图像作为输入的预测控制命令(离线)进行观察结果是,“域自适应”的方法相对更好,可以通用化到新的域。

在浓密森林中的一次示例飞行的定性可视化。训练数据,在夏季(第一列)同样的环境中搜集,并且在冬季(第二列)测试。微型无人机拍摄的图像序列,自上而下按时间顺序,并且使用建议方法的学习到的策略发布的颜色编码命令进行覆盖。另外,也研究人员也计算了没有使用“域自适应”的策略(第三列),作为定性比较。

研究人员观测了前两个实验,对象在目标域中的表现好过源域。

对于物理系统之间的迁移来说,这个归因于无人机的动力学。ArduCopter具有更精准和稳固的定位系统,抗风性能好,这是比ARDrone坠落次数少的主要原因。另外,目标域具有更好的传感器。分辨率的增加,可以更好的帮助检测更小的树木。对于气候条件间迁移来说,目标域也有相应的性能提高。对于失败案例的经验分析,表明一部分的失败因为树枝和树叶,在冬天的条件显著减少,对于性能提高有帮助。相对于前两个实验,对于环境间的迁移中来说,性能只有稍微提高。

总结

通过“域自适应”和“迁移学习”的方法,进行策略学习,有效的提高了无人机自主学习的性能,也有望应用于其他机器人自主操作的训练中,不仅降低了训练风险,也有效的提升了训练能力。

随着人工智能和机器学习技术的不断发展,这些新方法,必然会对无人机和机器人相关的应用领域的智能化,带来更有效的推进。

参考文献

【1】Long, M., Cao, Y., Wang, J., Jordan, M.: Learning transferable features with deepadaptation networks. In: Proceedings of the 32nd International Conference onMachine Learning (ICML-15) (2015)

【2】Shreyansh Daftry, J. Andrew Bagnell, Martial Hebert,“Learning Transferable Policies for Monocular Reactive MAV Control”,1 Aug 2016,arXiv:1608.00627

文章部分图片来源于:Shreyansh Daftry,“Learning Transferable Policies for Monocular Reactive MAV Control”,1 Aug 2016 论文

“域自适应”和“迁移学习”:提高无人机“跨域”自主能力
Tagged on: