人工智能技术在宽域飞行器控制中的应用
近年来,以空天飞行器、高超声速飞行器等 ̈1
为典型代表的宽域飞行器蓬勃发展,如图1所示,其
不仅对高端装备制造、空间信息以及太空经济等领
域产生辐射带动作用,进一步提升了中国在航空航
天领域的自主创新能力,同时也催生出新质作战能
力,带来战争模式的巨变,成为维护国家安全的战略
重器‘2。。
由于宽域飞行器所覆盖的空域范围从几千米到
上百千米,马赫数从0跨越至25甚至更高,外形多
收稿日期:2023.02.24; 修回日期:2023—03—10
采用大升力体及复杂翼舵构型,飞行器动力系统与
机体高度融合设计,内外流场耦合特性显著,如图2
所示;严酷气动加热会引发结构弹性变形,进一步加
剧气动/热/结构/控制的耦合,使动力学特性更为复
杂;同时由于目前地面风洞难以准确模拟高马赫飞
行环境,使得控制系统所依赖的气动参数存在较大
的天地差异旧1。因此,该类飞行器具有显著的强耦
合、强非线性、强时变特征,难以建立较为准确的数
学模型描述,对控制系统设计提出了很多新问题与
新挑战,需要持续开展控制新理论与新方法的研究
探索。
万方数据
第4期 魏毅寅等:人工智能技术在宽域飞行器控制中的应用 531
图1典型宽域飞行器
Fig.1 Typical wide-field vehicles
(a)复杂外流场
图2复杂内外流耦合特性
Fig.2 Coupling of intemal and extemal flow fields
近年来,随着人工智能技术的发展和广泛应用,
深度神经网络展现出良好的对多维复杂特征的泛化
表达能力,使得以深度学习为代表的智能技术在图
像处理、语音识别等领域得到了成功的应用HJ,因
此开展人工智能技术在飞行控制中的应用研究,有
望为解决宽域飞行器高品质控制问题提供新的技术
途径。
1宽域飞行器控制技术研究现状及局限性分析
为了增强控制系统对宽域飞行器复杂特性
(强耦合、强非线性、强时变、大不确定性)的适应
能力,提升控制品质,国内的研究学者开展了广泛
深人的探索和研究,主要采用的技术途径可以分
为两种。
第一种途径是从增强系统鲁棒性着手,利用增
益调度等措施,确保系统稳定裕度,提升对被控对象
模型不确定性的容忍度。
基于经典控制理论的PID控制方法,不依赖被
控对象的精确动力学模型,易于实现,且利用幅值裕
度和相位裕度可量化评估控制器鲁棒性能,是目前
工程中应用最为广泛的控制方法。为增强控制系统
对复杂特性的适应能力,会根据飞行器在不同任务
特征点的特性,利用可观测参数对PID控制增益进
行实时调度p1。
基于现代控制理论的鲁棒控制方法,其核心思
想是将模型不确定视为对系统标称条件的扰动,在
保留系统精确建模部分稳定性的同时,保留一定的
稳定裕度,从而保证当系统存在模型不确定和外部
扰动的情况下整个系统的稳定∞J。
第二种途径是从提升系统自适应性着手,利用
实时状态观测与估计,辨识出被控对象关键特性,提
高对飞行器模型的认知度。
白抗扰控制方法主要以PID控制构型为基础,
对于具有大不确定性和复杂非线性等特性的飞行
器,考虑到飞行过程中所受的外界干扰等影响,采用
扩张状态观测器对被控对象的状态和干扰进行观
测,通过状态误差反馈,对不确定干扰因素进行补
偿,从而实现抑制干扰和精确跟踪指令【8 J。
非线性动态逆控制方法的核心为通过非线性动
态逆来消除系统中存在的非线性,从而实现系统的
“伪线性化”,在此基础上可以采用其他线性化和非
线性化方法设计系统控制器,实现对非线性系统的
控制。针对被控对象存在的模型不确定性和外界干
扰,可以利用状态观测对模型进行辨识补偿,再利用
非线性动态逆方法获得理想的控制品质 ̈0|。
上述两种途径能够在一定程度上提高控制系统对
复杂特性的适应能力,但是随着宽域飞行器任务剖面
万方数据
532 宇航学报 第44卷
更加多样,飞行空域速域跨度更广,外形特性更为复
杂,现有的控制方法逐渐暴露出一定的应用局限陛。
1)对于利用飞行特征参数进行增益调度的途
径,针对特性复杂度较高的宽域飞行器,可能对应同
一飞行特征点,动力学特性存在较大范围的变化,且
表征该变化的特性参数为隐性,不可观测,因此会导
致无法对控制增益进行有效的调度 ̈1|。以某一飞
行特征点为例,当在该特征点气动压心存在较大范
围的不确定性时,虽然控制参数能够保证在基准状
态下性能稳定,但是由于压心变化特性不可观测,控
制参数无法跟随该状态变化做出及时调整,导致控
制参数与飞行器特性不匹配,从而出现稳定裕度下
降、控制失稳的现象。两种状态下的定点时域响应
情况如图3所示。
图3定点状态下时域响应对比
Fig.3 Comparison of step responses
2)对于利用实时状态观测和补偿来提升对模
型认知度的途径,由于采用的状态观测器自身也需
要依靠基础的被控对象模型建立状态方程和观测方
程,但是当被控对象模型复杂度过高,难以直观采用
状态空间进行数学表达,因此建立状态观测器所使
用的模型相对真实模型存在偏差,进而影响其状态
估计与辨识的精度,大大削弱观测补偿效果,甚至可
能失效。
2人工智能技术在宽域飞行器控制中的应用研究
随着近年人工智能技术的飞跃发展,以机器学
习算法为代表的智能算法研究引领了第三次人工智
能浪潮,其中深度神经网络由于具备映射能力好、学
习能力强、适应性广、纯数据驱动等优点,在图像识
别、自然语言处理、健康医疗等任务中得到非常广泛
而成功的应用。作为机器学习中的重要组成分支,
强化学习针对马尔可夫决策问题,通过与被控对象
的不断交互和迭代学习,生成可供全局决策的最优
策略,可用于解决智能决策问题。而进一步将深度
神经网络与强化学习相结合,形成深度强化学习,更
适合解决复杂且难以建模的应用场景问题,围棋
AlphaZero使用的就是深度强化学习算法。
针对前述分析的现有控制方法在宽域飞行器控
制中可能存在的局限性,本文重点从两种技术途径
出发就人工智能技术在飞行控制中的应用开展研
究。第一种是基于智能特征辨识的控制方法,即利
用深度神经网络辨识飞行器隐性关键特征,实现控
制增益的精准调度,提升对不确定性的自适应能力;
第二种是基于深度强化学习的控制方法,利用深度
神经网络建立神经网络动力学对飞行动力学的映射
表达,以指令信号和实时状态为神经网络输入,以执
行机构控制信号为神经网络输出,实现“端对端”控
制,弱化对飞行器复杂动力学建模的依赖。以下结
合典型示例对两种途径的研究情况进行介绍。
2.1基于智能特征辨识的控制方法
仍以前述气动压心存在不确定性的情况为例,
当在相同飞行状态(相同的高度、速度、姿态)下,飞
行器气动压心可能存在较大范围变化时,由于压心
变化为隐性特征,不可观测,因此会造成控制增益无
法根据实际特性做出及时调整,从而导致控制性能
恶化,严重时可能出现失控的情况。为此,考虑利用
深度神经网络的泛化特征拟合能力,构建智能观测
器,对表征气动压心变化的动力系数进行辨识,并利
用辨识结果进行增益调度,以提升对飞行器特性的
大范围变化的适应能力。辨识原理如图4所示。
万方数据
第4期 魏毅寅等:人工智能技术在宽域飞行器控制中的应用 533
图4基于智能特性辨识的控制方法原理图
Fig.4 Schematic diagram of the control method based on
intelligent characteristic identification
根据飞行动力学n2|,基于系数冻结和小扰动线
性化处理,可以得到飞行器纵向短周期扰动运动
方程:
了d2AO:。22学+。24△d+%幽:1厂2 022—矿+024触讹25酗=
警弘。△a怕,她 q’
A毋=A0-I-Ad
式中:△毋,A0,△d,A8:分别是俯仰角、弹道倾角、
攻角和升降舵舵偏角的扰动偏量;oII是动力系数:
Mz:g。12 miz022
2丁2可
蟛 57.3qslm;2
%2丁2—r
职。 57.3qslm;"2 (2)
%2了2—r —
P+P P-t-57.3qsc:
%。2百2——忑厂一
产 57.3qsc8,.;
035 2丽2—矿
式中:o::为阻尼动力系数;口:。为静稳定动力系数;。笛
为操纵动力系数;口,。为法向力动力系数;口弘为舵面
动力系数。因为口M能够表征飞行器气动压心变化
的情况,因此将其作为神经网络辨识输出。
参数辨识网络设计为包含BatchNormal层的残
差网络,如图5所示。
特征输入 网络输出
网一巨到一 网一巨到一
图5参数辨识网络结构
Fig.5 Structure of the parameter identification network
通过对口M理论计算公式和气动参数影响因素
进行分析,确定。拼辨识网络的输入如表1所示。
表1辨识网络输入特征参数
Table 1 Input characteristic parameters of the
identification network
利用六自由度弹道仿真数据构建训练和测试样
本,对网络参数进行训练,将通过测试集测试的参数
辨识网络移植人六自由度弹道仿真中,静不稳定度
辨识结果如图6所示,辨识误差不大于10%。仿真
结果表明所设计的辨识网络能够实现较好的静稳定
度辨识性能,根据辨识结果实时调整控制参数,可有
效提高现有控制方法对不确定度的适应能力。
2.2基于深度强化学习的控制方法
基于深度强化学习的智能控制方法是直接将深
度神经网络作为控制器,利用控制网络与训练环境
的交互产生训练数据,并按照设计的评价准则逐步
改善网络的控制性能,最后学习到满足精度需求的
控制器。
万方数据
534 宇航学报 第44卷
时问/s
a)a24预测结果
图6参数辨识结果
Fig.6 Results of parameter identification
基于深度强化学习的智能控制方法分为地面训
练阶段和线上部署阶段两个环节。控制系统原理如
图7所示。
工作原理为策略网络以系统状态.s为输人生成
控制动作口,强化学习训练环境输入控制动作口后
进行动力学解算,并向策略网络反馈系统当前状态
s、当前控制动作o、奖励值r和下一时刻状态S一;评
估网络以系统状态Is为输入预测状态值口(s)。分
别利用行动值q(s,n)与理论状态值Yi更新策略网
络参数和评估网络参数,直至收敛获得满足精度要
求的控制网络参数。
E行控制th0
图7基于深度强化学习的智能控制原理图
Fig.7 Schematic diagram of the intelligent control method based on deep reinforcement learning
基于端到端架构的智能控制器,根据飞行状态
直接产生控制信号,不同的控制网络直接影响控制
器训练速度和控制精度。本文设计了一种卷积神经
网络,控制网络结构如图8所示。
输入特f『f.
5 9
Fig.8
●
撕愀l;” 堑?511qf。’渺输⋯
图8深度卷积神经网络结构图
Structure of deep convolutional neural network
在设计奖励值函数时要充分考虑控制网络所产
生控制信号的分布情况。设计的奖励函数如下:
R。=一sat(』旦专:}』丛,。,A,)
耻一t(岩,o,A:)
RI=R。+R。+R6
肛l=16,p2=180,肛3=20
Al=0.5,A2=0.25,A3=0.25
~..、√j一%
万方数据
第4期 魏毅寅等:人工智能技术在宽域飞行器控制中的应用 535
式中:sat(o,6,c)为饱和函数(对变量。进行范围判
断,b为函数输出下界,C为函数输出上界);a。为攻
角指令;仗为实际攻角;∞:为俯仰角速度;嚣为t时
刻俯仰舵偏角;pi,A;为权重系数,地对相关奖励
函数参数进行归一化处理,提高算法收敛速度,选值
需要根据具体使用的参数物理意义确定,A i为不同
奖励部分的权重参数,用于平衡系统响应的稳定性
能和快速性能,需要根据具体控制问题的性能需求
进行设计;R。代表了由攻角偏差计算得到的奖励
值;R。为弹体角速度产生的奖励值;R。为综合考虑
连续5个时刻控制信号偏差的奖励值,控制信号偏
差越小,奖励值越大;R。为控制器与训练环境进行
一次交互所得奖励值。
设计攻角指令,利用深度神经网络控制器实现
对攻角指令跟踪,训练中攻角指令在4。~8。之间随
机取值,测试时选择4。一12。之间的指令进行仿真,
结果如图9所示。
图9角控制结果
Fig.9 Results of angle of attack control
可以看到神经网络控制器很好地跟踪了控制指
令,在控制器训练中,训练数据虽然仅仅覆盖到4。
攻角指令和8。攻角指令之间,但当给人训练数据范
围之外的12。攻角指令时,神经网络控制器仍能够
很好地实现控制指令跟踪,跟踪误差小于5%。仿
真结果表明,神经网络控制器可以实现飞行器姿态
稳定控制,且具有一定的泛化性能。
3未来持续研究方向展望
人工智能技术与宽域飞行器控制技术相融合具
有显著的学术和应用前景,但是在探索之路上还应
保持清醒的认识,不能过度神话人工智能技术的能
力,应重点围绕经典动力学、飞行控制技术与人工智
能技术的创新性结合,面向未来真正的转化应用,持
续探索推进。以下结合目前的研究进展,提出几点
未来需要进一步深入研究的方向展望。
1)加强智能动力学建模技术研究
宽域飞行器控制最大的难题在于其复杂动力学
特性的模型表达。目前进行探索的人工智能与飞行
控制的结合途径更多关注的是控制本身,而对动力
学部分关注比较少。由于飞行动力学具有比较成熟
的模型基本形式和解析表达式,这些先验信息的充
分利用可有效降低问题的复杂性和学习样本的需求
量,因此在动力学建模中融合人工智能技术相对控
制技术融合具有更加明显的优势,更加易于人工智
能算法学习的实现 ̈5|。若在此方向可以结合飞行
动力学取得突破,则更加有望在实际飞行器中得到
应用。
2)加深在线“自学习”技术研究
人工智能当前仍处于计算智能阶段,在地面利
用样本数据对所构建的网络进行训练和测试,其中
样本数据能覆盖所认知的不确定范围,之后再移植
至飞行器进行在线应用 ̈6|。训练好的神经网络只
在训练集和测试集范围内具有可靠的表现,无范围
外的推演能力。若飞行中遇到超出不确定认知范围
的情况,其控制特性将难以得到保证。因此,探索能
够在线实时进行网络参数学习调整的“自学习”技
术的可行性,是进一步提高飞行控制适应能力的有
效途径。
3)加快智能技术基础能力建设
智能化技术应用的硬件基础是嵌入式芯片,核
心是智能算法,因此需要开展能够支撑神经网络高
动态实时计算的自主可控智能芯片,构建自主可控
万方数据
536 宇航学报 第44卷近年来,以空天飞行器、高超声速飞行器等 ̈1
为典型代表的宽域飞行器蓬勃发展,如图1所示,其
不仅对高端装备制造、空间信息以及太空经济等领
域产生辐射带动作用,进一步提升了中国在航空航
天领域的自主创新能力,同时也催生出新质作战能
力,带来战争模式的巨变,成为维护国家安全的战略
重器‘2。。
由于宽域飞行器所覆盖的空域范围从几千米到
上百千米,马赫数从0跨越至25甚至更高,外形多
收稿日期:2023.02.24; 修回日期:2023—03—10
采用大升力体及复杂翼舵构型,飞行器动力系统与
机体高度融合设计,内外流场耦合特性显著,如图2
所示;严酷气动加热会引发结构弹性变形,进一步加
剧气动/热/结构/控制的耦合,使动力学特性更为复
杂;同时由于目前地面风洞难以准确模拟高马赫飞
行环境,使得控制系统所依赖的气动参数存在较大
的天地差异旧1。因此,该类飞行器具有显著的强耦
合、强非线性、强时变特征,难以建立较为准确的数
学模型描述,对控制系统设计提出了很多新问题与
新挑战,需要持续开展控制新理论与新方法的研究
探索。
万方数据
第4期 魏毅寅等:人工智能技术在宽域飞行器控制中的应用 531
图1典型宽域飞行器
Fig.1 Typical wide-field vehicles
(a)复杂外流场
图2复杂内外流耦合特性
Fig.2 Coupling of intemal and extemal flow fields
近年来,随着人工智能技术的发展和广泛应用,
深度神经网络展现出良好的对多维复杂特征的泛化
表达能力,使得以深度学习为代表的智能技术在图
像处理、语音识别等领域得到了成功的应用HJ,因
此开展人工智能技术在飞行控制中的应用研究,有
望为解决宽域飞行器高品质控制问题提供新的技术
途径。
1宽域飞行器控制技术研究现状及局限性分析
为了增强控制系统对宽域飞行器复杂特性
(强耦合、强非线性、强时变、大不确定性)的适应
能力,提升控制品质,国内的研究学者开展了广泛
深人的探索和研究,主要采用的技术途径可以分
为两种。
第一种途径是从增强系统鲁棒性着手,利用增
益调度等措施,确保系统稳定裕度,提升对被控对象
模型不确定性的容忍度。
基于经典控制理论的PID控制方法,不依赖被
控对象的精确动力学模型,易于实现,且利用幅值裕
度和相位裕度可量化评估控制器鲁棒性能,是目前
工程中应用最为广泛的控制方法。为增强控制系统
对复杂特性的适应能力,会根据飞行器在不同任务
特征点的特性,利用可观测参数对PID控制增益进
行实时调度p1。
基于现代控制理论的鲁棒控制方法,其核心思
想是将模型不确定视为对系统标称条件的扰动,在
保留系统精确建模部分稳定性的同时,保留一定的
稳定裕度,从而保证当系统存在模型不确定和外部
扰动的情况下整个系统的稳定∞J。
第二种途径是从提升系统自适应性着手,利用
实时状态观测与估计,辨识出被控对象关键特性,提
高对飞行器模型的认知度。
白抗扰控制方法主要以PID控制构型为基础,
对于具有大不确定性和复杂非线性等特性的飞行
器,考虑到飞行过程中所受的外界干扰等影响,采用
扩张状态观测器对被控对象的状态和干扰进行观
测,通过状态误差反馈,对不确定干扰因素进行补
偿,从而实现抑制干扰和精确跟踪指令【8 J。
非线性动态逆控制方法的核心为通过非线性动
态逆来消除系统中存在的非线性,从而实现系统的
“伪线性化”,在此基础上可以采用其他线性化和非
线性化方法设计系统控制器,实现对非线性系统的
控制。针对被控对象存在的模型不确定性和外界干
扰,可以利用状态观测对模型进行辨识补偿,再利用
非线性动态逆方法获得理想的控制品质 ̈0|。
上述两种途径能够在一定程度上提高控制系统对
复杂特性的适应能力,但是随着宽域飞行器任务剖面
万方数据
532 宇航学报 第44卷
更加多样,飞行空域速域跨度更广,外形特性更为复
杂,现有的控制方法逐渐暴露出一定的应用局限陛。
1)对于利用飞行特征参数进行增益调度的途
径,针对特性复杂度较高的宽域飞行器,可能对应同
一飞行特征点,动力学特性存在较大范围的变化,且
表征该变化的特性参数为隐性,不可观测,因此会导
致无法对控制增益进行有效的调度 ̈1|。以某一飞
行特征点为例,当在该特征点气动压心存在较大范
围的不确定性时,虽然控制参数能够保证在基准状
态下性能稳定,但是由于压心变化特性不可观测,控
制参数无法跟随该状态变化做出及时调整,导致控
制参数与飞行器特性不匹配,从而出现稳定裕度下
降、控制失稳的现象。两种状态下的定点时域响应
情况如图3所示。
图3定点状态下时域响应对比
Fig.3 Comparison of step responses
2)对于利用实时状态观测和补偿来提升对模
型认知度的途径,由于采用的状态观测器自身也需
要依靠基础的被控对象模型建立状态方程和观测方
程,但是当被控对象模型复杂度过高,难以直观采用
状态空间进行数学表达,因此建立状态观测器所使
用的模型相对真实模型存在偏差,进而影响其状态
估计与辨识的精度,大大削弱观测补偿效果,甚至可
能失效。
2人工智能技术在宽域飞行器控制中的应用研究
随着近年人工智能技术的飞跃发展,以机器学
习算法为代表的智能算法研究引领了第三次人工智
能浪潮,其中深度神经网络由于具备映射能力好、学
习能力强、适应性广、纯数据驱动等优点,在图像识
别、自然语言处理、健康医疗等任务中得到非常广泛
而成功的应用。作为机器学习中的重要组成分支,
强化学习针对马尔可夫决策问题,通过与被控对象
的不断交互和迭代学习,生成可供全局决策的最优
策略,可用于解决智能决策问题。而进一步将深度
神经网络与强化学习相结合,形成深度强化学习,更
适合解决复杂且难以建模的应用场景问题,围棋
AlphaZero使用的就是深度强化学习算法。
针对前述分析的现有控制方法在宽域飞行器控
制中可能存在的局限性,本文重点从两种技术途径
出发就人工智能技术在飞行控制中的应用开展研
究。第一种是基于智能特征辨识的控制方法,即利
用深度神经网络辨识飞行器隐性关键特征,实现控
制增益的精准调度,提升对不确定性的自适应能力;
第二种是基于深度强化学习的控制方法,利用深度
神经网络建立神经网络动力学对飞行动力学的映射
表达,以指令信号和实时状态为神经网络输入,以执
行机构控制信号为神经网络输出,实现“端对端”控
制,弱化对飞行器复杂动力学建模的依赖。以下结
合典型示例对两种途径的研究情况进行介绍。
2.1基于智能特征辨识的控制方法
仍以前述气动压心存在不确定性的情况为例,
当在相同飞行状态(相同的高度、速度、姿态)下,飞
行器气动压心可能存在较大范围变化时,由于压心
变化为隐性特征,不可观测,因此会造成控制增益无
法根据实际特性做出及时调整,从而导致控制性能
恶化,严重时可能出现失控的情况。为此,考虑利用
深度神经网络的泛化特征拟合能力,构建智能观测
器,对表征气动压心变化的动力系数进行辨识,并利
用辨识结果进行增益调度,以提升对飞行器特性的
大范围变化的适应能力。辨识原理如图4所示。
万方数据
第4期 魏毅寅等:人工智能技术在宽域飞行器控制中的应用 533
图4基于智能特性辨识的控制方法原理图
Fig.4 Schematic diagram of the control method based on
intelligent characteristic identification
根据飞行动力学n2|,基于系数冻结和小扰动线
性化处理,可以得到飞行器纵向短周期扰动运动
方程:
了d2AO:。22学+。24△d+%幽:1厂2 022—矿+024触讹25酗=
警弘。△a怕,她 q’
A毋=A0-I-Ad
式中:△毋,A0,△d,A8:分别是俯仰角、弹道倾角、
攻角和升降舵舵偏角的扰动偏量;oII是动力系数:
Mz:g。12 miz022
2丁2可
蟛 57.3qslm;2
%2丁2—r
职。 57.3qslm;"2 (2)
%2了2—r —
P+P P-t-57.3qsc:
%。2百2——忑厂一
产 57.3qsc8,.;
035 2丽2—矿
式中:o::为阻尼动力系数;口:。为静稳定动力系数;。笛
为操纵动力系数;口,。为法向力动力系数;口弘为舵面
动力系数。因为口M能够表征飞行器气动压心变化
的情况,因此将其作为神经网络辨识输出。
参数辨识网络设计为包含BatchNormal层的残
差网络,如图5所示。
特征输入 网络输出
网一巨到一 网一巨到一
图5参数辨识网络结构
Fig.5 Structure of the parameter identification network
通过对口M理论计算公式和气动参数影响因素
进行分析,确定。拼辨识网络的输入如表1所示。
表1辨识网络输入特征参数
Table 1 Input characteristic parameters of the
identification network
利用六自由度弹道仿真数据构建训练和测试样
本,对网络参数进行训练,将通过测试集测试的参数
辨识网络移植人六自由度弹道仿真中,静不稳定度
辨识结果如图6所示,辨识误差不大于10%。仿真
结果表明所设计的辨识网络能够实现较好的静稳定
度辨识性能,根据辨识结果实时调整控制参数,可有
效提高现有控制方法对不确定度的适应能力。
2.2基于深度强化学习的控制方法
基于深度强化学习的智能控制方法是直接将深
度神经网络作为控制器,利用控制网络与训练环境
的交互产生训练数据,并按照设计的评价准则逐步
改善网络的控制性能,最后学习到满足精度需求的
控制器。
万方数据
534 宇航学报 第44卷
时问/s
a)a24预测结果
图6参数辨识结果
Fig.6 Results of parameter identification
基于深度强化学习的智能控制方法分为地面训
练阶段和线上部署阶段两个环节。控制系统原理如
图7所示。
工作原理为策略网络以系统状态.s为输人生成
控制动作口,强化学习训练环境输入控制动作口后
进行动力学解算,并向策略网络反馈系统当前状态
s、当前控制动作o、奖励值r和下一时刻状态S一;评
估网络以系统状态Is为输入预测状态值口(s)。分
别利用行动值q(s,n)与理论状态值Yi更新策略网
络参数和评估网络参数,直至收敛获得满足精度要
求的控制网络参数。
E行控制th0
图7基于深度强化学习的智能控制原理图
Fig.7 Schematic diagram of the intelligent control method based on deep reinforcement learning
基于端到端架构的智能控制器,根据飞行状态
直接产生控制信号,不同的控制网络直接影响控制
器训练速度和控制精度。本文设计了一种卷积神经
网络,控制网络结构如图8所示。
输入特f『f.
5 9
Fig.8
●
撕愀l;” 堑?511qf。’渺输⋯
图8深度卷积神经网络结构图
Structure of deep convolutional neural network
在设计奖励值函数时要充分考虑控制网络所产
生控制信号的分布情况。设计的奖励函数如下:
R。=一sat(』旦专:}』丛,。,A,)
耻一t(岩,o,A:)
RI=R。+R。+R6
肛l=16,p2=180,肛3=20
Al=0.5,A2=0.25,A3=0.25
~..、√j一%
万方数据
第4期 魏毅寅等:人工智能技术在宽域飞行器控制中的应用 535
式中:sat(o,6,c)为饱和函数(对变量。进行范围判
断,b为函数输出下界,C为函数输出上界);a。为攻
角指令;仗为实际攻角;∞:为俯仰角速度;嚣为t时
刻俯仰舵偏角;pi,A;为权重系数,地对相关奖励
函数参数进行归一化处理,提高算法收敛速度,选值
需要根据具体使用的参数物理意义确定,A i为不同
奖励部分的权重参数,用于平衡系统响应的稳定性
能和快速性能,需要根据具体控制问题的性能需求
进行设计;R。代表了由攻角偏差计算得到的奖励
值;R。为弹体角速度产生的奖励值;R。为综合考虑
连续5个时刻控制信号偏差的奖励值,控制信号偏
差越小,奖励值越大;R。为控制器与训练环境进行
一次交互所得奖励值。
设计攻角指令,利用深度神经网络控制器实现
对攻角指令跟踪,训练中攻角指令在4。~8。之间随
机取值,测试时选择4。一12。之间的指令进行仿真,
结果如图9所示。
图9角控制结果
Fig.9 Results of angle of attack control
可以看到神经网络控制器很好地跟踪了控制指
令,在控制器训练中,训练数据虽然仅仅覆盖到4。
攻角指令和8。攻角指令之间,但当给人训练数据范
围之外的12。攻角指令时,神经网络控制器仍能够
很好地实现控制指令跟踪,跟踪误差小于5%。仿
真结果表明,神经网络控制器可以实现飞行器姿态
稳定控制,且具有一定的泛化性能。
3未来持续研究方向展望
人工智能技术与宽域飞行器控制技术相融合具
有显著的学术和应用前景,但是在探索之路上还应
保持清醒的认识,不能过度神话人工智能技术的能
力,应重点围绕经典动力学、飞行控制技术与人工智
能技术的创新性结合,面向未来真正的转化应用,持
续探索推进。以下结合目前的研究进展,提出几点
未来需要进一步深入研究的方向展望。
1)加强智能动力学建模技术研究
宽域飞行器控制最大的难题在于其复杂动力学
特性的模型表达。目前进行探索的人工智能与飞行
控制的结合途径更多关注的是控制本身,而对动力
学部分关注比较少。由于飞行动力学具有比较成熟
的模型基本形式和解析表达式,这些先验信息的充
分利用可有效降低问题的复杂性和学习样本的需求
量,因此在动力学建模中融合人工智能技术相对控
制技术融合具有更加明显的优势,更加易于人工智
能算法学习的实现 ̈5|。若在此方向可以结合飞行
动力学取得突破,则更加有望在实际飞行器中得到
应用。
2)加深在线“自学习”技术研究
人工智能当前仍处于计算智能阶段,在地面利
用样本数据对所构建的网络进行训练和测试,其中
样本数据能覆盖所认知的不确定范围,之后再移植
至飞行器进行在线应用 ̈6|。训练好的神经网络只
在训练集和测试集范围内具有可靠的表现,无范围
外的推演能力。若飞行中遇到超出不确定认知范围
的情况,其控制特性将难以得到保证。因此,探索能
够在线实时进行网络参数学习调整的“自学习”技
术的可行性,是进一步提高飞行控制适应能力的有
效途径。
3)加快智能技术基础能力建设
智能化技术应用的硬件基础是嵌入式芯片,核
心是智能算法,因此需要开展能够支撑神经网络高
动态实时计算的自主可控智能芯片,构建自主可控
万方数据
536 宇航学报 第44卷
相关文章:

人工智能技术在宽域飞行器控制中的应用
近年来,以空天飞行器、高超声速飞行器等 ̈1 为典型代表的宽域飞行器蓬勃发展,如图1所示,其 不仅对高端装备制造、空间信息以及太空经济等领 域产生辐射带动作用,进一步提升了中国在航空航 天领域的自主创新能力,同时也…...

NGINX高性能服务器与关键概念解析
目录 1 NGINX简介2 NGINX的特性3 正向代理4 反向代理5 负载均衡6 动静分离7 高可用8 结语 1 NGINX简介 NGINX(“engine x”)在网络服务器和代理服务器领域备受推崇。作为一款高性能的 HTTP 和反向代理服务器,它以轻量级、高并发处理能力以及…...

云ssrf
https://book.hacktricks.xyz/pentesting-web/ssrf-server-side-request-forgery/cloud-ssrf SSRF -> EC2 Metadata API -> IAM临时Security Token -> AWS SSM -> RCESSRF -> EC2 Metadata API -> IAM临时Security Token -> AWS Lambda -> RCESSRF -&g…...

面试题目总结(三)
1. Spring、Springboot、springMVC、Spring Cloud 的区别: Spring:Spring 是一个开源的、轻量级的Java框架,提供了丰富的功能和组件,用于构建企业级应用程序。Spring框架包含了很多模块,包括核心容器、数据访问、事物…...

Kubernetes入门笔记——(2)k8s设计文档
k8s最初源自谷歌的Brog项目,架构与其类似,主要包括etcd、api server、controller manager、scheduler、kubelet和kube-proxy等组件 etcd:分布式存储,保存k8s集群的状态 api server:资源操作的唯一入口,…...

LoadBalancer将服务暴露到外部实现负载均衡metallb-layer2模式配置介绍
目录 一.metallb简介 1.支持多种负载均衡协议 2.支持自定义 IP 地址范围 3.无需额外的硬件设备 4.易于安装和配置 5.可扩展性强 6.layer2模式下选举的leader节点压力大 二.layer2模式配置演示 1.开启ipvs并开启严格ARP模式 2.下载并应用metallb 3.创建一个 IPAddres…...

【pytest】单元测试文件的写法
前言 可怜的宾馆,可怜得像被12月的冷雨淋湿的一条三只腿的黑狗。——《舞舞舞》 \;\\\;\\\; 目录 前言test_1或s_test格式非测试文件pytest.fixture()装饰器pytestselenium test_1或s_test格式 要么 test_前缀 在前,要么 _test后缀 在后! …...

arcgis for js 添加自定义叠加图片到地图坐标点上
在使用arcgis for js开发地图绘制图层时,可以通过相关api实现添加图标到某个坐标点,那么如果现在有一个需要添加一个小图叠大图的需求,又或者是自定义绘制图标,如何实现? 1、简单地绘制一个图标到底图图层上面 const…...

记录 | linux下互换键盘的Ctrl和CapsLock键
互换ctrl和CapsLK setxkbmap -option "ctrl:swapcaps"打开设置文件: sudo vim /etc/default/keyboard将其中的XKBOPTIONS中添加ctrl:swapcaps即可,如下所示: # KEYBOARD CONFIGURATION FILE# Consult the keyboard(5) manual pa…...

【公网远程手机Android服务器】安卓Termux搭建Web服务器
🎥 个人主页:深鱼~🔥收录专栏:cpolar🌄欢迎 👍点赞✍评论⭐收藏 目录 概述 1.搭建apache 2.安装cpolar内网穿透 3.公网访问配置 4.固定公网地址 5.添加站点 概述 Termux是一个Android终端仿真应用程…...

【银行测试】金融项目+测试方法范围分析,功能/接口/性能/安全...
目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 1、金融行业软件特…...

Java网络编程——安全网络通信
在网络上,信息在由源主机到目标主机的传输过程中会经过其他计算机。在一般情况下,中间的计算机不会监听路过的信息。但在使用网上银行或者进行信用卡交易时,网络上的信息有可能被非法分子监听,从而导致个人隐私的泄露。由于Intern…...

云原生数据库是什么?它的作用是啥?
目前来说,各厂商的云原生数据库在演进路线上分成了两个略有不同的路径来解决不同的问题。 一种是各大公有云厂商选择的,优先保证上云兼容性的路线,就是基于存算分离架构对传统数据库进行改造的路线:通过把大量的日志操作放到后台…...

使用ansible批量初始化服务器
简介 本文详细介绍ansible怎么批量初始化服务器,包括ansible批量初始化服务器详细配置和步骤,有需要的小伙伴们可以参考借鉴,希望对大家有所帮助。 详细步骤 1、ansible要初始化的主机 [rootnginx ansible]# tail -3 /etc/ansible/hosts …...

国标GB28181安防视频云平台EasyCVR出现持续重启现象,是什么问题?该如何解决?
视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安防视频监控的能…...

【APP安卓测试工具】adb(Android Debug Bridge)
1.常见的命令 列出已连接的设备 adb device安装 adb install <APK文件路径>卸载 adb uninstall <APK文件路径>启动和停止 adb shell am start -n <包名>[/<Activity>]adb shell am force -stop <包名>截屏和录屏 adb shell screencap <文件路…...

图像融合领域的挑战
图像融合是将来自不同传感器或不同时间的多个图像集成为信息更丰富的单个图像的过程,通常预计更有利于人类或机器感知或进一步的图像处理任务。 以下是图像融合研究中的一些众所周知的挑战: 保持图像质量:确保融合图像保留每个源图像的重要特…...

Tomcat配置成服务、开机自启动
Tomcat配置成服务、开机自启动 问题解决方案 问题 在配置成开机自启动的服务时,遇到了如下提示。 最终原因是因为双击apache-tomcat-9.0.83\bin\tomcat9w.exe,在弹出的的“Startup”选项卡中的mode没有设置为Java 解决方案 右键“我的电脑”——管理—…...

IntelliJ IDEA创建一个spark的项目
在开始之前,需要说明的是 要跑通基本的wordcount程序,是不需要在windows上安装 hadoop 和spark的,因为idea在跑程序的时候,会按照 pom.xml配置文件,从指定的 repository源,按照properties指定的版本&#x…...

【数据库】数据库多种锁模式,共享锁、排它锁,更新锁,增量锁,死锁消除与性能优化
多种锁模式的封锁系统 专栏内容: 手写数据库toadb 本专栏主要介绍如何从零开发,开发的步骤,以及开发过程中的涉及的原理,遇到的问题等,让大家能跟上并且可以一起开发,让每个需要的人成为参与者。 本专栏会…...

串口通信(1)-硬件知识
本文讲解串口通信的硬件知识。让读者快速了解硬件知识,为下一步编写代码做基础。 目录 一、概述 二、串口通信分类 2.1信息的传送方向进行分类 2.2同步通信和异步通信 三、串口协议 3.1 RS232 3.1.1 电气特性 3.1.2 连接器的机械特性 3.1.3 连接类型 3.1…...

越南语翻译,人工翻译哪个值得信赖?
近年来,随着中越两国的交流日益频繁,为了促进双方的交流与理解,市场上对越南语翻译的需求也日益增加。那么,如何做好越南语翻译,人工翻译哪家公司值得信赖呢? 据了解,中文翻译越南语是一项颇具挑…...

攻防世界题目练习——Web引导模式(五)(持续更新)
题目目录 1. FlatScience2. bug3. Confusion1 1. FlatScience 参考博客: 攻防世界web进阶区FlatScience详解 题目点进去如图,点击链接只能看到一些论文pdf 用dirsearch和御剑扫描出一些隐藏文件: robots.txt: admin.php: login.php: f…...

attack vector
攻击介质,是指可以攻击信息系统,破坏其安全性的特定路径、方法或是情景。 vector 此处并不是向量的意思。...

好看的早上问候语早安图片,今天最新唯美温馨祝福语
1、天气冷了,情谊不凉,树叶黄了,思念不忘,问候像一杯热茶,让人暖心!祝愿我们与健康平安同行!朋友们,大家早上好! 2、多一个人牵挂是一种幸福;多一个人相知是一…...

人体关键点检测2:Pytorch实现人体关键点检测(人体姿势估计)含训练代码
人体关键点检测2:Pytorch实现人体关键点检测(人体姿势估计)含训练代码 目录 人体关键点检测2:Pytorch实现人体关键点检测(人体姿势估计)含训练代码 1. 前言 2.人体关键点检测方法 (1)Top-Down(自上而下)方法 (2)Bottom-Up(自下而上)方法࿱…...

聚类分析 | Matlab实现基于谱聚类(Spectral Cluster)的数据聚类可视化
聚类分析 | Matlab实现基于谱聚类(Spectral Cluster)的数据聚类可视化 目录 聚类分析 | Matlab实现基于谱聚类(Spectral Cluster)的数据聚类可视化效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现基于谱聚类(Spectral Cluster)的聚类算法可视化(完…...

【回眸】Tessy 单元测试软件使用指南(三)怎么打桩和指针测试
目录 前言 Tessy 如何进行打桩操作 普通桩 高级桩 手写桩 Tessy单元测试之指针相关测试注意事项 有类型的指针(非函数指针): 有类型的函数指针: void 类型的指针: 结语 前言 进行单元测试之后,但凡…...

关系型数据库-SQLite介绍
优点: 1>sqlite占用的内存和cpu资源较少 2>源代码开源,完全免费 3>检索速度上十几兆、几十兆的数据库sqlite很快,但是上G的时候最慢 4>管理简单,几乎无需管理。灵巧、快速和可靠性高 5>功能简…...

使用shell脚本将一台虚拟机上面数据分发到其他虚拟机上面xsync
目录 1,功能2,注意点3,shell脚本介绍4,bash内容 1,功能 使用shell脚本将一台虚拟机上面数据分发到其他虚拟机上面。 2,注意点 需要修改的地方:hadoop250 hadoop251 hadoop252 hadoop253 hado…...