摘要:针对气象导航服务在台风变动等突发海况下引发的密集计算需求,解决云边协同调度中严格时间窗口约束与多维异构资源争抢问题,实现在服务器端任务的时效性、服务器节点能耗与负载均衡等多目标间的动态权衡。将事件驱动的调度过程建模为半马尔可夫决策过程(semi-Markov decision process,SMDP),提出一种基于偏好的多目标分层强化学习框架。首先,针对联合动作空间庞大且稀疏的问题,提出基于偏好的多目标优化分层强化学习的气象导航任务调度(PBMO-HRL)算法,将决策解耦为“任务选择”与“节点分配”两层策略;其次,结合动作掩码并采用显式期望计算以降低方差,期望形式的策略梯度估计以降低方差;此外,由于事件驱动导致决策间隔可变(SMDP),引入时间感知折扣与合并空闲状态转移以减少冗余决策步,从而缓解价值高估/估计偏差;最后,设计动态偏好管理器,根据在线拥塞与能耗指标平滑调节偏好。在离散事件仿真环境中,实验结果表明该框架在超体积(hypervolume,HV)与期望效用均值(expected utility metric,EUM)等帕累托指标上均收敛。以任务截止时间窗口是否满足作为SLA判定依据,相较最早截止期优先(EDF)与能耗贪心(Energy)基线,PBMO-HRL能耗分别降低约16.6%和5.6%,SLA违约率分别降低约20.5%和28.8%。所提框架能够有效应对突发负载,在保障核心气象导航任务服务等级协议(service level agreement,SLA)的同时,实现了非平稳环境下的自适应多目标寻优。