基于DRL的6G负载均衡路由方案: History
Please note this is an old version of this entry, which may differ significantly from the current revision.
Contributor: , , , ,

由于空地一体化网络(SAGIN)的快速发展,卫星通信系统具有覆盖范围广、对地理环境要求低等优点,正逐渐成为6G的主要竞争技术。低地球轨道(LEO)卫星网络具有传输时延低、传播损耗小、覆盖全球等特点,其探索已成为当代卫星通信的主要研究对象。

  • low earth orbit
  • satellite routing algorithm
  • deep reinforcement learning

1. 简介

近年来,天空地一体化网络发展迅速。卫星通信是6G天空地一体化网络(SAGIN)的关键环节。它可以弥补5G地面网络的不足,提高网络覆盖范围,保证系统的容错性。还可以结合人工智能、大数据、物联网等技术,为用户提供多样化的服务。卫星通信比传统地面网络覆盖面积更大,全球适应性更强。它正逐渐成为下一代通信的主要竞争技术。低地球轨道(LEO)在卫星通信领域的重要性怎么强调都不为过。与地球同步轨道和中地球轨道星座相比,LEO因其低传输延迟,低传播损耗和覆盖世界的能力而脱颖而出。这些独特的功能使LEO成为各种应用的有吸引力的选择,包括互联网服务,全球定位系统和遥感。LEO的低传输延迟和低传播损耗使其成为实时通信等时间敏感型应用的理想选择,而其全球覆盖范围确保其适用于需要在偏远或难以到达的位置进行连接的应用。因此,LEO近年来获得了极大的关注和兴趣,导致新技术和算法的发展以提高其性能和效率也就不足为奇了。随着SAGIN的快速发展,传统的地面通信网络已经不能适应未来的发展。发展近地轨道卫星通信已经是一个大有可为的发展方向。
在低地球轨道卫星网络中,卫星间链路(ISL)确保卫星之间的通信。与地面通信网络相比,LEO卫星网络更频繁地改变其拓扑结构,具有更长的星间链路时延,并且在多用户区域中具有更频繁变化的链路状态。由于高速动态变化,传统路径选择方法的成本明显增加。因此,地面应用的路由协议很难直接在LEO卫星网络中使用。LEO卫星路由技术也是6G SAGIN遥感、通信、计算一体化的支撑技术;因此,有必要研究低轨道卫星网络中的路由算法。
现有的大多数卫星路由算法都是基于地面网络路由算法开发的。这些算法中的大多数都基于最短路径。由于高纬度和低纬度卫星密度的差异以及用户分布密度的差异[1],同一星座卫星之间的负载差异较大。此外,随着卫星的高速运动,卫星之间的高负载覆盖区域也迅速变化。因此,传统的路由算法在满足当前卫星网络发展方面遇到了困难。
深度学习算法的认知表现更好,强化学习算法的决策能力更强,深度强化学习将两者结合起来。在深度强化学习中,智能体通过与环境的交互做出决策,并通过试错获得反馈,学习最大化奖励和最小化惩罚[2]。由于深度强化学习强大的感知和决策能力,越来越多的学者将这种学习应用于计算机视觉[3,4]、语音识别、自动驾驶[45]等多个领域。深度强化学习也适用于LEO卫星网络领域。它可以感知拓扑变化、负载变化和网络参数,例如卫星网络中的延迟和带宽。它可以根据网络服务需求做出最佳决策。

2. 低地球轨道卫星路由

LEO卫星星座可分为两类,即基于倾斜轨道的沃克三角洲星座和基于极轨道的沃克星星座。如图1所示,铱星座[9]是一个典型的极轨道星座,因其具有代表性的星座结构和易于构建的数学模型而被许多学者研究为低轨道星座。
图1.铱星座的插图。
铱星座的轨道和拓扑如图2所示。由于卫星的移动性和连接的变化,拓扑结构迅速变化。在反向轨道上运行的卫星无法建立通信链路。此外,当卫星穿过极点时,通信链路会发生变化。由于动态拓扑结构带来的挑战,卫星网络路由算法引起了很多研究兴趣。该领域的工作主要分为以下两种,集中式路由算法和分布式路由算法。
图2.铱星卫星轨迹图。
分布式路由算法可以适应卫星网络的动态场景。这是因为该算法根据相邻卫星的状态(例如剩余带宽和队列利用率)确定下一跳。因此,当相邻卫星的状态发生变化时,算法可以快速感知到它,并根据动态环境快速决定路由策略。结合现有地面分布式路由算法的设计思路,作者在[10]中研究了卫星网络的路由方法。通过充分考虑低地球轨道卫星的特点,改善了机载缓冲区空间。对数据包进行分类,并在[11]中设计了相应的路由方法。
与分布式路由算法不同,中心化算法需要导出卫星网络的全局信息[12]。主控制节点首先收集全局信息,然后执行路由路径计算。获得路由结果后,它们将整个路由策略传输到其他节点。作者在[13]中为卫星网络设计了一种改进的分布式分层路由协议(DHRP)。该协议设置了主节点和候选节点,因此与传统的离散松弛算法(DRA)相比,具有出色的路由性能。[14]中的作者提出了一种混合全局-本地负载平衡路由(HGL)算法。然而,当大规模的交通流量突然改变时,它是无效的。作者在[15]中提出了一种概率ISL路由(PIR)算法,其中利用通信延迟来评估路径选择性能。该算法还考虑了卫星间链路的成本。
尽管上述算法在对低地球轨道卫星动力学的适应性方面取得了很大进展,但它们未能考虑卫星载荷仍然是一个重大缺陷。

3. 低地球轨道卫星的负载平衡

低地球轨道卫星的星间链路长度随卫星的纬度而变化。传统的路由路径最短路径算法设计仅依赖于路径长度,导致纬度较高时的流量聚合[116]。图 3 显示了使用 NS3 网络模拟软件创建的卫星流量分布的 3D 示意图。黑点表示低地球轨道卫星,而线段表示承载流量的卫星间链路。每个分段的粗细和颜色分别对应于其带宽利用率和流量。较粗的线条表示较高的流量,而较深的颜色表示较高的带宽利用率。值得注意的是,LEO卫星网络主要在高纬度和人口稠密的地区经历拥塞。此外,地面网关站分布不均,造成卫星网络负荷失衡。用户流动性和全球人口分布也是影响交通流量分布的关键因素[17]。卫星的高机动性导致卫星之间的高负载覆盖区域快速变化[1819]。
图3.流量分布图。
[1720] 中提出了一种基于路径的负载平衡卫星路由算法,目的是最小化最大网络流量。该算法通过设置所有具有相同路径长度的卫星间链路并赋予所有路径相同的优先级,避免了高纬度地区的流量聚集。[21]中的作者考虑到反向插槽和网关站之间的关系,将传输区域划分为重载范围和轻负载范围。重载范围采用拥堵指示器,利用权重最小的路径处理不均匀的交通流量分布。然而,这种方法需要整个网络的链路状态信息,无法实时做出决策[22]。[2324]中提出了弹性负载均衡(ELB)算法,实现了卫星节点间拥塞信息的交换。因此,ELB 实现了负载平衡目标并避免了交通拥堵。利用队列的占用情况来确定卫星节点是空闲还是繁忙。当节点被标记为繁忙节点时,它会向其邻居节点发出消息以降低其传输速率。[25] 中提出的 TLR 算法同时考虑了拥塞的当前状态和下一跳拥塞的可能状态。作者在[26]中提出了一种迭代Dijkstra机制来选择负载平衡路由的最佳传输路径。[27] 中的作者考虑了链路延迟,以进一步提高路由性能。在探索LEO路由算法时,[28]利用合作博弈论来平衡负载和传输延迟之间的权衡。在[29]中,利用模糊理论实现了不同用户的需求。传输开销和路由收敛被评估为[30]中的关键性能指标。结合航迹预测,提出了按需动态路由算法。[31]中还考虑了能源消耗,以提高用户的服务质量。
现有文献强调了LEO路由在负载性能方面的优势[3233]。然而,与本地优化不足和动态适应性弱有关的挑战仍未解决,这可能阻碍低地球轨道卫星网络的发展。

4. 基于机器学习的卫星路由

复杂的卫星网络环境和动态的星间链路使得卫星路由算法难以计算。强化学习因其处理顺序决策问题的独特能力而广泛应用于各种新兴行业[34]。在 [35] 中调查了内容缓存问题。Q学习算法被用于云内容分发系统。在[36]中,使用Q学习识别物联网(IoT)中的拥塞链路以提高容错率。同样,Q-learning在[37]中用于提高无线传感器网络(WSN)的吞吐量并解决设备的能耗问题。在[38]中,为了解决车联网中缓存、带宽等资源的最优分配问题,他们使用深度强化学习来求解模型。[39]的作者在机器学习中使用深度确定性策略梯度(DDPG)[40]为天地一体化网络设计了一种集中式卫星路由算法[4142]。拟议战略的决策中心设在实地。决策中心实时获取全网的流量信息,决策后将路由信息发送给相关卫星。但是,这种策略的缺点是卫星通信的时延非常大,无法及时做出传输路由决策。网络负担增加;因此,它不适合大规模使用。[43]中提出了一种基于多智能体深度确定性策略梯度(MADDPG)[44]的路由算法,该算法是经过集中训练后部署在每颗卫星上的路由策略,解决了上述集中式路由算法的部分问题。集中训练方法在获取足够数据方面存在局限性,随着网络规模和深度强化学习算法训练复杂度的增加,这变得越来越困难。

This entry is adapted from the peer-reviewed paper 10.3390/rs15112801

This entry is offline, you can click here to edit this entry!
ScholarVision Creations