主页(http://www.pttcn.net):上海贝尔:如何应对EPC大规模网络部署的挑战 目前中国运营商正处于LTE/EPC规模部署的前夜, 基于中国庞大的用户基数,在今后的两三年内,LTE/EPC的使用用户数,数据流量会变得十分巨大,因此中国的网络建设者需要在网络部署初期,研究国外大型运营商的前车之鉴,未雨绸缪,节省网络开销,提升网络安全性。 在Pool的基础上进一步提高核心网安全性 目前组pool技术已经用在了MSC和SGSN上,在一定程度上提高了网络的安全性,在LTE的核心网EPC上,也有类似的MME-pool和SGW-pool技术,同样可以起到负荷分担,网元之间冗余备份的作用。但是在国外大规模的LTE商业部署过程中,我们发现对于系统安全性,依然有提高的空间。 1.在MME pool的基础上提高安全性 当一个MME宕机时,根据国际规范的规定,该MME上附着的用户会到pool中的另一个MME上重新进行强制附着。 而附着流程本身包含十分复杂的信令交互,当一个MME宕机时,数以万计的用户在pool内的另一个MME上做附着操作,对MME甚至HSS的信令压力会很大,甚至会把pool内其他原本正常工作的MME击垮,引发的雪崩效益导致网络的大规模瘫痪。 为了应对这一问题,上海贝尔创新性地增加一台小型备份服务器(SRS),它平时只需收取pool内各个MME中附着用户的动态数据(UE context),即可保留pool内所有用户的信息。
有了备份服务器之后,当一个MME宕机时,终端用户根据规范要求,到pool内的其他MME上做附着操作,而MME则可以从备份服务器中(SRS)读取用户的动态信息(UE context),只需要一次消息来回就可以代替很复杂的附着信令流程,从而大大降低了MME和HSS的瞬时信令压力,提高网络的总体安全性。如下图所示。
2. 在SGW pool的基础上提高安全性 对于SAE-GW,除了使用SGW-Pool技术提高系统的安全性,还可以更进一步,使用SAE-GW的地理冗余技术。具体解决方案如下图所示。
SAE-GW冗余方案使用了两种技术: VRRP技术 使用了VRRP技术,当主用的SAE-GW退出服务时,备用的SAE-GW依旧可以使用主用的IP地址对外通信,继续工作,那么周边的网元(MME,eNodeB)就感知不到SAE-GW网元实体进行了倒换,于是SAE-GW的倒换对周边网元没有影响。 Multi-Chassis Synchronization (MCS)技术 这是上海贝尔独有的技术,可以在两个SAE-GW之间同步LTE用户的动态数据,备用SAE-GW不停地获取当前的用户信息,当主用设备退出服务时,备用设备已经有了相关的用户信息,可以很平滑地继续提供服务,于是SAE-GW的倒换对在线用户也没有影响。 应对信令风暴的冲击 国外运营商在大规模部署LTE/EPC网络时,都碰到了信令风暴的问题,即信令流量的激增,消耗了大量的网络系统资源,极端的情况下,过大的信令量会引起系统设备的瘫痪。 信令的激增主要由以下几个方面引起: 推送业务,VoIP业务导致大量寻呼消息。 b.长在线业务,小包业务,M2M业务导致大量的无线/核心网链路资源的删创,引发链路控制消息数目的激增。 c.LTE/EPC的扁平化架构,没有RNC做收敛,MME、GW直接面对成千上万个eNodeB,它们之间的信令消息几何级数地增加。 应对信令风暴的冲击,核心网侧可以从以下几个方面来应对。 1. 核心网设备本身提高健壮性 对于信令处理的主设备MME,板卡要做到1:1冗余备份,每对板卡之间再做负荷分担,这样才能尽量避免单点故障,整个的系统安全性比N+1板卡备份要高很多。 2. 智能的寻呼策略 寻呼消息是MME发给eNodeB的,由eNodeB在其覆盖范围内搜寻相关的终端,因此会占用eNodeB的无线资源。如果MME发出的寻呼消息越多,范围越大,肯定会消耗更多的无线资源,但是寻呼成功率就会高,终端用户的业务体验就比较好。MME上应该提供灵活的寻呼策略,让运营商在终端用户的寻呼体验和网络资源的消耗上取得良好的平衡,防止寻呼消息产生的信令风暴。 首先对于寻呼的范围,可以有如下的选择: Last Seen eNodeB Last Seen TA Last Seen TA + Neighboring TAs (TA List) Last Seen eNB + (N) eNBs 运营商可以根据网络的忙闲状态,选择不同的寻呼范围:网络空闲时可以选择比较大的范围,反之则选择比较小的范围,防止无线和EPC的过载。 其次对于寻呼的次数,对第一次寻呼,第二次寻呼,第n次寻呼的范围,都是可以动态配置,于是运营商可以根据现网的情况进行寻呼参数的修正,从而在终端用户的寻呼体验和网络资源的消耗上找到适合的平衡点。 对于不同服务等级的用户(比如金银铜牌用户),通常是网络侧分配不同的接入带宽和QoS参数,但是寻呼的范围也会直接影响到相关业务体验,因此寻呼的范围大小的确定还可以参考EPC承载的QCI参数(此QCI参数表明了用户使用业务的相关QoS特性参数),于是用户在业务体验的各个方面都和其服务等级相匹配,同时也确保网络资源向高等级业务的倾斜,在网络忙时降低对低等级业务的资源消耗,从而降低忙时的设备负荷。 3. 减少位置更新的信令消息 LTE中位置信息可以用Tracking Area来表示,它的概念类似于电路域中的Location Area,但它的覆盖范围比较小。如果按照23G的思路,当终端进入到新的位置区域时就发起位置更新消息,那么在LTE中相应的位置更新消息就太多了。因此,3GPP国际标准组织引入了TA list的功能,MME发送一个Tracking Area的列表给终端,终端记录下列表中所有的Tracking area,只要它位于列表中任何一个Tracking Area,都不会发送位置更新消息,只有终端到了列表外的的Tracking area时,才会发起位置更新(Tracking area update)流程。 如果给用户分配一个含有很多TA的列表,当然可以大大地减少位置更新的次数,但是也会大致大量的寻呼消息。因此TA list里的Tracking Area要精确地表示终端可能位于的区域,用户始终没有到过的Tracking area尽量不要放在列表中,以防止对这些Tracking area进行无意义的寻呼。因此根据用户的历史运动轨迹推导出一个TA列表,既可以减少位置更新消息,从而减少终端和MME之间的信令消息,减少终端电池的消耗,又不会增加今后寻呼的资源开销。 对于历史轨迹,我们举个简单的例子,有些用户由于自身需要会做来回的乒乓运动甚至环形运动。我们需要探测出这种运动规律,把环形运动中所经过的TA,即TA(n),TA(n-1),TA(n-2)都列入TA list中,这样的TA list就能真实地反映出终端运动轨迹,更好地减少终端的位置更新的消息次数。
上海贝尔的MME,SAE-GW设备在国外的大型LTE/EPC网络中有广泛的应用,积累了丰富的经验。 对于MME设备,采用板卡间1:1冗余备份,每对板卡之间再做负荷分担,尽可能地提高系统安全性。此外还设计了特有的备份服务器,在单局出现故障的情况下,保障了业务平稳地迁移到其他MME上。同时智能寻呼策略,动态TA list生成策略可以减少信令消息,降低信令风暴的冲击。 对于SAE-GW设备,采用十分稳定的7750路由平台,板卡间也是采用1:1冗余备份,每对板卡之间做负荷分担,系统安全性比N+1备份高出很多。在北美成功商用的SAE-GW地理冗余方案,让整体系统更加地安全可靠,从容应对大网络的挑战。 (中国集群通信网 | 责任编辑:陈晓亮) |