主页(http://www.pttcn.net):LTE业务感知与承载网性能智能测量方案分析 【摘要】从国内LTE(Long Term Evolution,长期演进)网络建设运营现状和运维要求出发,介绍了国内主流运营商LTE承载网的性能测量需求和当前主流的测量标准,并在此基础上给出了可满足需求的智能测量方案,从而提升运维效率,降低运维成本,提升网络价值。 1 引言 国内LTE牌照已于2013年底发放,2014年,各大运营商陆续推出了自己的LTE业务品牌,并开始大规模部署LTE网络。从目前情况看,各运营商已形成相当规模的LTE承载网络,并初步具备海量基站业务高效开放、网络架构优化、故障检测与自动倒换、接入设备即插即管理、多业务融合承载、网络与业务建模及批量配置下发等功能。同时,由于当前LTE承载网存在网元数量众多、运维人员紧缺、难以依靠人工完成网络性能测量和故障定位等问题,而传统的ping/traceroute等测量方法也存在测量指标单一、测量精度不高、故障定位效率低下的不足。因此各大运营商开始寻求可对LTE承载网网络性能实现集约化智能测量的方案,基于该方案,可同时基于多个业务等级,对多项性能指标进行多颗粒度(网络级和业务级)测量,并可快速完成故障定位。 本文将从LTE承载网性能测量的需求出发,结合现有标准、网络现状和不同的应用场景,引入相应的智能化网络性能测量解决方案,为运营商减少运维复杂度、降低运维成本、提高运维效率、提升网络价值提供有力的参考依据。 2 LTE承载网性能测量需求 LTE承载网性能测量主要在开局部署验收和日常运营维护这2个方面存在需求。 2.1 LTE承载网开局部署验收测量需求 在LTE承载网典型组网场景中[1](如图1所示),在开局部署阶段,汇聚及核心设备通过下发工单的方式进行部署,人工完成汇聚—核心段网络层性能测量和验收;接入设备采用即插即管理的部署方式,现场人员仅负责设备上电和光纤连接,通过远程方式智能完成其配置下发、端到端(接入—核心段)性能测量和验收。
在该阶段网络层性能测量的SLA指标主要包括时延、抖动、丢包率和吞吐率(验证QoS (Quality of Service,服务质量)策略是否生效)。 2.2 LTE承载网日常运营维护测量需求 在LTE承载网完成部署,交付运营后,其性能测量主要包括以下3个方面: ◆周期性端到端网络层性能测量 在网络存在业务流量的同时,要求在不影响业务体验的前提下,通过远程方式自动对网络层管道性能进行周期性测量,包括时延、抖动和丢包率;测量周期与测量流量大小视现网业务流量负载和运维需求而定。当SLA(Service Level Agreement,服务等级协定)指标无异常时仅记录日志;当SLA指标出现明显劣化时,则启动故障定位。 ◆业务级性能测量 要求承载网能感知实际的业务流量,并智能测量其SLA指标,包括时延和丢包率,并记录实际流量大小。当SLA指标无异常时仅记录日志;当SLA指标出现明显劣化时,则启动故障定位。 ◆自动故障定位 当网络层SLA指标出现劣化时,要求自动定位故障位置(如IGP邻居状态正常但单跳时延明显增大等);当网络层SLA指标正常但特定业务体验出现异常时,要求自动定位出现异常的业务流、故障位置和原因(如调度队列异常等)。 3 主流网络性能测量标准 3.1 主动测量标准 主动测量是由测量服务器主动发出独立的测量流量,统计网络层管道的SLA指标,不感知实际业务。目前主要有以下标准: (1)ITU-TY.1564以太网业务性能测量标准[4]。基于该标准,可同时发送一条或多条测量流量,对应不同的业务优先级,对两台设备间的双向时延、抖动、丢包率和吞吐率进行测量;各项指标测量可同时进行,也可轮询进行。 (2)IETF OWAMP(One-way Active Measurement Protocol,单向主动测量协议)/TWAMP(Two-way Active Measurement Protocol,双向主动测量协议)网络性能主动测量标准[5-6]。基于OWAMP,可对2台设备间的单向时延、抖动和丢包率进行测量,参与测量的设备须预先实现时间同步;基于TWAMP,可对2台设备间的双向时延、抖动和丢包率进行测量。 3.2 被动测量标准 被动测量一般用于业务级测量,由承载网设备感知实际的业务流量,测量出每条业务流的SLA指标,无需插入独立的测量报文。目前主要有以下标准: (1)IETF RFC6374MPLS(Multi-protocol Label Switching,多协议标签交换)网络被动测量标准[7],通过在特定业务流量中周期性地插入带时间戳的OAM(Operation Administration and Maintenance,操作、管理与维护)报文,实现对业务流量SLA指标的测量。 (2)IETF IP FPM(IP Flow Performance Measurement,IP流性能测量)框架草案[8],通过周期性地对特定业务流量进行着色,在不引入任何外部报文的条件下实现对业务流量SLA指标的测量。 被动测量标准均要求承载网设备预先实现纳秒级时间同步。 3.3 主流测量标准比较 主流测量标准间的特性对比如表1所示,在实际应用中,运营商可根据自身情况进行选取和部署。
表1主流测量标准对比 4 LTE承载网性能智能测量方案设计 4.1 开局部署验收测量方案 LTE承载网的接入设备在部署之前,汇聚设备和核心设备必须预先完成部署和验收。接入设备采用即插即管理的部署方式,部署完毕后,由集中部署的远程测量服务器智能完成网络层性能测量和验收,如图2所示:
开局部署验收采用主动测量方式,验证网络层管道的SLA指标和是否存在负载分担场景的问题,详细过程如下: (1)测量服务器双挂一对核心设备。 (2)新部署接入设备AC侧接口(eNodeB业务接口)配置测量代理IP地址,与eNodeB关联相同的PW(Pseudo Wire,伪线),汇聚设备向L3VPN(Layer 3 Virtual Private Network,第三层虚拟专用网)同时通告eNodeB和测量代理的主机路由。 (3)测量服务器向其中一台核心设备发送测量流量,目的IP为新部署接入设备的测量代理地址,可定义多条测量流量对应相应的业务等级。 (4)接入设备在接收到测试流量后,交换测试报文的源目IP和源目端口号,并回送测量服务器。 (5)测量服务器依次向核心设备发送模拟的各等级业务流量,速率不小于其对应PIR(Peak Information Rate,峰值信息速率),验证网络轻载时每条回送流量是否可正常突发到配置的PIR,记录该流量的双向时延、抖动和丢包率。 (6)测量服务器同时向核心设备发送所有等级的测量流量,每条流量速率均大于其对应的CIR(Commited Information Rate,承诺信息速率),验证网络拥塞时每条回送流量是否可保障为配置的CIR,记录每条流量的双向时延、抖动和丢包率;若接入设备可从主备PW接收到不同的测量流量,则可验证下行流量负载分担生效;若测量服务器可从2台核心设备接收到不同的回送流量,则可验证上行流量负载分担生效。 (7)若时延、抖动、丢包率、吞吐率和负载分担有效性均满足要求,则接入设备部署通过开局验收;否则启动故障定位至网络性能满足要求为止。 4.2 日常运营维护测量方案 (1)网络层端到端测量 LTE承载网在完成开局验收交付运维后,须在不影响现网业务的情况下对网络层性能进行周期性测量,相关测量仍通过集中部署的远程测量服务器智能完成,其中在网络层采用主动测量的方式验证管道的SLA指标,包括时延和抖动。具体过程如下: 1)测量服务器将其覆盖范围内的接入设备分为若干组,每组N台接入设备(N的具体取值视网络条件和服务器处理性能而定)。 2)测量服务器发送N条测量流量,一条测量流量对应一台接入设备的一个业务等级,记录该N条流量的时延和抖动指标。 3)测量服务器重新发送N条测量流量,对应步骤2)中同一组接入设备的另一个业务等级,记录该N条流量的时延和抖动指标,直至遍历该组接入设备所有业务等级为止。 4)测量服务器对另一组接入设备重复步骤2)—步骤3)的测量操作,并记录相应的时延和抖动指标,直至遍历其覆盖范围内所有接入设备为止。 5)若时延和抖动指标无异常,则记录测量日志;否则发出告警,触发故障定位。 (2)承载网感知LTE业务并自动测量其SLA指标 LTE承载网对业务流量的感知和测量,采用被动测量方式;承载网设备通过对业务流量的识别和着色,实现对其单向SLA指标的智能测量,包括时延、丢包率和实际流量大小,如图3所示(以下行流量为例):
感知和测量的详细过程如下: 1)参与LTE业务感知的所有承载网设备均已预先实现纳秒级的时间同步。 2)每台承载网设备根据IP六元组(源目IP、传输层协议、源目端口号和DSCP(Differentiated Services Code Point,差分服务代码点)/IPP(IP precedence,IP优先级)值)来区分每条业务流;设备在业务侧入方向对其进行着色,在网络侧仅进行区分业务流和感知业务流颜色的操作。对业务流着色主要有以下2种机制: ◆IPv4和IPv6业务报文采用统一的着色机制,选择IPv4的Type of Service字段和IPv6的Traffic Class字段中的ECN(ECN:Explicit Congestion Notification,显式拥塞通告)比特用于着色操作,采用不同数值对应不同颜色。ECN比特已在TCP控制报文中被用户拥塞通告,因此在应用于业务报文在转发平面的着色时,必须避免对业务流量和已有协议产生影响。 ◆IPv4和IPv6业务报文采用不同的着色机制,IPv4报文采用Flags字段中的保留比特进行着色,IPv6报文采用Flow Label字段的最后一个比特进行着色。该机制可最大限度地避免对业务流量和已有协议产生影响。 3)每台承载网设备定义若干等长且起止时刻相同的时间窗口,每个窗口对应一个业务流量块;相邻窗口的业务流为不同颜色,不相邻窗口的业务流可以为相同颜色,也可以为不同颜色。 4)每台承载网设备分别为每个业务流块分配一个全网唯一的序列号,所有设备相同的业务流块对应的序列号必须保持一致。 5)每台承载网设备通过IP FIX(IP FIX:IP flow information exchange,IP流信息交换)协议[9],将每个业务流块的序列号、报文数、字节数及其进入和离开该设备的时刻上送中心计算服务器。 6)中心计算服务器根据每台设备上送的同一业务流块的相关信息,即可计算出任意2台设备间该业务流块的时延、丢包率和流量大小。 7)中心计算服务器统计多个业务流块的SLA指标,并上送网管,统计颗粒度视运维需求而定。若SLA指标无异常,则网管记录测量日志;否则网管发出告警,触发故障定位。 (3)故障定位 当网络性能或业务流量SLA指标出现异常时,网管发出告警,并触发故障定位。具体流程如下: 1)网管从中心计算服务器上送的结果中定位出哪几台设备间的哪些流量出现SLA劣化和异常。 2)运维人员通过网管向和故障相关的设备下发命令,在相关设备间发起网络层主动测量,测量指标包括时延、抖动和丢包率,验证故障是否出现在网络层。 3)若确认故障出现在网络层,则排查链路、设备接口和板卡等基础设施是否存在异常。 4)若确认网络层无故障或故障已排除,但仍存在业务流量SLA劣化的情况,则排查相关设备的QoS配置、队列调度情况、安全机制和软件状态等逻辑策略。 5 结束语 在各种业务日益融合的今天,移动互联网和差异化的流量业务逐渐成为运营商未来重要的业务增长点;而LTE牌照的发放、LTE网络建设及业务开放,则为运营商的产品演进和业务发展提供了新的契机,同时也给网络运维的成本控制和高效性带来了挑战。因此,有必要在LTE承载网中引入可行有效的智能化、集约化的网络性能测量方案,从而提高网络运维和故障定位效率,降低运维成本,提升网络价值。
(中国集群通信网 | 责任编辑:李俊勇) |