SDN数据中心网络解决方案

实现业务的全生命周期自动化,业务TTM(Time to Market,上市时间)效率提升90%。

实现全无损以太网络,满足高性能计算零丢包的要求。

实现网络长距传输零丢包,满足同城双活全以太存储网络的要求。

实现故障的快速感知、智能分析和快速闭环,以及大量故障场景的主动故障预测。

现存挑战

现今,传统产业的升级、新型产业和新ICT技术的不断涌现,使各行各业正在进行深刻的数字化转型,“数字经济”也已逐渐融入到人民的日常生活中。以“云”为核心的数字化架构,成为数字化转型的关键。其中,ICT的基础设施也进行了深刻的云化变革,云计算已经遍地开花。云计算不再是IT领域的专业术语,它代表了一种新的生产力,创造了新的业务模式,带来传统经营方式的颠覆性变化和客户体验的革命性变革。

业务快速上线,网络需要池化与自动化

云化场景要求虚拟资源能统一管理,实现灵活部署和业务迁移,而传统数据中心网络割裂,无法满足。

云化场景业务海量部署,不同业务的网络策略不同,且需要快速上线新业务,而传统数据中心业务部署费时费力,效率低。

云化场景业务经常需要在多个数据中心内部署,而传统的多数据中心之间资源割裂,管理复杂,无法实现资源的高效协同管理。

业务快速上线,网络需要池化与自动化

IT领域的变革,驱动数据中心网络全以太化演进

现阶段,IT领域的三大关键变革为:

IT架构从集中式走向分布式,大规模节点之间互联已普遍采用以太网。

计算单元无论是CPU还是GPU都在去PCIE总线,突破总线的速率瓶颈,直接出以太口来提供更高算力。

存储介质从机械硬盘向全闪存升级,性能提升百倍,传统FC网络不满足全闪存高吞吐的需求,于是带宽高达400GE的以太网成为新一代存储网络的事实标准。

数据中心内部使用以太网来连接一般业务服务器、高性能计算服务器和存储服务器已成为趋势,同时也对数据中心网络提出了新的要求。

由于以太网天然丢包,且随着网络规模的增加,丢包呈现指数级增长,无法满足高性能计算对零丢包的要求。

存储数据常常部署在同城双活场景中,由于长距传输带来的额外时延,让网络流控实现零丢包更是雪上加霜。

IT领域的变革,驱动数据中心网络全以太化演进

业务快速上线,网络需要池化与自动化

数据中心规模不断扩大,故障域也随之扩大。

虚拟网络延伸到服务器内部(如vSwitch),网络和IT的运维边界越来越模糊。

网络动态感知VM动态迁移及应用的弹性扩缩,配置变化频繁,流量激增,数据中心内应用策略及互访关系日益复杂,传统运维手段实施起来难度越来越大。

为了提高用户体验,保证关键业务的高可靠性,需要对故障进行实时定位和消除。

业务快速上线,网络需要池化与自动化

方案内容

image.png

价值/优势

全生命周期自动化,实现网络即服务,业务秒级发放

全生命周期自动化,实现网络即服务,业务秒级发放

当前,很多数据中心网络已通过SDN实现了网络配置的自动化。但是业务设计规划、技术评审、效果验证等都需要人工执行,涉及多个部门多个角色,整体耗时长、效率低,成为业务发放的瓶颈。

CloudFabric解决方案通过引入智能算法:

在设计环节:将全网影响设计的因素分解到资源、质量、可靠性三个评估维度,实现网络方案的秒级生成与推荐。

在验证环节:将网络拓扑、设备配置、流量信息进行叠加计算,实现全网海量配置的秒级校验。

CloudFabric从而可以在规划新建、业务发放、运维监控、变更优化四个阶段,实现网络的全生命周期自动化管控。

构建全以太数据中心网络,释放算力、提升存储性能

构建全以太数据中心网络,释放算力、提升存储性能

●CloudFabric解决方案面向高性能计算场景提供了全以太的HPC(High-performance Computing,高性能计算)网络。它基于华为独创的iLosslessTM智能无损交换算法,攻克了以太网多年的丢包难题,实现了高吞吐下的线速转发,满足HPC业务所需的高网络性能,实现规模不变,算力倍增。

●CloudFabric解决方案面向存储场景提供双活全以太存储网络。在短距iLosslessTM智能无损交换算法的基础上,提出了iLossless-DCI算法,解决了长距无损丢包的难题。从32G提升到400GE,带宽提升了10倍,存储的IOPS(Input/output Operations Per Second,每秒进行读写操作的次数)大幅提升。

全网智能运维,保证业务7×24小时在线

全网智能运维,保证业务7×24小时在线

CloudFabric中,通过Telemetry技术实现网络中多维度数据信息的采集,并依托智能分析平台对全网运维数据进行分析,不仅可实现各类运维数据的可视化,可以下几点关键的运维能力。

●网络健康评估:基于设备、网络、协议、Overlay、业务,构建了一个多维度的评估体系,结合Telemetry机制,整合网络中的配置数据、表项数据、日志数据、KPI性能数据,实时发现网络中各个层面的问题和风险;检测范围覆盖工作状态异常、网络容量异常、器件亚健康、业务流量交互异常等范围;从而帮助运维人员“看网识网”,直观地呈现全网整体体验质量。

●快速定位故障根因:基于知识图谱,可实现对数据中心网络已知故障的1分钟发现、3分钟定位、5分钟修复;也可对一些未知故障进行学习和故障推理,帮助运维人员深度探索未知故障的根因。

●业务变更自动保障:通过采集配置变更后的网络数据,建模验证网络实际转发行为是否与用户业务意图一致。用户可以通过验证结果辅助确认变更是否符合预期、是否引入问题等等,并且对于验证失败的意图,可以进一步定位回溯失败原因,从而极大提升网络变更场景下的运维保障效率。同时,也可对重要业务周期性自动进行验证,以保证重要业务的正常可靠运行。