通信行业深度学习集群解决方案-金年会

金年会|金年会官方网站

购买与服务热线:400-810-0466

服务邮箱:Support@theyogaspectrum.com

通信行业深度学习集群解决方案

GPU等强大计算设备的发展为深度学习提供了基础设施支撑。GPU的众核体系结构包含了大量的流处理器,矢量运算可以并行进行,对于矩阵运算的加速效果非常明显,而深度网络在训练过程中需要进行大量的矩阵运算,GPU无疑成了深度模型训练方面的首选方案之一,利用GPU训练深度网络可以充分的发挥计算核心的并行计算能力,在海量训练数据的情况下,耗费时间短,使用服务器数量也变得更少。

设备性能高

GPU服务器的硬件系统满足高可靠性、高可用性、高可扩展性

管理高效

集群管理软件和运维管理软件,提供全方位的服务、高效的计算、简化的集群管理

优化深度学习服务

深度学习框架、任务调度系统、容器技术提供计算服务,实现服务功能和管理模式的多样化

方案架构

image.png

自研+开源算法平台:算法平台主要包括物理网络传输、集群管理调度、人工智能平台三个部分。网络传输部分,对于深度学习网络模型训练时,除了满足可以提供强大计算能力的GPU之外还需要保证PCI-E的传输带宽,对于多机情况,需要能提供更好网络带宽的网络设备来保证整个系统的数据传输效率,减少网络数据传输带来的影响;集群管理调度需要对计算集群整体状态和计算节点的实时状态进行监控和分析,并形成实时的可视化数据报表;人工智能平台需要提供对深度学习开发环境的快速部署,并要针对深度学习开发,对运算资源按照训练任务进行分割和分发。

计算+AI芯片:针对不同深度学习场景,可以搭载多颗GPU的不同类型GPU服务器,在整个计算层中成为了核心计算单元。同时,在计算层中针对集群管理和桌面服务等非核心计算部分采用通用机架服务器支撑。

自研存储系统:存储系统主要用于存放计算数据,在高性能计算中,数十个或者上百个计算节点需要有一个统一映像的共享存储,使用并行文件系统把所有的存储阵列统一为一个大的存储,而并行文件系统能够满足用户这个需求。

深度学习集群方案适用于通信行业客户对于智慧运营、智慧连接、智慧服务、智能营销、智能决策、智慧网络、智能物联、智能客服、互动娱乐等不同领域的业务需求及探索。

方案价值

联系我们

售后服务

严正声明