您访问的页面找不回来了!
返回首页- 您感兴趣的信息加载中...
对于微软而言,其愿景是让每个人都能用上人工智能,解放从业者不必要的工作量,因此若想让人工智能变得更为大众化,系统优化上的工作自然落在了微软的肩上。
深度学习优化三大挑战
在此前一次媒体交流的活动中,微软亚洲研究院资深研究员伍鸣曾指出,目前深度学习计算的优化主要面临三大挑战:扩展性、局部计算以及内存的使用效率。
扩展性方面,微软通过远程直接数据存取(RDMA)以及NVLink(英伟达开发并推出的一种总线及其通信协议)等高速的网络硬件能力,设计出了一个讨巧的零拷贝通信机制,让计算能力能够线性增加。也为深度学习开发人员带来更大的想象空间。
此外优化算法是求解目标函数中极为重要的一环,需要设计并行与分布式优化算法。但开发者通常更关注于神经网络结构和算法的本身,并不擅长指导其在分布式环境中去具体执行,为此微软开发了一套能够实现自动优化的系统软件,能够自动把模型做分布式的执行。
利用RDMA优化分布式的深度学习训练,微软有效提高了多机训练的吞吐量和收敛速度,在不同应用类型下,取得了2-8倍的加速效果。
(红色是微软的数据,蓝色是原始数据)
在局部计算方面,目前很多深度学习模型背后有着大规模的数据流图,在这其中有很多非常小的算子组成,这些算子在GPU上启动执行时都存在着内存开销。为了减少这些系统开销避免影响计算效率,微软设计了一个能自动内核融合的方式。