华为深度解读达芬奇架构：3D Cube计算引擎加速运算(2)

2019-08-22 17:31:56 IT之家

小大

扫描到手机×

虽然Cube的算力很强大，但只能完成矩阵乘运算，还有很多计算类型要依靠Vector向量计算单元来完成。Vector的指令相对来说非常丰富，可以覆盖各种基本的计算类型和许多定制的计算类型。

Scalar标量运算单元主要负责AI Core的标量运算，功能上可以看作一个小CPU，完成整个程序的循环控制，分支判断，Cube、Vector等指令的地址和参数计算以及基本的算术运算等。

科普3：3D Cube计算方式的独特优势是什么？

不同于以往的标量、矢量运算模式，华为达芬奇架构以高性能3D Cube计算引擎为基础，针对矩阵运算进行加速，大幅提高单位面积下的AI算力，充分激发端侧AI的运算潜能。以两个N*N的矩阵A*B乘法为例：如果是N个1D的MAC，需要N2的cycle数；如果是1个N2的2D MAC阵列，需要N个Cycle；如果是1个N维3D的Cube，只需要1个Cycle。

▲图中计算单元的数量只是示意，实际可灵活设计

达芬奇架构将大幅提升算力，16*16*16的3D Cube能够显著提升数据利用率，缩短运算周期，实现更快更强的AI运算。举例来说，同样是完成4096次运算，2D结构需要64行*64列才能计算，3D Cube只需要16*16*16的结构就能算出。其中，64*64结构带来的问题是：运算周期长、时延高、利用率低。

达芬奇架构的这一特性也体现在麒麟810上。作为首款采用达芬奇架构NPU的手机SoC芯片，麒麟810实现强劲的AI算力，在单位面积上实现最佳能效，FP16精度和INT8量化精度业界领先。

麒麟810支持自研中间算子格式IR开放，算子数量多达240+，处于业内领先水平。更多算子、开源框架的支持以及提供更加完备的工具链将助力开发者快速转换集成基于不同AI框架开发出的模型，极大地增强了华为HiAI移动计算平台的兼容性、易用性，提高开发者的效率，节约时间成本，加速更多AI应用的落地。

预见：达芬奇架构解锁AI无限可能

基于灵活可扩展的特性，达芬奇架构能够满足端侧、边缘侧及云端的应用场景，可用于小到几十毫瓦，大到几百瓦的训练场景，横跨全场景提供最优算力。

以Ascend芯片为例，Ascend-Nano可以用于耳机电话等IoT设备的使用场景；Ascend-Tiny和Ascend-Lite用于智能手机的AI运算处理；在笔记本电脑等算力需求更高的便携设备上，由Ascend 310（Ascend-Mini）提供算力支持；而边缘侧服务器上则需要由Multi-Ascend 310完成AI计算；至于超复杂的云端数据运算处理，则交由算力最高可达256 TFLOPS@FP16的Ascend 910（Ascend-Max）来完成。正是由于达芬奇架构灵活可裁剪、高能效的特性，才能实现对上述多种复杂场景的AI运算处理。

同时，选择开发统一架构也是一个非常关键的决策。统一架构优势很明显，那就是对广大开发者非常利好。基于达芬奇架构的统一性，开发者在面对云端、边缘侧、端侧等全场景应用开发时，只需要进行一次算子开发和调试，就可以应用于不同平台，大幅降低了迁移成本。不仅开发平台语言统一，训练和推理框架也是统一的，开发者可以将大量训练模型放在本地和云端服务器，再将轻量级的推理工作放在移动端设备上，获得一致的开发体验。