据微软亚洲研究院发布,作为目前唯一被证明能够将深度学模型扩展到万亿以上参数的方法,MoE 能让模型学更多信息。
并为计算机视觉、语音识别、自然语言处理和机器翻译系统等提供支持。
日前微软亚洲研究院发布了一个高能 MoE 库 ——Tutel,并在 8x 80GB NVIDIA A100 和 8x 200Gbps 的 InfiniBand 网络的 Azure NDm A100 v4 节点上进行了实验。
让我们来看一看,这个用于促进大规模 DNN 模型开发的高能 MoE 库有哪些优势?其表现又如何?
混合专家(Mixture-of-Experts,简称 MoE)是一种深度学模型架构,其计算成本与参数的数量呈次线关系,因此更容易扩展。
MoE 是目前唯一被证明能够将深度学模型扩展到万亿以上参数的方法,它能让模型学更多信息。
并为计算机视觉、语音识别、自然语言处理和机器翻译系统等提供支持,从而以全新的方式为人类社会提供帮助。
微软亚洲研究院发布了一个用于促进大规模 DNN 模型开发的高能 MoE 库 ——Tutel,并针对已普遍使用的新 Azure NDm A100 v4 系列进行了高度优化。