微软在对话式人工智能领域取得新突破
- 微软在对话式人工智能领域创造了新的记录。
- 他们开发了多任务深度神经网络的增强版本,用于学习跨各种自然语言理解任务的文本表示。
稳健且通用的语言表示对于在各种自然语言处理 (NLP) 任务中获得不错的结果很重要。集成学习是增强模型泛化的最有效方法之一。到目前为止,开发人员已经使用它在各种自然语言理解 (NLU) 任务中获得了最先进的结果,从机器阅读理解到问答。
然而,这种集成模型包含数百个深度神经网络 (DNN) 模型,并且实施起来非常昂贵。预训练模型(例如 GPT 和 BERT)的部署成本也非常高。例如,GPT由48个transformer层组成,15亿个参数,而BERT有24个transformer层,3.44亿个参数。
2019 年,微软提出了自己的自然语言处理 (NLP) 算法,名为 Multi-Task DNN。他们现在更新了这个算法以获得令人印象深刻的结果。
扩展知识提炼
研究团队使用知识蒸馏将几个集成模型压缩到一个多任务 DNN 中。他们使用集成模型 [以离线方式] 为训练数据集中的每个任务生成软目标。与硬目标相比,它们为每个训练样本提供了更多有用的数据。
我们以一句话为例,“我昨晚和约翰聊得很好”,这句话中的情绪不太可能是负面的。但是,根据上下文,“我们昨晚进行了一次有趣的对话”这句话可以是否定的也可以是肯定的。
参考:arXiv:1904.09482 | 微软研究博客
研究人员在各种任务中使用正确的目标和软目标来训练单个 MT-DNN。他们利用 cuDNN 加速 PyTorch 深度学习框架在 NVIDIA Tesla V100 GPU 上训练和测试新模型。
结果
他们将蒸馏的 MT-DNN 与普通的 MT-DNN 和 BERT 进行了比较。结果表明,就通用语言理解评估 (GLUE) 基准的总体得分而言,提炼的 MT-DNN 明显优于这两个模型,该基准用于测试系统在各种语言现象上的性能。>
GLUE 基准分数
该基准测试包含 9 个 NLU 任务,包括文本相似性、文本蕴涵、情感分析和问答。数据包含来自不同来源的数百个句子对,例如学术和百科全书文本、新闻和社交媒体。
本研究中进行的所有实验都清楚地表明,通过蒸馏的 MT-DNN 学习的语言表示比普通的 MT-DNN 和 BERT 更具有通用性和鲁棒性。
阅读:Bosque:微软新的无循环编程语言
在接下来的几年里,研究人员将尝试寻找更好的方法将硬正确目标和软目标结合起来进行多任务学习。而且,他们不会将复杂的模型压缩为更简单的模型,而是探索使用知识蒸馏的更好方法来提高模型性能,而不管其复杂性。
工业技术