Microsoft 构建了最大的语言生成模型，具有 170 亿个参数

大规模深度学习语言模型（如 GPT-2 和 BERT）在互联网上所有可用文本上训练了数十亿个参数，增强了各种自然语言处理 (NLP) 任务，例如文档理解、对话代理和问题回答。

已经观察到具有更多样化和更全面的预训练数据的更大模型性能更好，即使训练样本更少。因此，训练一个大规模集中模型并在不同任务之间共享其特征比单独为每个任务训练一个新模型更有效。

顺应这一趋势，微软的研究人员推出了图灵自然语言生成 (T-NLG)，这是世界上最大的模型，拥有 170 亿个参数。它在不同的语言建模基准上优于现有的最先进模型。

T-NLG 可以生成单词来完成未完成的句子、输入文档的摘要以及对问题的直接回答。与其他依赖从文档中提取内容来创建摘要或回答问题的 NLP 系统不同，新的生成模型可以像人类在不同情况下一样准确、直接和流畅地做出响应。

T-NLG 没有复制段落，而是直接用完整的句子回答问题。

由于单个 GPU（即使有 32 GB 内存）也无法处理数十亿个参数，因此您需要对模型本身进行并行化或将其拆分为切片以跨多个 GPU 进行训练。

在这项研究中，研究人员利用 NVIDIA DGX-2 硬件设置（使 GPU 之间的通信更快）和张量切片（在 4 个 NVIDIA V100 GPU 上打破模型）。使用 DeepSpeed 库和零优化器，他们能够以更少的 GPU 非常高效地训练 T-NLG。

针对标准任务的表现

然后，他们将预训练的 T-NLG 与其他强大的 Transformer 语言模型在两个标准任务上的性能进行了比较：LAMBADA 下一个词预测准确度（越高越好）和 Wikitext-103 困惑度（越低越好）。在这两种情况下，T-NLG 的表现都更好。

参考：微软 | GitHub

问答表现

为了测试语法正确性和事实正确性等质量，研究人员寻求人类注释者的帮助。他们将新模型与 LSTM 模型（类似于 CopyNet）进行了比较。

主动总结中的表现

T-NLG 可以为各种文本文档（包括 Word 文档、博客文章、电子邮件、PowerPoint 演示文稿，甚至 Excel 表格）编写类似人类的抽象摘要，但与其他现有的 NLP 模型相比，它有多好。

为了使新模型更加通用，以便它可以总结各种文本，研究人员在公开可用的总结数据集上对其进行了训练。然后，他们将其与另一个名为 PEGASUS 的大型基于转换器的语言模型及其以前的版本进行了比较。这一次，他们报告了 ROUGE 分数——一组用于评估自然语言处理中自动摘要的指标。

微软在对话式人工智能方面取得了突破。未来几年，他们将把 T-NLG 集成到 Microsoft Office 套件中，这不仅可以通过总结电子邮件和文档来节省用户时间，还可以提供写作帮助并回答读者对内容可能提出的问题。

阅读：微软构建了一个完全自动化的 DNA 数据存储

此外，研究结果为更准确、流畅的数字助理和聊天机器人铺平了道路，帮助企业进行销售和客户关系管理。

工业技术