亿迅智能制造网
工业4.0先进制造技术信息网站!
首页 | 制造技术 | 制造设备 | 工业物联网 | 工业材料 | 设备保养维修 | 工业编程 |
home  MfgRobots >> 亿迅智能制造网 >  >> Manufacturing Technology >> 工业技术

GLTR:一种检测计算机生成语言的新方法

近十年来,自然语言处理社区见证了越来越大、越来越智能的语言模型的发展。

在人工智能和配备人类自然语言的深度神经网络时代,哈佛大学和 IBM 研究院的研究人员开发了一种统计方法来检测计算机生成的文本。

他们构建了一个交互式工具(公开可用)来区分自然人类语言和机器生成的文本与人类语音。目的是为人们提供更多信息,以便他们能够就什么是假的和什么是真的做出明智的决定。

人工智能模型通常在数百万个文本(取自万维网)上进行训练。他们预测最常跟随的单词以模仿人类语言。例如,“你”这个词静态最有可能后跟“是”、“有”和“是”这个词。

使用这种方法,研究人员构建了一个工具来检测太可预测的文本 [而不是标记文本中的错误]。它使人工智能和人类能够共同识别机器生成的语言。

它是如何工作的?

新技术——名为巨型语言模型测试室 (GLTR)——基于一个模型,该模型训练了来自网站的大约 4500 万条文本。它可以访问最大的公开可用模型之一 GPT-2。

因此,它可以观察 GPT-2 在每个位置(对于任何文本输入)预测的内容,并针对 GPT-2 和许多其他模型有效地执行。

GLTR 代表一种视觉取证工具,用于识别自动生成的文本。它显示了 3 个不同的直方图,汇总了整个文本的信息。

参考:哈佛公报 | GitHub

只需在工具箱中输入一个段落,它就会以四种不同的颜色突出显示所有单词,每种颜色都表示该单词在其后面的上下文中的可预测性。紫色意味着这个词是不可预测的;红色,稍微可预测;黄色,中等可预测;绿色表示段落中高度可预测的词。

这是机器生成的段落的样子 –

第一个直方图显示了每个类别中有多少词出现在段落中。第二个显示了预测最高的词和下一个词的概率之间的比率。第三个直方图表示预测熵的分布。

当然,对于人工书写的文本,尤其是研究论文和学术文本,不确定性会更高。这就是一篇研究论文(关于 EAGLE 星系)的摘要——

阅读:人工智能可以从神经活动中生成语音

研究团队还与一群计算机科学专业的毕业生一起测试了他们的新工具。学生们能够检测到 50% 的计算机生成的段落,但是在这个工具的帮助下,他们识别出了 72%。通过对系统进行一些培训,该百分比可能会更高。


工业技术

  1. 新 AI 可以检测新闻来源是否准确或有政治偏见
  2. 提升量子计算机性能的新方法
  3. 研究人员提出了一种使物体隐形的新方法
  4. 新系统可以在机电设备故障发生之前检测到故障
  5. 微软在对话式人工智能领域取得新突破
  6. 新的全息方法捕捉光无法触及的物体
  7. 科学家开发出一种使屏幕更亮更高效的新方法
  8. 新方法可以将任何对象变成数据存储单元
  9. 研究人员开发人工智能来检测冠状病毒
  10. Bosque:微软新的无循环编程语言
  11. 2021 年要学习的 9 种新编程语言
  12. C 语言 - 概述