亿迅智能制造网
工业4.0先进制造技术信息网站!
首页 | 制造技术 | 制造设备 | 工业物联网 | 工业材料 | 设备保养维修 | 工业编程 |
home  MfgRobots >> 亿迅智能制造网 >  >> Manufacturing Technology >> 工业技术

Word Embeddings 如何发现新的热电材料

今天与任何人交谈,他们会告诉你人工智能是下一件大事——每个人都想要一块但没人能嚼的烫手山芋。

他们中的大多数人还会告诉你,作为 AI 发生的很多事情实际上只是一种炒作——在 Powerpoint 中美化了良好的旧机器学习和数学。在大多数情况下,他们是对的。

然而,在自然语言处理领域,深度学习等 AI 工具的应用具有革命性意义。

一个简单的例子是管理网站的聊天机器人。它们由称为长短期记忆 (LSTM) 神经网络的相对复杂的深度学习架构运行。这些算法可以“理解”我们告诉他们的内容,并将清晰连贯的句子拼凑起来作为回应。当然,这个机器人不是苏格拉底,但它不会乱说乱七八糟的词。不可否认的是一些低水平的智力。

词嵌入

语言处理中深度学习的现代时代始于 2013 年 Tomas Mikolov 的 word2vec 论文发表。他们的胜利在于开发了一种计算上可行的方法来生成词嵌入词向量 使用神经网络。

考虑一下男人、女人、国王这些词 和女王 .如果你被要求对这些词进行分组,你有许多常识性的选择。我倾向于看到[男人,女人 ] 和 [国王,王后 ]。你可能会看到 [man, king ] 和 [女人,女王 ].

<图>

词嵌入捕获文本中词之间的语义关系。来自 https://samyzaf.com/ML/nlp/nlp.html

我也知道king这个词 和男人 与‘woman 的关联方式完全相同 ’和‘女王 ’。

男人:国王 =女人:女王

即使我以前从未听过这些词,我也可以通过观察我遇到的句子来了解这些关系。 ‘这个人是国王 ’, ‘女王是个虔诚的女人 ’, ‘她是银幕女王 ’, ‘他的王国会来临 ’。这些句子仅通过单词的接近程度表明 king 主要是一个男人 还有一个女王 很可能是一个女人 .

词嵌入做同样的事情,但来自数千个文档的数百万个单词。这里的关键是单词是从 context 中学习的 .现代计算的力量和深度学习的魔力使这个数学类比游戏成为可能。

深度学习词嵌入

假设我们想要找到 Harry Potter 中所有单词的嵌入 .

我们首先创建一种数学库-库-室。一个巨大的多维庞然大物,足以容纳我们需要的所有单词。这是向量空间 .

目标是通过哈利波特 一个字一个字,把每个字都放进密室的保险库里。 连衣裙的相似词 和斗篷 进入同一个保险库。 魁地奇告密 在相邻的保险库中。 汽车半人马香蕉一样远伏地魔 .

词的词嵌入是应该在其中找到它的保险库的地址。从数学上讲,这使它成为 矢量 中的 向量空间 .

你可以看到为什么没有人会想要这份工作。涉及的词太多,走动太多。

然而,神经网络在这方面做得非常好。它通过魔法来做到这一点。


A深度神经网络是一种具有数百万个齿轮和杠杆的大型机器。一开始,一切都是混乱的,即使周围到处都是洗牌,也没有任何东西适合任何东西。然后慢慢地一些齿轮开始锁定。杠杆就位——秩序从混乱中出现。机器开始移动。弗兰肯斯坦还活着!

这里的语言故意含糊不清。我想带你了解词嵌入的应用,而不是它是如何派生的。话虽如此,但从根本上说,我们并不完全了解神经网络是如何做的。因此,在我们的实验中,我们必须先考虑层数、激活函数、每层中的神经元数量等,然后才能完成我们的任务。但这是另一天的话题。

热电

在 2019 年发表的一篇论文中,劳伦斯伯克利实验室的一组研究人员在 1000 种期刊上发表的约 330 万篇论文中生成了所有摘要的词嵌入。这份清单显然很大,几乎涵盖了过去几十年材料科学领域发表的所有主题。

当涉及到科学文本时,化学公式和符号也是“文字”。因此 LiCoO 有一个词向量 2 – 这是一种常见的电池阴极。然后您可以提出以下问题:与 LiCoO2 最接近的词向量是什么?

我们知道 LiCoO2 是向量空间中的向量。所以我们需要做的就是找到附近的向量。

答案是 LiMn 2 4 ,李妮 0.5 1.5 4 ,李妮 0.8 合作 0.2 2 ,李妮 0.8 合作 0.15 阿尔 0.05 2 和 LiNiO 2 ——都是锂离子正极材料。

<图>

所选化合物与“热电”一词的关系路径。 Li2CuSb 与“热电”没有直接关系,但它与指示这种特性的其他词很接近,例如“间接带”和“光电子”。来自[2]

看看我们在这里做了什么?

我们真的在尝试探索与我们最喜欢的阴极相似的其他材料。与其阅读一千篇论文、做笔记和列出锂化合物的列表,词嵌入在几秒钟内就解决了这个任务。

这就是词嵌入的力量。通过将语义查询转换为数学向量运算,这种方法可以让我们更好、更高效地查询和理解大型文本数据库。

作为另一个例子,研究人员研究了在“热电矢量附近发现化合物的频率 ’。 (这些是将电能转化为热能的材料,反之亦然)。

您可以通过称为点积的直接矢量运算来做到这一点。相似的向量的点积接近一个。不同向量的点积接近于零。

通过对数据库中的化合物和单词“热电”执行相同的操作 ’,作者发现了所有可能是热电的化学物质 .

<图>

抽象数据库中的词嵌入可以回答以下问题:如果 Zr 是六边形,Chromium 是……? (以正文为中心)来自 [2]

作者继续表明,对于晶体结构和铁电性等几种材料特性,可以证明类似的关系。此外,他们还表明,使用这种技术,几年前就可以从现有文献中预测出几种当前的热电材料。

分析是对“在人类研究的所有材料中,哪些很可能是热电材料”这一问题的一种非常优美、优雅但看似简单的表达。 .

材料数据库是当下的需要

你会假设我们已经有了这份清单——显然有人已经记录了我们一直在做的所有工作?编写材料手册和电子数据库?

答案是令人惊讶的不。我们多年来积累的大量知识都锁定在书籍、期刊和论文等文本中。这些东西太多了,我们无法手动扫描它们。

这正是本文展示的词嵌入和技术具有革命性意义的原因。它们有望改变我们与文本交互的方式,并迅速加速我们的材料数据库。

有哪些材料已被研究用于压电性?有没有我们在文献中遗漏的超导体?有没有可以治愈阿尔茨海默病的新药?
问词嵌入。他们会知道的。


工业技术

  1. 如何不沉迷于教授新软件
  2. Python 换行:如何在 Python 中不使用换行进行打印
  3. 新的租赁会计准则将如何影响运输和物流
  4. 杂货行业如何应对新的消费者行为
  5. 新西兰肉类出口商如何应对大流行
  6. 如何在跨境电子商务新时代取得成功
  7. 零售商如何减轻新运费附加费的影响
  8. 如何在订单缓慢时向新客户推销
  9. 宾夕法尼亚州提供新资金帮助费城学生发现制造业的机会
  10. MTConnect 标准如何帮助塑造制造业的新时代
  11. 如何规划​​和投资新的 CAD/CAM 系统
  12. 如何知道您需要新的起重机零件