Word Embeddings 如何发现新的热电材料
今天与任何人交谈,他们会告诉你人工智能是下一件大事——每个人都想要一块但没人能嚼的烫手山芋。
他们中的大多数人还会告诉你,作为 AI 发生的很多事情实际上只是一种炒作——在 Powerpoint 中美化了良好的旧机器学习和数学。在大多数情况下,他们是对的。
然而,在自然语言处理领域,深度学习等 AI 工具的应用具有革命性意义。
一个简单的例子是管理网站的聊天机器人。它们由称为长短期记忆 (LSTM) 神经网络的相对复杂的深度学习架构运行。这些算法可以“理解”我们告诉他们的内容,并将清晰连贯的句子拼凑起来作为回应。当然,这个机器人不是苏格拉底,但它不会乱说乱七八糟的词。不可否认的是一些低水平的智力。
词嵌入
语言处理中深度学习的现代时代始于 2013 年 Tomas Mikolov 的 word2vec 论文发表。他们的胜利在于开发了一种计算上可行的方法来生成词嵌入 或词向量 使用神经网络。
考虑一下男人、女人、国王这些词 和女王 .如果你被要求对这些词进行分组,你有许多常识性的选择。我倾向于看到[男人,女人 ] 和 [国王,王后 ]。你可能会看到 [man, king ] 和 [女人,女王 ].
<图>
词嵌入捕获文本中词之间的语义关系。来自 https://samyzaf.com/ML/nlp/nlp.html
图>我也知道king这个词 和男人 与‘woman 的关联方式完全相同 ’和‘女王 ’。
男人:国王 =女人:女王
即使我以前从未听过这些词,我也可以通过观察我遇到的句子来了解这些关系。 ‘这个人是国王 ’, ‘女王是个虔诚的女人 ’, ‘她是银幕女王 ’, ‘他的王国会来临 ’。这些句子仅通过单词的接近程度表明 king 主要是一个男人 还有一个女王 很可能是一个女人 .
词嵌入做同样的事情,但来自数千个文档的数百万个单词。这里的关键是单词是从 context 中学习的 .现代计算的力量和深度学习的魔力使这个数学类比游戏成为可能。
深度学习词嵌入
假设我们想要找到 Harry Potter 中所有单词的嵌入 .
我们首先创建一种数学库-库-室。一个巨大的多维庞然大物,足以容纳我们需要的所有单词。这是向量空间 .
目标是通过哈利波特 一个字一个字,把每个字都放进密室的保险库里。 连衣裙的相似词 和斗篷 进入同一个保险库。 魁地奇 和告密 在相邻的保险库中。 汽车 和半人马 和香蕉一样远 和伏地魔 .
词的词嵌入是应该在其中找到它的保险库的地址。从数学上讲,这使它成为 矢量 中的 向量空间 .
你可以看到为什么没有人会想要这份工作。涉及的词太多,走动太多。
然而,神经网络在这方面做得非常好。它通过魔法来做到这一点。
A深度神经网络是一种具有数百万个齿轮和杠杆的大型机器。一开始,一切都是混乱的,即使周围到处都是洗牌,也没有任何东西适合任何东西。然后慢慢地一些齿轮开始锁定。杠杆就位——秩序从混乱中出现。机器开始移动。弗兰肯斯坦还活着!
这里的语言故意含糊不清。我想带你了解词嵌入的应用,而不是它是如何派生的。话虽如此,但从根本上说,我们并不完全了解神经网络是如何做的。因此,在我们的实验中,我们必须先考虑层数、激活函数、每层中的神经元数量等,然后才能完成我们的任务。但这是另一天的话题。
热电
在 2019 年发表的一篇论文中,劳伦斯伯克利实验室的一组研究人员在 1000 种期刊上发表的约 330 万篇论文中生成了所有摘要的词嵌入。这份清单显然很大,几乎涵盖了过去几十年材料科学领域发表的所有主题。
当涉及到科学文本时,化学公式和符号也是“文字”。因此 LiCoO 有一个词向量 2 – 这是一种常见的电池阴极。然后您可以提出以下问题:与 LiCoO2 最接近的词向量是什么?
我们知道 LiCoO2 是向量空间中的向量。所以我们需要做的就是找到附近的向量。
答案是 LiMn 2 哦 4 ,李妮 0.5 锰 1.5 哦 4 ,李妮 0.8 合作 0.2 哦 2 ,李妮 0.8 合作 0.15 阿尔 0.05 哦 2 和 LiNiO 2 ——都是锂离子正极材料。
<图>所选化合物与“热电”一词的关系路径。 Li2CuSb 与“热电”没有直接关系,但它与指示这种特性的其他词很接近,例如“间接带”和“光电子”。来自[2]
图>看看我们在这里做了什么?
我们真的在尝试探索与我们最喜欢的阴极相似的其他材料。与其阅读一千篇论文、做笔记和列出锂化合物的列表,词嵌入在几秒钟内就解决了这个任务。
这就是词嵌入的力量。通过将语义查询转换为数学向量运算,这种方法可以让我们更好、更高效地查询和理解大型文本数据库。
作为另一个例子,研究人员研究了在“热电矢量附近发现化合物的频率 ’。 (这些是将电能转化为热能的材料,反之亦然)。
您可以通过称为点积的直接矢量运算来做到这一点。相似的向量的点积接近一个。不同向量的点积接近于零。
通过对数据库中的化合物和单词“热电”执行相同的操作 ’,作者发现了所有可能是热电的化学物质 .
<图>抽象数据库中的词嵌入可以回答以下问题:如果 Zr 是六边形,Chromium 是……? (以正文为中心)来自 [2]
图>作者继续表明,对于晶体结构和铁电性等几种材料特性,可以证明类似的关系。此外,他们还表明,使用这种技术,几年前就可以从现有文献中预测出几种当前的热电材料。
分析是对“在人类研究的所有材料中,哪些很可能是热电材料”这一问题的一种非常优美、优雅但看似简单的表达。 .
材料数据库是当下的需要
你会假设我们已经有了这份清单——显然有人已经记录了我们一直在做的所有工作?编写材料手册和电子数据库?
答案是令人惊讶的不。我们多年来积累的大量知识都锁定在书籍、期刊和论文等文本中。这些东西太多了,我们无法手动扫描它们。
这正是本文展示的词嵌入和技术具有革命性意义的原因。
它们有望改变我们与文本交互的方式,并迅速加速我们的材料数据库。
有哪些材料已被研究用于压电性?有没有我们在文献中遗漏的超导体?有没有可以治愈阿尔茨海默病的新药?
问词嵌入。他们会知道的。
工业技术