谷歌人工智能利用深度学习在遥远的太阳系中发现了两颗新的系外行星
- Google 使用深度神经网络来分析开普勒数据。
- 他们发现了两颗新的系外行星 – Kepler-90i 和 Kepler-80g。
- 他们开发的模型在区分行星和非行星方面的准确度约为 96%。
许多世纪以来,人们仰望星空,注意到一些模式并记录观察结果。在太空中发现的早期物体之一是行星,希腊人因其不规则的运动而将其称为“流浪者”或“planētai”。渐渐地我们发现我们的太阳系拥有几颗绕太阳旋转的行星。
借助数码相机、太空飞行、望远镜光学和计算机等现代技术,我们可以将知识扩展到太阳系之外,并探测/识别距地球数千光年之外的行星。它们被称为系外行星——遥远太空中另一个太阳系的一部分。
然而,寻找系外行星是一项极其艰巨的任务。与它们的宿主恒星不同,它们体积小、寒冷且黑暗。目前,我们使用机器学习技术来准确发现系外行星。 Google 使用了其中一项技术,他们检测到了两颗系外行星,分别名为 Kepler 90i,围绕黄矮星 Kepler 90 运行,以及 Kepler-80g 围绕 Kepler 80 运行。让我们看看他们是如何做到的。
使用的数据
搜索系外行星的主要方法是使用手动分析和自动化软件来分析美国宇航局开普勒太空望远镜捕获的大量数据。 4 年间,该望远镜观测了约 20 万颗恒星,每半小时拍摄一张图像。开普勒唯一的科学仪器光度计连续监测固定视场内超过 145,000 颗主序星的亮度。这些数据被发送到地球,然后进行深入检查,以识别系外行星因围绕其主恒星旋转而引起的周期性变暗。
这一切都会生成约 140 亿个数据点,进一步转化为约 2000 亿个可能的行星轨道。即使是最强大的计算机也需要花费极长的时间来处理这些大量的数据。为了使这个过程更快、更高效,Google 使用了深度学习工具和技术。
机器学习方法
机器学习是人工智能的一种形式,它教会计算机识别特定的模式。它对于理解大量数据特别有帮助。这里的想法是让机器通过训练和示例来学习,而不是使用特定的规则进行编程。
图片来源:NASA
深度学习是机器学习的一种,它使用计算层来创建对分类问题有用的渐进复杂特征。例如,深度图片分类模型可能首先识别简单的边缘特征,这些特征可以进一步用于检测角点和曲线,直到模型的最终特征层可以区分复杂的对象。
深度神经网络(深度学习模型的类型)已成为包括图像分类在内的多项任务的最先进技术。大多数时候,它的性能比使用手工设计功能开发的模型要好。神经网络经过训练,可以最小化成本函数,该函数衡量其预测与训练集真实标签的距离。
Google AI 团队使用包含超过 15,000 个开普勒信号的数据集创建了一个 TensorFlow 模型,用于区分行星和其他天体。为此,系统必须检测并识别实际行星的模式与由双星和星黑子等其他天体引起的模式。
他们开发了一个深度神经网络,用于自动检查开普勒阈值交叉事件(TCE——检测到的周期性信号,这可能与凌日行星一致)。该模型使用光变曲线作为输入,并在一组人类分类的开普勒 TCE 上进行训练。
输入的视图通过单独的卷积列输入——这是以前图像分类中的一种成功方法。它能够以相当高的精度区分太空天体——实际凌日系外行星与仪器伪影、食双星和恒星变率等误报之间的细微差别。
参考:Harvard.edu
结果
当模型对信号进行测试时,它正确地区分了行星和其他非行星产生的信号,准确率高达 96%。此外,98.8% 的情况下,它会将合理的行星信号排在误报信号的前面。
阅读:美国宇航局将人工智能用于太空通信网络
为了缩小搜索范围,他们观察了 670 颗已经拥有两颗或更多系外行星的恒星。在处理过程中,他们发现了两颗新的系外行星——Kepler-90i 和 Kepler-80g。开普勒 90i 行星围绕 Kepler-90 旋转,此前已知这颗恒星拥有 7 颗凌日行星。而Kepler-80g是围绕Kepler-80恒星的5颗行星链的一部分,其轨道周期几乎与三体拉普拉斯关系的预测相符。
比地球大近 13%,Kepler-80g (其系统中最外层的行星)的轨道周期为 14.6 天,倾角为 89.35 +0.47- 0.98 度。
图片来源:Google 博客
开普勒-90i 比地球大34%,公转周期为14.45天。它位于天龙座,距离地球 2,545 光年。它位于 Kepler-90c(8.7 天)和 Kepler-90d(59.7 天)之间,表面温度极热 – 436 °C。
下一步是什么?
当谈到深度神经网络的可能性时,天空是极限。在 200,000 颗恒星中,该模型仅搜索到了其中的 670 颗。开普勒的数据中可能还有数十万颗系外行星尚未发现。深度学习等新技术将帮助天文学家和物理学家发现人类无法企及的事物。
阅读:谷歌的人工智能创造了一个击败人类代码的人工智能
该模型将来可以进行修改,以提高其准确性并减少已知类型的误报。例如我们可以
- 增加包含模拟数据或未标记数据的训练集(当前模型仅使用约 15,000 个标记示例)。
- 改进增肥程序,以减少因被归类为可能行星的恒星变异而产生的信号数量。
- 在输入表示中添加某种形式的质心信息,以提高系统对背景恒星而非目标恒星上发生的凌日进行分类的能力。
- 将本地视图拆分为多个片段,以便系统分析数据集不同片段之间传输的一致性。
工业技术