恢复数据:NIST 的神经网络模型在密集图像中发现小物体
为了从科学论文中自动捕获重要数据,美国国家标准与技术研究院 (NIST) 的计算机科学家开发了一种方法来准确检测图像数据中包含的密集、低质量图中的三角形等小型几何对象。 NIST 模型采用旨在检测模式的神经网络方法,在现代生活中有许多可能的应用。
NIST 的神经网络模型在一组定义的测试图像中捕获了 97% 的对象,将对象的中心定位在手动选择位置的几个像素内。研究人员在 NIST 热力学研究中心 (TRC) 的金属特性数据库中从早在 1900 年代初期的期刊文章中获取数据。结果通常仅以图形格式呈现,有时是手工绘制的,并通过扫描或影印而降级。研究人员希望提取数据点的位置以恢复原始的原始数据以进行额外分析。到目前为止,这些数据都是手动提取的。
这些图像以各种不同的标记呈现数据点,主要是圆形、三角形和正方形,包括填充的和开放的,大小和清晰度各不相同。这种几何标记通常用于在科学图中标记数据。在训练神经网络之前,使用图形编辑软件从图形子集中手动删除了可能被误认为是数据点的文本、数字和其他符号。
出于多种原因,准确检测和定位数据标记是一项挑战。标记的清晰度和精确形状不一致;它们可能是开放的或充满的,有时是模糊的或扭曲的。例如,一些圆圈看起来非常圆,而另一些则没有足够的像素来完全定义它们的形状。此外,许多图像包含非常密集的重叠圆形、正方形和三角形。
研究人员试图创建一个网络模型,该模型至少可以像手动检测一样准确地识别绘图点——在每边几千像素大小的绘图上的实际位置的 5 个像素范围内。
NIST 研究人员采用了最初由德国研究人员开发的用于分析生物医学图像的网络架构,称为 U-Net。首先收缩图像维度以减少空间信息,然后添加特征和上下文信息层以构建精确、高分辨率的结果。
为了帮助训练网络对标记形状进行分类并定位它们的中心,研究人员试验了四种用蒙版标记训练数据的方法,为每个几何对象使用不同大小的中心标记和轮廓。
研究人员发现,向蒙版添加更多信息(例如更粗的轮廓)可以提高物体形状分类的准确性,但会降低在图上精确定位其位置的准确性。最后,研究人员结合了几个模型的最佳方面,以获得最佳分类和最小的定位误差。改变掩码被证明是提高网络性能的最佳方法,比其他方法(例如网络末端的小改动)更有效。
该网络的最佳性能——定位对象中心的准确度为 97%——仅适用于最初由非常清晰的圆形、三角形和正方形表示的绘图点的图像子集。性能足以让 TRC 使用神经网络从较新期刊论文的图表中恢复数据。
传感器