亿迅智能制造网
工业4.0先进制造技术信息网站!
首页 | 制造技术 | 制造设备 | 工业物联网 | 工业材料 | 设备保养维修 | 工业编程 |
home  MfgRobots >> 亿迅智能制造网 >  >> Industrial Internet of Things >> 物联网技术

从 AI 数据中提取价值

对于依赖深度学习作为自动驾驶关键的自动驾驶汽车 (AV) 供应商来说,数据就是一切——在许多方面,它是唯一的东西。

数据是 AV 公司在公共道路上积累数英里的测试经验、记录和储存数 PB 的道路知识的原因。例如,Waymo 在 7 月份声称在现实世界中行驶了超过 1000 万英里,在模拟中行驶了 100 亿英里。

但这里还有一个行业不喜欢问的问题:

假设 AV 公司已经在真实道路上收集了 PB 甚至 EB 的数据。该数据集有多少已被标记?也许更重要的是,被注释的数据有多准确?

在最近接受 EE Times 采访时,Edge Case Research 的联合创始人兼首席技术官 Phil Koopman 断言“没有人能够负担得起所有这些。”

数据标记:耗时且成本高

注释通常需要专业的人眼观看一个简短的视频剪辑,然后在每辆车、行人、路标、交通灯或任何其他可能与自动驾驶算法相关的项目周围绘制和标记框。这个过程不仅耗时而且成本很高。

最近在 Medium 上一篇题为“数据注释:人工智能突破背后的十亿美元业务”的故事说明了“托管数据标记服务”的迅速出现,旨在提供特定领域的标记数据,并强调质量控制。故事指出:

除了他们内部的数据标签团队,科技公司和自动驾驶初创公司也严重依赖这些管理标签服务……一些自动驾驶公司正在支付数据标签公司每月高达数百万美元。

在几年前 IEEE Spectrum 的另一个故事中,Drive.ai 的联合创始人兼总裁 Carol Reiley 被引述说:

成千上万的人在事物周围标记框。每行驶一小时,大约需要 800 个人工小时来标记。这些球队都会挣扎。我们的速度已经快了很多,而且我们还在不断优化。

一些公司(例如 Drive)正在使用深度学习来增强数据注释的自动化,以加快繁琐的数据标记过程。

让我们使用未标记的数据

然而,Koopman 认为还有另一种方法可以“从积累的数据中榨取价值”。如何实现“不标记大部分 PB 记录数据?”

他解释说,Edge Case Research 在设计一种方法让 AV 行业加速开发更安全的感知软件时“偶然发现”了这一点。 Edge Case Research 称其为“全息图”,本质上是专为自动驾驶汽车设计的“AI 感知压力测试和风险分析系统”。

更具体地说,正如 Koopman 解释的那样,“全息图使用未标记的数据”,并且系统会运行相同的未标记数据两次。

首先,它在现成的普通感知引擎上运行基线未标记数据。然后,使用相同的未标记数据,应用全息图,添加非常轻微的扰动——噪声。事实证明,通过对系统施加压力,Hologram 可以暴露 AI 算法中潜在的感知弱点。

例如,如果在视频剪辑中添加一点颗粒,人类可能会感知到“那里有东西,但我不知道它是什么。”

但是,处于压力之下的 AI 驱动的感知系统可能会完全错过未知对象,或者将其踢过门槛并将其放入不同的分类箱中。

当 AI 仍在学习时,了解其置信度(因为它决定了它所看到的内容)很有用。但是当人工智能在世界上应用时,信心水平并不能告诉我们太多。人工智能通常是“猜测”或简单地“假设”。

换句话说,人工智能正在伪造它。

根据设计,全息图可以“戳”人工智能驱动的感知软件。它揭示了人工智能系统失败的地方。例如,压力系统通过神秘地使对象从场景中消失来解决其困惑。

也许,更有趣的是,全息图还可以在噪音下识别人工智能“几乎失败”但猜对的地方。全息图在视频剪辑中披露了人工智能驱动系统“可能会倒霉”的区域,Koopman 说。

Koopman 说,无需标记 PB 数据,而是运行两次,Hologram 可以通过收集更多数据或进行更多培训来提供一个提示,其中事情看起来很“可疑”,以及“你最好回去再看看”的领域.

当然,这是 Hologram 的一个非常简化的版本,因为该工具本身实际上“带有大量工程支持的许多秘密调味料,”Koopman 说。但是,如果 Hologram 可以告诉用户“只有那些值得人工审查的好部分”,那么它可以非常有效地从当前锁定的数据中获取真正的价值。

“机器非常擅长玩弄系统,”Koopman 指出。或者“做‘p-hacking’之类的事情。”p-hacking 是一种偏见,当研究人员收集或选择数据或统计分析时,直到不显着的结果变得显着为止。例如,机器可以在不存在的数据中找到相关性。

开源数据集

当被问及这对 Edge Case Research 是否是好消息时,Koopman 说:“不幸的是,这些数据集仅供研究社区使用。不可用于商业用途。”

此外,即使您使用这样的数据集来运行 Hologram,您也应该使用与收集数据相同的感知引擎,以了解自己 AI 系统的薄弱环节。

全息图的屏幕截图

以下是显示最新商业版 Hologram 工作原理的屏幕截图。


全息图引擎会发现感知系统未能识别此停车标志的实例,并为分析师提供强大的工具来发现诸如嘈杂背景之类的触发条件。 (来源:Edge Case Research)

通过添加噪声,Hologram 寻找导致 AI 系统几乎错过停车标志(橙色条)或完全无法识别停车标志(向下的红色条)的触发条件。

橙色条通过收集更多数据来警告 AI 设计师需要重新训练 AL 算法的特定领域。红条允许 AI 设计师探索和推测触发条件:是什么导致 AI 错过停车标志?标志是否离杆子太近了?是否有嘈杂的背景或没有足够的可见对比度? Edge Case Research 产品经理 Eben Myers 解释说,当累积足够多的触发条件示例时,就有可能识别出特定的触发条件。

全息图帮助 AV 设计人员找到他们的感知软件表现出奇怪的、潜在的不安全行为的边缘情况。 (来源:Edge Case Research)

与 Ansys 合作

本周早些时候,Ansys 宣布与 Edge Case Research 达成合作协议。 Ansys 计划将 Hologram 集成到其仿真软件中。 Ansys 将集成视为设计“业界首个用于开发自动驾驶汽车的整体仿真工具链”的关键基础组件。 Ansys 正在与宝马合作,后者已承诺在 2021 年交付其首款自动驾驶汽车。


ANSYS 和 BMW 打造自动驾驶仿真工具链(来源:Ansys)

- Junko Yoshida,AspenCore Media 全球联合主编,EE Times 首席国际记者

>> 本文最初发表于我们的姊妹网站 EE Times:“使用未标记的数据来查看 AI 是否只是假装。”


物联网技术

  1. 如何处理数据?!
  2. 工业物联网发展前景
  3. 将视觉数据与物联网集成的潜力
  4. 物联网民主化
  5. 最大化物联网数据的价值
  6. 是时候改变了:边缘的新时代
  7. 模拟测量的价值
  8. 为工业数据科学的成功奠定基础
  9. 趋势继续将 AI 的处理推向边缘
  10. 远程支持自动化工作单元的价值
  11. 数据中心的未来
  12. 通过性能监控释放物联网的价值