3D 视觉的进化
3D 视觉是现代自动化的核心,它以无数种方式改进工业流程,让我们的生活更轻松。它帮助我们对产品进行分类、检查质量控制应用程序中的对象并发现它们的缺陷,还可以比人类更快、更高效地完成最多样化的任务。视觉引导机器人通常用于执行危险任务和处理重物,因此它们还可以提高安全性并消除受伤风险。
3D 传感技术在提供我们今天可以享受的所有这些好处方面已经走了很长一段路——而且它们仍在向前发展。从第一张照片到数字成像,从 2D 到 3D,从静态物体的 3D 扫描到动态场景的捕捉。接下来会发生什么?
我们与 Photoneo Group 的联合创始人兼首席技术官 Tomas Kovacovsky 一起回顾了 3D 机器视觉的历史 到主导当今趋势的最新进展,例如工业 4.0。让我们简单地看一下。
摄影术和最早的图像捕捉技术
自摄影诞生以来,人们就对捕捉和记录事件的可能性着迷。 第一张已知的照片 拍摄于1826 年至 1827 年之间 由法国发明家 Joseph Nicéphore Niépce 所著。 虽然他的摄影过程需要至少八小时甚至几天的相机曝光,但他的同事 Louis Daguerre 开发了第一个公开宣布的只需要几分钟曝光的摄影过程(称为 Daguerreotype)。 1839 向公众介绍了这项发明 – 通常认为实用摄影诞生的一年。
长期以来,摄影只是作为记录事件的媒介。由于图片处理时间较长,模拟技术不适合用于机器视觉或决策任务。
1969 年,William Boyle 和 George E. Smith 来自美国贝尔实验室发明了 用于记录图像的 CCD(电荷耦合器件)传感器 ,这是数字成像发展的一个重要里程碑。 CCD 传感器通过将光子转换为电子来捕获图像——也就是说,它获取光并将其转换为数字数据。虽然当时 CCD 无法与标准胶片竞争图像捕获,但它们开始用于某些应用,并且球开始滚动。
从2D到3D
二维传感开启自动化时代 长期以来,这是工业部门自动化的普遍方法。即使在今天,2D 视觉也用于一些简单的应用程序,包括以下内容:
- 光学字符识别 (OCR) – 读取打字、手写或打印的文本;条码读取
- 质量控制——通常与特殊照明结合使用,以确保扫描对象的光学质量保持不变
- 计数
- 在明确定义的条件下挑选物品
然而,2D 技术的主要限制是它们无法识别物体形状或测量 Z 维度中的距离。
2D 应用需要良好、定义明确的条件和额外的照明,这也限制了诸如分拣等应用。该机器人任务可以使用 2D 视觉系统完成,但由于物体在容器中的随机位置以及 2D 视觉系统无法处理的场景中的大量信息,因此通常存在问题。
人们认识到需要 3D 信息来自动执行更复杂的任务。 他们了解到人类可以在 3D 视图中看到周围的环境并分辨物体的距离,因为他们有两只眼睛——立体视觉。
在 1960 年代,拉里·罗伯茨 ,被公认为计算机视觉之父 ,描述了如何从线条图的 2D 照片中导出 3D 几何信息 以及计算机如何根据单张 2D 照片创建 3D 模型。
1970 年代,麻省理工学院人工智能实验室开设了“机器视觉”课程,以解决低级机器视觉任务。在这里,David Marr 开发了一种通过计算机视觉来理解场景的独特方法,他将视觉视为一种信息处理系统。他的方法从 2D 草图开始,由计算机在其基础上构建以获得最终的 3D 图像。
机器视觉的研究在 20 世纪 80 年代得到加强,并带来了新的理论和概念。这催生了许多独特的 3D 机器视觉技术,这些技术已逐渐被工业和制造环境所采用,以实现最广泛的过程自动化。
第一个 3D 视觉技术
模仿人类立体视觉的努力促成了最早的 3D 传感技术之一的开发——被动立体 .这种三角测量方法从两个有利位置观察场景并计算三角形 camera – scanned object – camera ,寻找两个图像之间的相关性。根据图像之间的差异,它计算与扫描对象的距离(深度)。然而,这种方法依赖于在图像中找到相同的细节,因此它不适用于白墙或没有图案的场景。无源立体可靠性低,3D输出通常噪声大,需要大量计算能力。
为了弥补这一缺点,研究人员开始尝试将光图案投射到场景上,以在表面上创建人造纹理,并更轻松地识别场景中的对应关系。这种方法称为主动立体声 .虽然这种方法比无源立体声更可靠,但重建质量往往因对处理时间的严格要求而受到影响,这使其无法满足许多应用。
获取 3D 信息的最早且仍然非常流行的方法之一是激光轮廓测量法 .该技术将窄带光(或点)投射到 3D 表面上,从而产生从投影仪角度以外的角度看起来扭曲的照明线。这种偏差对深度信息进行编码。线扫描仪一次快速连续捕获一个深度剖面,为此它们需要扫描对象或相机不断移动。激光轮廓测量法是最早用于工业用途的 3D 扫描方法之一,并且在例如计量应用中仍然非常流行。
另一种通过将结构光图案投射到场景中而发明的方法是结构光 . The Digital Michelangelo Project 是讨论使用带有二进制代码的结构光进行数字修复的引用最多的作品之一 由 Marc Levoy 和他在斯坦福大学的团队领导。该项目始于 1998 年,旨在使用投影仪和相机传感器将米开朗基罗的雕像数字化。米开朗基罗的大卫的激光扫描数据随后被用于 2002 年开始的雕像修复。虽然这个项目中使用的方法速度不够快,无法用于实时应用,但它提供了各种数字化所需的非常高的精度人工制品和物体。由于这一点,该技术在计量应用和其他需要高扫描精度的机器人和机器视觉任务中找到了自己的位置。
渐渐地,结构光技术扩展到计量学之外,并渗透到使用视觉引导机器人的各种在线应用中。结构光 3D 扫描仪的优势在于它们不需要移动。因为它们可以拍摄整个扫描区域的快照,并且不需要用扫描仪绕过整个物体,所以它们比基于激光轮廓测量的设备速度更快,并且不需要那么多的数据后处理。
从静态到动态场景
运动的捕捉比静态场景的 3D 扫描更具挑战性,并且需要更长采集时间的方法不合格。
因为无源立体声 是一种不使用任何额外照明的被动方法,它可以用于捕捉动态场景,但前提是满足某些条件。即便如此,结果也不会太好。
激光轮廓测量 在这方面,它并不比无源立体声更成功。因为它一次捕获一个配置文件,所以要拍摄整个场景的快照,相机或场景需要移动。但是,该技术无法捕获动态事件。为了重建单个轮廓的深度,需要捕获窄区域扫描图像,因此其大小限制了帧速率,因此也限制了扫描速度。
结构光 另一方面,系统将多个光图案依次投射到场景中,一个接一个。为此,场景需要是静态的。如果扫描的物体或相机移动,代码就会被破坏,3D 点云也会失真。
对动态对象进行 3D 重建的需要导致了飞行时间 (ToF) 的发展 系统。与结构光技术类似,ToF 是一种主动方法,将光信号发送到场景,然后用相机及其软件解释信号。与结构光相比,ToF 在时间而非空间中构建光。它的工作原理是测量从光源发出的光信号击中扫描物体并返回传感器的时间。
第一个 ToF 系统的质量相当低。该领域的大玩家包括 Canesta、3DV Systems 或 Microsoft(后来收购了这两家公司)等公司。早期的知名项目之一是 ZCam——一款由 3DV 开发的飞行时间相机,后来被微软收购,用于获取 3D 信息并与微软 Xbox 视频游戏机中的虚拟对象进行交互。
2010 年,微软发布了适用于 Xbox 的 Kinect 传感器系统,这是一款基于 PrimeSense 技术的运动感应相机。 PrimeSense 技术使用结构化模式对某些像素(并非所有像素)进行编码并获取 3D 信息。虽然该方法无法在扫描对象的边缘提供高分辨率和详细轮廓,但由于其处理速度相当快且技术成本低廉,因此被广泛采用。它主要用于学术领域,但在工业环境中也很少见,用于机器人采摘等任务。
与 Kinect 1 相比,Kinect 2 基于 ToF 技术。 ToF 的进步导致该方法越来越受欢迎并被广泛采用——它可以提供比 PrimeSense 技术更高的质量,但动态场景的 3D 扫描分辨率仍然不够。
今天的 ToF 系统由于其快速扫描速度和近乎实时的采集,在 3D 视觉应用中非常受欢迎。然而,它们的分辨率仍然是个问题,而且它们还在与更高的噪音水平作斗争。
2013 年,Photoneo 提出了一个革命性的想法,即如何捕捉快速移动的物体以获取高分辨率和亚毫米精度的 3D 信息。
平行结构光专利技术 基于一种特殊的专有 CMOS 传感器,具有带马赛克像素图案的多拍快门,从根本上改变了拍摄图像的方式。
这种新颖的快照方法利用结构光,但交换了相机和投影仪的角色:结构光系统从投影仪按顺序发射多个图案,而平行结构光技术在场景中发送非常简单的激光扫描,没有图案并在另一侧构建图案 - 在 CMOS 传感器中。所有这一切都发生在一个单一的时间实例中,并允许在一个曝光窗口内构建多个虚拟图像。结果是运动场景的高分辨率和高精度 3D 图像,没有运动伪影。
平行结构光技术捕获的动态场景 .
平行结构光技术在 Photoneo 的 3D 相机 MotionCam-3D 中实现。相机的开发和投放市场标志着机器视觉历史上的一个里程碑,因为它重新定义了视觉引导机器人技术,并将自动化的可能性扩展到了前所未有的程度。这种新颖的方法获得了许多奖项,包括 2018 年远景奖 , 2019 年视觉系统设计创新者白金奖 , inVision 2019 年顶级创新 , 2020 年 IERA 奖 , Robotics Business Review 的 2021 年 RBR50 机器人创新奖 , inVision 2021 年顶级创新 和 2022 年 SupplyTech 突破奖 .
运动和彩色 3D 扫描
2022 年,Photoneo 扩展了 MotionCam-3D 的功能,为它配备了一个用于捕获颜色数据的颜色单元。 MotionCam-3D Color 被认为是机器视觉领域的下一个灵丹妙药,因为它最终能够以完美的质量实时创建移动场景的彩色 3D 点云。由于 3D 几何、运动和颜色的独特组合,相机为要求苛刻的 AI 应用和机器人任务打开了大门,这些应用和机器人任务不仅依赖于深度信息,还依赖于颜色数据。
使用 MotionCam-3D Color 创建移动场景的实时彩色 3D 点云 .
机器视觉创新支持的应用领域
3D 机器视觉的最新创新提供的可能性使我们能够自动化直到最近才可行的任务。这些应用可以在制造、物流、汽车、食品杂货、农业、医药和其他领域找到,包括:
- 机器人处理恒定或随机运动的物体
- 从传送带和高架传送带上拣选
- 手眼操纵
- 为检查和质量控制创建 3D 模型
- 大型物体的清洁和喷漆
- VR/AR 中的维护操作
- 农业分类和收获
- 还有更多
接下来会发生什么?
机器视觉不断发展,带来新的进步和新的可能性。创新的方向总是受到市场需求、客户期望、竞争等因素的影响。
我们可以预期,在机器视觉的所有领域部署人工智能的趋势肯定会继续下去,目的是消除定制算法的发展。我们可以看到 人工智能 (AI) 领域的巨大潜力及其与平行结构光技术的结合。 一方面,人工智能依赖于良好的数据。另一方面,新的机器视觉技术可以提供大量高质量的真实3D数据。结合这两种方法可以改变智能机器人技术并实现新的可能性领域。
未来发展的另一个有前途的方向是 边缘计算。 制造商可能会继续努力将 AI 直接集成到传感器中 并针对特定目的(例如,人数统计、尺寸标注或自动检测已定义的对象特征)对它们进行专门化,使集成商更容易部署,并最大限度地减少对额外组件的需求。能够捕捉移动场景的新硬件解决方案与先进的 AI 算法相结合,将扩展不断扩大的应用领域,甚至在更具挑战性的领域,如协作机器人或完整的物流自动化。
自动化控制系统