工程组力求将 1mW AI 推向边缘

TinyML 小组最近召开成立大会时，成员必须解决一些基本问题，首先是：TinyML 是什么？

TinyML 是一个工程师社区，专注于如何最好地在超低功耗系统中实施机器学习 (ML)。他们每月举行的第一次会议致力于确定这个问题。机器学习是否可以用于微控制器等低功耗设备？是否需要专业的超低功耗机器学习处理器？

来自 Qualcomm AI Research 的 Evgeni Gousev 将 TinyML 定义为功耗 1mW 或以下的机器学习 (ML) 方法。 Gousev 表示，1mW 是智能手机中永远在线应用的“神奇数字”。

“有很多关于云机器学习的讨论，而智能手机级别的机器学习变得越来越复杂，”他说。 “但如果你查看数据，90% 的数据都在现实世界中。您如何连接所有这些相机、IMU 和其他传感器并在该级别进行机器学习？”

“微型机器学习将会变得很大，并且迫切需要推动整个微型机器学习生态系统，包括应用程序、软件、工具、算法、硬件、ASIC、设备、晶圆厂和其他一切，”Gousev 说.

<中心>

谷歌工程师 Nat Jefferies 出席第一次 TinyML 聚会（图片：TinyML）

TensorFlow 精简版

Google 工程师 Daniel Situnayake 概述了 TensorFlow Lite，这是 Google TensorFlow 框架的一个版本，专为包括微控制器在内的边缘设备设计。

“TensorFlow Lite 一直针对手机，但我们很高兴能在更小的设备上运行它，”他说。

在 TensorFlow 中构建模型后，工程师可以通过 Tensor Flow Lite 转换器运行它，“使其更小并执行量化等操作，这使您可以将模型的大小和精度降低到适合它的规模在您定位的设备上，”他说。

Situnayake 描述了一种可用于提高能效的技术，该技术涉及将模型链接在一起。

“想象一个分类器的级联模型，你有一个非常低功耗的模型，几乎不使用任何功耗来检测是否有声音发生，然后另一个模型需要更多的能量来运行，它会确定它是否是人类语音，”他解释说。 “然后是一个更深的网络，只有在满足这些条件时才会唤醒，它会使用更多的权力和资源。通过将这些链接在一起，您只需在需要时唤醒[能源密集型]，这样您就可以大大节省能源效率。”

<中心>

级联机器学习模型有助于节能（图片：Google）

谷歌“用于微控制器的 TensorFlow Lite”团队的工程师 Nat Jefferies 描述了现代消费类小工具严格能耗要求的趋势，尽管具有复杂的功能和复杂的传感器系统。这些小工具可能需要使用需要持续数月或数年的电池，或者使用能量收集。

“我们认为最好的解决方案是 Tiny ML——微控制器上的深度学习，”他说。 “这使我们能够进行 CPU 周期和传感器读取，这 [不消耗太多功率]，而不是将所有信息发送到芯片外…… TinyML 可用于将传感器数据压缩成几个字节，您可以然后可以发送......只需要一小部分功率，“他说。

Jefferies 表示，最近一项 Google 挑战赛参赛者开发了 250 KB 的模型来进行人物检测，收到了许多令人印象深刻的提交，并“验证了我们所做的事情是有意义的”。

“目前我们能够将 TensorFlow 模型缩小到可以将它们安装在微控制器上的程度，这就是为什么现在是进入这一领域的绝佳时机，”他说。 “我们很高兴能够启动这个过程。”

谷歌在微控制器上的 TensorFlow Lite 路线图包括开源一些谷歌的演示，与芯片供应商合作优化内核，优化 TensorFlow Lite 的内存使用以在相同的设备上运行更复杂的模型，以及启用更多的开发平台（SparkFun Edge 是唯一的到目前为止支持板，但很快就会支持 Arduino 和 Mbed 板。

专业设备
为 ML 提供专业低功耗应用处理器案例的是 GreenWaves Technologies 业务开发副总裁 Martin Croome。 Croome 同意业界关于如何进行超低功耗机器学习的讨论早该进行了。

“无论是从算法的角度还是从我们的 [硬件] 世界来看，我们都迫切需要在这个领域给予更多关注，”他说。

GreenWaves 开发了 RISC-V 应用处理器 GAP8，专注于边缘设备的推理，功耗为毫瓦，并提供超低待机电流。该公司的目标是电池供电的设备以及使用能量收集的设备（在我们之前的文章中详细了解 GreenWaves 的芯片的工作原理）。

<中心>

GreenWaves 的超低功耗机器学习加速器有 9 个 RISC-V 内核（图片：GreenWaves Technologies）

使用多种技术来降低功耗。这包括并行化，但不是为了加快速度； 8核用于允许较慢的时钟速度，从而使内核电压下降，从而节省能源（实际上，时钟频率会根据工作负载动态调整）。

该芯片面向卷积神经网络 (CNN)，硬件加速器在单个时钟周期内对 16 位数据执行 5×5 卷积（不包括回写）。显式内存管理依赖于广泛用于图像处理的 CNN 的性质；图像传感器是固定大小的，推理需要相同数量的权重，结果总是相同的大小。因此，一个工具可以在编译时为所有数据移动生成代码。

Croome 承认，既要足够专业以有效处理 ML 工作负载，又要保持足够的灵活性以应对技术进步，这是一个棘手的平衡。

“人工智能的范围正在以令人难以置信的速度向前发展。今天关于如何做事的好主意可能不是明天的好主意，”克鲁姆说。 “如果我们过于专业化，我们将非常擅长加速去年每个人都在做的事情，这对公司不利。因此，我们正在努力平衡灵活性、可编程性和加速性之间的差异。”

Croome 表示，GreenWaves 的芯片已经提供一年的样品，将于本月开始量产，并将在第三季度末向客户批量发货。

TinyML 聚会于每月的最后一个星期四在湾区举行，对来自工业界和学术界的与会者开放。

更少的嵌入式耳朵，更多的声控设备为您的应用程序找到完美开关的 10 个因素

物联网技术