成功的人工智能完全取决于数据管理
戴夫·史密斯
GDPR 技术负责人大卫·史密斯 (David Smith) 表示,如今人工智能 (AI) 无处不在,无论是在现实中还是只是作为一些基于规则的简单决策的大肆宣传,这导致了一些有趣的问题, SAS 英国和爱尔兰 .
第一个是不信任,正如即将上任的英国科学协会主席所指出的那样, Jim Al-Khalili 教授:“公众强烈反对人工智能存在真正的危险,这可能类似于我们在千禧年早期对转基因 [基因改造] 的反对”。 Al-Khalili 强调,要让人工智能充分发挥其潜力,需要更高的透明度和公众参与。
第二个潜在问题是控制问题;如果模型真的在没有监控和控制的情况下运行,那么就有可能做出错误的决策。这方面的一个例子可能是 2010 年的“闪电崩盘”,当时美国股市下跌了约 9%,持续了 36 分钟。尽管监管机构指责单个交易员欺骗市场,但算法交易系统至少应为崩盘的深度承担部分责任。
善用人工智能
也就是说,人工智能具有巨大的潜力,无论是通过更有效的肿瘤图像筛查提供更好的癌症诊断,还是通过解释野生动物足迹的图像来保护濒危物种。挑战在于确保实现这些好处,这就是 FATE(公平、问责、透明和可解释)框架的用武之地,该框架旨在确保人工智能得到适当使用。我将专注于透明度方面,其中数据管理的影响最大。
AI 只能与提供给它的数据一样好,构建和使用 AI 应用程序需要多个特定于数据的阶段:
- 数据质量清理,以确保不会对包含不相关或不正确项目的数据执行建模
- 在建模过程开始之前转换、连接和增强数据
- 部署,采用模型并将其应用于组织的数据以推动决策制定
每一个都会增加价值,但也可能改变人工智能过程的结果。例如,如果数据质量过程去除了异常值,它可能会产生非常不同的影响。如果异常值去除是适当的,结果将是一个很好地反映大多数数据的模型。另一方面,它可能会忽视罕见但关键的情况,而错过带来真正收益的机会。
这在 Jocelyn Bell Burnell 夫人发现脉冲星(一种旋转中子星)中得到了证明。她正在检查来自射电望远镜的数英里的打印输出数据,并注意到每 100,000 个数据点中有一个小信号。尽管她的主管告诉她这是人为干扰,但她坚持并通过在别处成功寻找类似信号来证明它们的存在。如果将异常值移除,她就不会发现。
数据之旅
还应应用数据质量来防止做出令人尴尬的决定。如果美国银行 已经检查了他们姓名数据的有效性,他们可能没有向“Lisa Is A Slut McXxxxxx”发送信用卡报价(她的名字已被编辑。编辑。) 2014 年。他们从Golden Key International Honor Society 获得数据 ,它承认学术成就。一个不知名的人在会员名册上编辑了她的名字。
然后该过程继续进行转换以准备用于建模的数据;源系统通常是高度规范化的,信息存储在多个表中,而数据科学家喜欢单个方表进行分析。他们通常需要添加派生变量来帮助他们的分析。这些通常最初由数据科学家在临时数据准备环境中定义,但出于生产目的需要转移到更受控制的环境中。
这个数据转换阶段的影响可能是巨大的。首先,了解分析中使用了哪些数据源很重要。这可能与监管问题有关,例如是否正在使用个人数据,或者只是为了确保访问正确的数据源。其次,重要的是要了解转型是否适当和正确实施;实施中的错误可能与劣质数据一样具有破坏性。
直接影响人工智能的最后一个数据过程是部署,确保将正确的数据输入模型,并使用结果做出直接影响组织绩效的决策。模型有明确的保质期,在此期间它们可以准确预测现实世界,因此如果将模型部署到生产中的时间过长,它们将无法实现其全部价值。
有组织的部署过程也是满足 GDPR 第 22 条要求的必要组成部分。除非遵守严格的条件(例如完全同意),否则本文禁止对个人数据使用分析剖析。受控部署允许在任何时候概览哪些数据已用于 AI 过程以及哪些分析模型已应用于数据。这对于确定法规是否受到损害至关重要。
总的来说,数据管理是人工智能能够发挥其真正潜力的基础。能够了解数据处理的实现方式是维护透明度的关键部分,而透明度是公平、可信和有效 AI 的主要支柱之一。
此博客的作者是大卫·史密斯,SAS 英国和爱尔兰 GDPR 技术负责人。
物联网技术