2012年,人工智能研究人员在计算机视觉上实现了一次巨大的飞跃,这在一定程度上要归功于一组异常庞大的图像——从网上搜集并手工标注的照片中包含了数千件日常用品、人物和场景。这个被称为ImageNet的数据集,至今仍在数千个人工智能研究项目和实验中使用。
但上周,ImageNet中包含的所有人脸突然消失了——管理数据集的研究人员决定对它们进行模糊处理。
正如ImageNet引领了人工智能的新时代,修复它的努力反映了影响无数人工智能程序、数据集和产品的挑战。
普林斯顿大学(Princeton University)助理教授、ImageNet管理人员之一的奥尔加•鲁萨科夫斯基(Olga Russakovsky)表示:“我们担心隐私问题。”
ImageNet的创建是一项挑战的一部分,该挑战邀请计算机科学家开发能够在图像中识别物体的算法。在2012年,这是一项非常艰巨的任务。随后,一种名为“深度学习”(deep learning)的技术被证明比以前的方法更擅长完成任务。这种技术通过向神经网络输入标记好的例子来“教授”神经网络。
此后,深度学习推动了人工智能的复兴,也暴露了该领域的缺点。例如,面部识别已经被证明是深度学习的一个特别受欢迎和有利可图的用途,但它也有争议。由于担心侵犯公民隐私或偏见,一些美国城市已经禁止政府使用该技术,因为该程序对非白人面孔的准确性较低。
今天ImageNet包含150万张图片,大约有1000个标签。它被广泛用于评估机器学习算法的性能,或者训练执行特殊计算机视觉任务的算法。模糊人脸影响了243,198张图像。
Russakovsky说,ImageNet团队想要确定,在不改变图像识别效果的情况下,是否有可能在数据集中模糊人脸。“人们在这些数据中是偶然出现的,因为他们出现在描述这些物体的网络照片中,”她说。换句话说,在一个啤酒瓶的图像中,即使喝啤酒的人的脸是粉红色的污迹,瓶子本身仍然完好无损。
在ImageNet更新后发布的一篇研究论文中,数据集背后的团队解释说,它使用亚马逊的人工智能服务Rekognition模糊人脸;然后,他们付钱给“土耳其机械工人”(Mechanical Turk),让他们确认和调整选择。
研究人员说,模糊人脸并没有影响在ImageNet上训练的几种物体识别算法的性能。他们还表明,用这些物体识别算法构建的其他算法也同样不受影响。Russakovsky说:“我们希望这一概念验证为该领域更多关注隐私的视觉数据收集实践铺平道路。”
这并不是第一次尝试调整著名的图像库。2019年12月,ImageNet团队删除了人类标签者引入的带有偏见和贬义的词汇,此前一个名为“挖掘AI”的项目引起了人们对这一问题的关注。
《连线》人工智能指南超级智能算法不会包揽所有工作,但它们的学习速度比以往任何时候都要快,从医疗诊断到提供广告服务,它们无所不能。
通过涉足
2020年7月,uniifyid的机器学习科学家维奈·普拉布(Vinay Prabhu)和爱尔兰都柏林大学(University College Dublin)的博士生阿贝巴·伯哈恩(Abeba Birhane)发表的研究表明,他们可以在数据集中识别个人,包括计算机科学研究人员。他们还发现里面有色情图片。
Prabhu说模糊人脸是件好事,但是让他失望的是ImageNet团队没有承认他和Birhane所做的工作。Russakovsky说,引文将出现在论文的更新版本中。
对于经过图像网络数据训练的算法来说,模糊人脸仍然可能会产生意想不到的后果。例如,算法可以学习在搜索特定对象时寻找模糊的面孔。
“一个需要考虑的重要问题是,当你部署一个经过面部模糊数据集训练的模型时,会发生什么,”Russakovsky说。例如,在数据集上训练的机器人可能会被现实世界中的人脸所迷惑。
麻省理工学院(MIT)的研究科学家亚历山大•马德里(Aleksander Madry)发现了ImageNet的局限性,他表示,在包含模糊人脸的数据集上训练的人工智能模型,在显示包含人脸的图像时可能会表现奇怪。他表示:“数据上的偏差可能非常细微,但却会产生重大后果。”“这就是为什么在机器学习的背景下思考健壮性和公平性是如此棘手。”