去年6月,YouTube一个国际象棋频道的主持人安东尼奥·Radić (Antonio Radić)在直播对特级大师中村光(Hikaru Nakamura)的采访时突然中断。该频道拥有超过100万名订户。
观众们被告知Radić的视频因“有害和危险”内容而被删除,而不是就国际象棋开局、著名游戏和标志性选手展开热烈讨论。Radić网站看到了一条消息,称这段视频违反了YouTube的社区指导方针,其中除了讨论国王的印第安人防御外,没有任何丑闻。它离线了24小时。
究竟发生了什么还不清楚。YouTube拒绝置评,只是表示删除Radić的视频是个错误。但一项新的研究表明,这反映了人工智能程序的缺陷,该程序旨在自动检测网络上的仇恨言论、虐待和错误信息。
卡耐基梅隆大学(Carnegie Mellon University)专门研究人工智能的项目科学家阿什克·库达布赫什(Ashique KhudaBukhsh)本人也是一名认真的国际象棋手,他怀疑YouTube的算法可能被有关黑白棋子、攻击和防御的讨论搞糊涂了。
因此,他和CMU的工程师鲁帕克·萨卡尔(Rupak Sarkar)设计了一个实验。他们训练了一个名为BERT的语言模型的两个版本,一个使用来自种族主义极右翼网站Stormfront的信息,另一个使用来自Twitter的数据。然后,他们对8818个国际象棋视频中的文本和评论进行了算法测试,发现它们远非完美。算法将大约1%的文本或评论标记为仇恨言论。但是超过80%的被标记的是假阳性——在语境中阅读,语言不是种族主义的。两人在论文中表示:“如果没有人参与其中,依赖现成的分类器对国际象棋讨论的预测可能会产生误导。”
“从根本上说,语言仍然是一个非常微妙的东西。”
汤姆·米切尔,卡内基梅隆大学教授
这个实验暴露了人工智能语言程序的一个核心问题。发现仇恨言论或虐待不仅仅是捕捉粗话和短语。相同的单词在不同的上下文中可能有非常不同的含义,因此算法必须从一串单词中推断出含义。
“从根本上说,语言仍然是一个非常微妙的东西,”汤姆·米切尔(Tom Mitchell)说,他是CMU的一位教授,曾与KhudaBukhsh合作过。“这些训练有素的分类器不会很快达到100%的准确率。”
华盛顿大学(University of Washington)专门研究人工智能和语言的副教授Yejin Choi表示,考虑到如今语言理解的局限性,她对YouTube被撤下“一点也不”感到惊讶。Choi说,在检测仇恨言论方面的额外进展将需要大量投资和新的方法。她说,当算法分析的不仅仅是一段单独的文本时,比如结合用户的评论历史或评论发布渠道的性质,就能更好地工作。
但崔的研究也表明,仇恨言论的检测是如何使偏见永久存在的。在2019年的一项研究中,她和其他人发现,人类注释者更有可能将自认为是非裔美国人的用户发布的推文标记为虐待,而使用这些注释识别虐待的算法将重复这些偏见。
《连线》人工智能指南超级智能算法不会包揽所有工作,但它们的学习速度比以往任何时候都要快,从医疗诊断到提供广告服务,它们无所不能。
通过涉足
企业已经花费了数百万美元来收集和标注自动驾驶汽车的训练数据,但崔说,同样的努力还没有投入到标注语言上。到目前为止,还没有人收集和注释一组高质量的仇恨言论或虐待的数据集,其中包括许多带有模糊语言的“边缘情况”。她说:“如果我们在数据收集上投入这么多,哪怕只是一小部分,我相信人工智能可以做得更好。”
卡内基梅隆大学教授米切尔表示,YouTube和其他平台可能拥有比KhudaBukhsh所构建的更复杂的人工智能算法;但即便如此,这些措施仍然是有限的。
大型科技公司正指望人工智能来解决网上的仇恨言论。2018年,马克·扎克伯格告诉国会,人工智能将有助于消除仇恨言论。本月早些时候,Facebook表示,其人工智能算法检测到了该公司在2020年最后三个月删除的97%的仇恨言论,高于2017年的24%。但它并没有透露算法漏掉的仇恨言论的数量,也没有透露人工智能出错的频率。
《连线》杂志将CMU研究人员收集的一些评论放入两个仇恨言论分类器中——一个来自Alphabet子公司Jigsaw,专注于处理错误信息和有毒内容,另一个来自Facebook。有些语句,如“在1:43,如果白方的国王只是移动到G1,那么黑方的攻击就结束了,白方只剩下一个骑士,对吗?”, 90%的人认为这不是仇恨言论。但是“白人对黑人的攻击是残忍的。白方践踏了黑方的防御。“黑人国王要下台了……”被判定为仇恨言论的可能性超过60%。
目前还不清楚YouTube和其他平台上的内容被错误标记为仇恨言论的频率有多高。“我们不知道这种情况发生的频率,”KhudaBukhsh说。“如果一个YouTuber不是那么有名,我们就不会看到它。”