人工智能最近取得的一些最令人眼花缭乱的进展,都要归功于只有大型科技公司才能拥有的资源。在这些公司里,成千上万台功能强大的计算机和tb级的数据,就像免费的格兰诺拉燕麦卷和睡眠荚一样丰富。
一个新项目旨在证明这种情况并非如此,该项目将代码、数据和计算机能力拼凑在一起,以重现近年来开发的最伟大、也最有潜力的人工智能算法之一。
Eleuther是一个与GPT-3相匹配的开源项目,GPT-3是OpenAI公司在2020年发布的一种强大的语言算法,有时在给出文本提示时,它可以用英语写出非常连贯的文章。
Eleuther距离GPT-3的全部功能还有一段路要走,但上周研究人员发布了他们的模型的一个新版本,名为GPT-Neo,它的功能与最简单的GPT-3版本差不多。
大型人工智能项目的开源可能会让这项技术更容易获得和广泛应用,目前这种技术在大型科技公司中已经越来越根深蒂固。它还可能影响到通过关键的人工智能进步来赚钱的努力,并可能增加人工智能工具行为不当或被滥用的可能性。
“现在,开源的NLP和在大型科技公司之外生产有用的模型令人兴奋不已。康奈尔大学(Cornell University)计算机科学教授亚历山大•拉什(Alexander Rush)说。他指的是人工智能的一个分支领域——自然语言处理,该领域专注于帮助机器使用语言。“这有点类似于NLP的太空竞赛。”
如果是这样的话,那么GPT-3可能被认为是该领域的人造卫星。GPT-3由一个巨大的人工神经网络组成,该网络从网络上搜集了数十亿个单词。GPT-3具有惊人的口才和表达能力,尽管它也能脱口而出胡言乱语和攻击性言论。数十个研究小组和公司正在寻找利用这项技术的方法。
GPT-3的代码还没有发布,但是Eleuther背后的几十名研究人员,他们来自学术界和工业界,正在起草描述GPT-3如何工作的论文。
拉什并没有加入Eleuther,他说这个项目是NLP中越来越多的开源项目中最令人印象深刻的一个。除了发布以GPT-3为模型的强大语言算法外,他说Eleuther团队还策划并发布了一个高质量的文本数据集,称为Pile,用于训练NLP算法。
马萨诸塞大学阿姆赫斯特分校(University of Massachusetts Amherst)的计算机科学教授莫希特•伊耶尔(Mohit Iyyer)正在利用Eleuther提供的数据和模型,从文学批评中挖掘对著名文本的见解,以及其他项目。这包括训练一种算法来预测一本书的哪一部分会在一篇特定的批评文章中被引用。Iyyer说,这可能有助于制作一个对语言有更微妙把握的节目。Iyyer说:“我们非常感谢他们把所有这些数据汇总到一个资源中。”
也许对任何开源人工智能项目来说,最大的挑战是所需的大量计算能力。培训GPT-3需要价值数百万美元的云计算资源。OpenAI最近表示,在2012年至2018年期间,尖端人工智能项目所需的计算机能力增加了约30万倍。
Eleuther项目的成员表示,该项目利用了云计算公司CoreWeave和谷歌捐赠的分布式计算资源,该资源通过TensorFlow Research cloud提供备用计算机能力。为了方便使用计算机,Eleuther团队创造了一种将人工智能计算分散到多台机器上的方法。但目前尚不清楚,如果该项目继续发展,如何满足计算需求。
OpenAI认为GPT-3可以商业化。2019年7月,OpenAI获得了微软10亿美元的投资,一年后微软获得了GPT-3的独家授权。OpenAI说,超过300个GPT-3项目正在进行中,使用的是一个限制访问的API。其中包括从用户反馈中获取见解的工具,根据要点自动生成电子邮件的系统,以及永无止境的文本冒险游戏。Eleuther可能使构建类似的工具变得更容易,而不需要访问GPT-3 API。
OpenAI拒绝就Eleuther项目置评。
《连线开放源码软件指南》所有你想知道的关于Linux、GNU以及大公司是如何赚钱的免费的,合作的sed软件。
由柯林特芬利
该项目强调了开放强大的人工智能系统的另一个挑战。因为GPT-3和类似的大型语言模型是从随机文本中提取的,它们可以重现偏见或产生辱骂性或歧视性的语言。可以想象,像GPT-3这样的工具也可以用来生成假新闻或欺诈性消息。这是OpenAI给出的没有发布GPT-3完整版本的原因之一。
Eleuther使用的数据集比GPT-3更加多样化,它避免了一些来源,如Reddit,更有可能包含可疑的材料。独立人工智能研究人员、Eleuther的联合创始人康纳·莱希(Connor Leahy)表示,Eleuther项目“在过去几个月里花费了大量时间来整理这一数据集,确保它既经过了良好的筛选,又具有多样性,并记录了它的缺点和偏见。”
康奈尔大学的拉什认为,公开开发这些工具会更好。他说:“我发现闭源论证的方向是完全错误的。”他指出,许多学者都对研究语言模型的不当行为方式和寻找问题的解决方案很感兴趣。“开源的努力一直是,而且将是这些努力和进步的关键。”他说。