《辛普森一家》能否用人工智能取代配音演员?_生活

Image may co<em></em>ntain Human Person Graphics Art Clothing and Apparel

2015年5月，配音演员哈里·希勒(Harry shearer)宣布他将离开该剧。希勒在剧中扮演了许多关键角色，其中包括令人难以置信的伯恩斯和韦伦·史密瑟斯(Waylon smithers)。

到那时，这部动画片已经播出了25年多，配音演员的片酬从1998年的每集3万美元涨到了2008年的每集40万美元。但是制片公司福克斯希望削减成本，并威胁要取消这部剧，除非配音演员的片酬减少30%。

大多数人都同意，但希勒(他一直对节目质量的下降持批评态度)拒绝签约——二十多年后，他想挣脱金手铐，赢回追求自己作品的自由和时间。制片人Al Jean说，希勒的标志性角色——包括斯金纳校长、内德·弗兰德斯和奥托·曼——将会被重选。

但你永远不会停止。几个月后，希勒软化了，签了一份新合同。这部电视剧经常拿动画配音演员的可替代性开玩笑，但随着它走过第四个十年，笑声背后的标志性声音可能会对它的继续存在构成最大威胁。扮演斯普林菲尔德居民的演员们正接近退休年龄——他们大多六七十岁;希勒已经77岁了，他们可能很快就会决定不再这样做了。他们当然不需要新剧集的费用和老剧集的重播余款，他们坐拥数千万美元。

但也许这部剧的制片人不再需要配音演员了。在最近的一集中，埃德娜·克拉巴佩尔(Edna krabappele)——巴特(bart)的老师，在2013年配音演员马西娅·华莱士(Marcia Wallace)去世后，她的角色就退出了该剧。在这一集中，她用之前几集的录音为巴特做了最后的告别。

计算能力的进步意味着你可以将这一原则扩展到任何角色。Deepfake技术可以从有限的训练数据中制作出令人信服的仿制品，而节目的制作人有30年的音频可供参考。那么，能否用人工智能代替它的声音?

加拿大人工智能研究员、媒体制作人蒂姆•麦克斯麦瑟斯(Tim McSmythurs)表示:“你当然可以想出一段由角色以一种可信的方式发声的情节。”麦克斯麦瑟斯建立了一种语音模型，经过训练可以模仿任何人的声音。“这是否会有娱乐性是另一个问题。”

在他的YouTube频道上，谈到人工智能，麦克麦瑟斯重拍了荷马饰演茱莉亚·罗伯茨的标志性场景;唐纳德·特朗普代替了拉尔夫·威格姆，乔·拜登把洋葱系在腰带上，这是当时的风格。

McSmythurs构建了一个通用的人工智能模型，可以将任何文本转换成英语语音。当他想要制造一个新的声音时，他会用那个特定的人说话的两三个小时的新数据，以及文本文本，进一步调整模型。“它关注的是荷马的声音是如何形成的，以及不同的频率，”他说。

在那之后，就是要求模型生成多个镜头的问题了——每一个镜头都会略有不同——然后根据您的目的选择一个最好的镜头。输出明显是荷马的作品，但听起来有点平淡，就好像他在读一些他并不真正理解的东西。“这确实取决于训练数据，”McSmythurs说。“如果模型没有接触到各种各样的情感，它就无法从零开始创造。所以它听起来不像荷马那样充满活力。”

英国初创公司Sonantic已经开发出一种方法，将这种情绪范围引入人工智能语音。他们与配音演员合作，以获得广泛的训练数据——演员用几个小时的时间唱不同的台词，用不同的情绪语调。Sonantic联合创始人兼首席技术官约翰•弗林(John Flynn)表示:“我们知道讽刺和真诚之间的区别，也知道声音中的细微线索。”“我们延伸了那些自然的点、细微差别和变化。”

弗林说，所需的训练数据量已经大幅减少，从30到50小时减少到10或20分钟。位于布里斯班的复制工作室(Replica Studios)建立了一个模型，通过训练，只需输入20个简短但具体的句子，就可以重现声音。Replica联合创始人兼首席执行官什里亚斯•尼瓦斯(Shreyas Nivas)表示:“数据越多，性能越好，但我们可以在几分钟内完成一些事情。”

单词是由音节构成的，音节是由音素构成的，音素是你嘴巴能发出的所有单独的声音。理论上，一个训练模型可以从一个被称为“音标组合”的句子中得到它所需要的一切，这个句子包含了英语的所有音素，尽管在实践中，这取决于你的口音。(例如，试着想出所有不同的表达方式:“在法国女王再次听到交响乐之前，湖上的米黄色给所有人留下了深刻的印象，包括她，正如年轻的亚瑟所希望的那样。”)

语音生成技术已经在视频游戏中得到了应用——sonantic正在与Obsidian合作，后者是《and》的制造商，而Replica拥有许多AAA级和独立游戏工作室作为客户。在游戏中，AI的声音可以用来填充一个开放的世界，让它充满更广泛的对话，而不是让角色被限制在由工作室配音演员录制的内容中。

尼瓦斯说，这项技术在开发阶段特别有用，人工智能版本的声音可以作为替身，让游戏的创造者在真正的演员加入之前可以尝试各种选择。它还可以用来驱动更多的自定义评论员在《FIFA》之类的游戏中喊出你的真实名字，而Replica则为《赛博朋克》开发了一个mod，可以改变主角的名字，并让每个与他们互动的角色都能说出这个名字。结合AI语音生成、语音识别和GPT-3等文本语音转换算法，玩家可以与非玩家角色进行对话，对话是即时生成的。

然而，除非福克斯决定把脚本编写和动画也交给AI，否则你就不需要这些功能。事实上，使用AI来重铸角色可能比找到一个能模仿荷马的人要麻烦得多。“如果我们的目标是生产的另一个集显示,最好的方法是让代理和一个脚本,让他们聚在一起——他们将执行高质量性能,因为几十年来他们一直这样做成功的,他们可以体现完美的人物,“说闹罢工。“使用人工智能配音演员将需要更多的迭代和工作，而不仅仅是重组演员。”

对于任何试图用人工智能重新塑造不守规矩的配音演员的制作人来说，这也是一个法律雷区。宾夕法尼亚大学(University of Pennsylvania)法学教授詹妮弗•罗斯曼(Jennifer Rothman)表示:“这个法律领域很棘手。”

一方面，合同可能会限制录音室对录音的处理。除此之外还有集体谈判的问题——演员工会SAG-AFTRA, Rothman说，“一直非常积极地试图规范配音演员和银幕演员的复活和再利用。”

然而，在没有任何合同规定的情况下，著作权法开始发挥作用。罗斯曼说:“任何拥有版权的人都将拥有复制他们已经创作的受版权保护的作品的所有权利，包括演员表演的录音，以及根据版权法制作衍生作品的权利。”

但这与另一套管理宣传权的法律相冲突，而这些法律在美国各地各不相同。罗斯曼说:“这种公开权使表演者有权控制对其姓名、肖像、表演的未经授权的使用，通常还有他们的声音。”

伦敦大学玛丽皇后学院的知识产权法教授约翰娜·吉布森说，在虚假背书索赔中，演员们还有一个潜在的追索权。如果用一个深度造假的荷马来为巧克力棒做广告，这可能会被视为演员丹·卡斯特利亚内塔(Dan Castellaneta)的个人代言。吉布森说,法律也可能不同甚至由同一演员扮演不同角色在同一节目中,她使用了赛斯的例子,麦克法兰,布莱恩的声音是他实际的说话的声音,可能会有更多的保护,而Stewie是专门为显示创建的声音。(当然，在这个例子中，麦克法兰是这部剧的创作者，不太可能被违背他意愿的人工智能取代)。

1993年，乔治·温特(george Wendt)和约翰·拉岑伯格(John ratzenberger)的两位演员起诉派拉蒙公司(Paramount)，因为派拉蒙公司在机场酒吧使用了他们的机器人形象。演员们认为，宣传权赋予了他们对自己形象的控制权，而电影公司则认为，版权法允许他们根据情景喜剧创作衍生作品。这个案子在法庭上拖了八年，电影公司最终以一笔未披露的费用达成和解。Rothman表示:“法律不明确，这意味着如果合同中没有规定电影公司可以这么做，那么如果发生诉讼，这类纠纷的结果将是不确定的。”“这是一个尚未解决的问题。解决这些案件的法律框架相当混乱。”

但是配音演员可能还不需要给他们的律师打电话。制作这些声音生成工具的人都不是为了取代演员。Sonantic和Replica都强调他们与演员有合作关系，并且他们拥有收益分享模式，所以每当游戏中使用配音演员的“声音”时，他们便能够获得收益。

随着这种技术的提高,其创建的声音“恐怖谷”,说闹罢工,他们可以帮助民主化内容creation-allowing球迷的合法使用的声音他们最喜欢的角色,为自己的项目,例如,使mashup以及杂交累节目注入新生命。

齐娜·库雷希是Sonantic的首席执行官和联合创始人，她将当前的语音生成技术比作早期的CGI技术。“它复制了演员的声音，但不会取代他们，”她说。“CGI不会取代摄影师，这也不会取代演员，但它可以帮助他们面对面和虚拟地工作。如果有人退休了，他们的声音可以为他们工作。”

McSmythurs还拿CGI做了一个比较，他说，虽然你可以制作出一个今天的令人信服的剧集(通过大量的迭代和努力)，但它可能很难经受住时间的考验，就像90年代的CGI电影在现代人看来显得过时一样。他认为这项技术可以用于一些简短的片段，比如让已故演员扮演的角色复活，进行最后的告别，但他不认为人工智能在短期内会是一条可行的途径。他说道:“配音演员所带来的不仅仅是声音，他们还带来了情感内容。”“Dan Castellaneta为这个2D角色注入了温暖、深度和所有让我们喜欢他的品质。人类在做人方面做得很好。”