引起Covid-19的SARS-CoV-2病毒使我们未来对生物病原体的脆弱性——以及我们可以学到什么来帮助预防下一次大流行——成为一个突出的关切。无论如何,我们没有太多证据证明Covid的出现是实验室事故的结果,还是从动物到人类的自然跳跃。尽管美国情报界目前最乐观的猜测是,这种病毒“可能不是基因改造的”,但这一理论一直是争论的主题,并没有完全排除。
我们面临的许多未知因素强调了我们需要一个比我们目前拥有的更大的工具包来应对致病威胁——这就是为什么最近一篇关于追溯基因编辑新进展的论文特别令人兴奋的原因。
生物工程通常会在工程生物体的RNA或DNA中留下痕迹——特征模式,这是合成生物学中大量设计决策的产物。关于生物工程基因组的事实提出了一个有趣的问题:如果基因编辑留下的痕迹更像指纹呢?也就是说,如果我们不仅能分辨出某物是否被设计而且能准确地分辨出它是在哪里被设计的呢?
这就是基因工程归因背后的想法:努力开发工具,让我们可以查看基因工程序列,并确定是哪个实验室开发了它。今年早些时候,一场由研究人员参加的大型国际竞赛表明,这项技术已经在我们的掌握范围之内——尽管要将令人印象深刻的竞赛结果转变为我们可以可靠地用于生物探测工作的工具,还需要进行大量的改进。
这个竞赛,基因工程归因挑战,是由世界上一些领先的生物研究实验室赞助的。这个想法是为了挑战团队开发基因工程归因的技术。根据一份总结比赛结果的新预印本,最成功的参赛者可以使用机器学习算法预测,哪个实验室生成的某种基因序列的准确率超过80%。
这可能看起来是技术性的,但它实际上可能相当重要,有助于使世界免受一种我们都应该更适应后大流行的威胁:生物工程武器和生物工程病毒泄漏。
防止生物武器研究和部署的挑战之一是,作恶者可能继续隐藏——很难找到致命病毒的来源并追究他们的责任。
但如果大家都知道,生物武器可以立即和可核实地追溯到一个坏人,这可能是一个有价值的威慑。
这对更广泛的生物安全也极为重要。如果一个基因工程病毒意外泄露,像这样的工具将使我们能够确定它们是从哪里泄露的,并知道哪些实验室在不充分的安全程序下进行基因工程工作。
病毒的指纹
数以百计的设计选择进入基因工程:“你使用什么基因,你使用什么酶将它们连接在一起,你使用什么软件来为你做这些决定,”论文的合著者计算免疫学家威尔·布拉德肖告诉我。
“人们用来切割DNA的酶以不同的方式切割,并有不同的错误轮廓,”布拉德肖说。“你可以用识别笔迹的方式做到这一点。”
因为接受过不同训练、装备不同的不同研究人员有他们自己独特的“特征”,所以我们有可能观察一个基因工程生物,然后猜测是谁制造了它——至少如果你使用的是机器学习算法的话。
需要说明的是,这项工作被称为基因工程归因,它与基因工程检测有很大的不同:它不是决定一个序列是否被设计,而是查看已知的已经被设计的序列,并找出是谁建造了它们。
为完成这项工作而训练的算法被输入了不同实验室产生的超过60,000个基因序列的数据。其想法是,当输入一个不熟悉的序列时,算法能够预测它们遇到的(如果有的话)可能产生该序列的实验室。
一年前,altLabs、约翰·霍普金斯卫生安全中心(Johns Hopkins Center for Health Security)和其他顶级生物研究项目的研究人员共同发起了这项挑战,组织了一场竞赛,寻找解决这一生物取证问题的最佳方法。比赛吸引了学者、行业专业人士和民间科学家的强烈兴趣,其中一名获胜队伍的成员是一名幼儿园教师。来自世界各地的近300个团队提交了至少一个机器学习系统,用于识别不同序列的起源实验室。
在那篇预印本论文(目前仍在接受同行评审)中,挑战赛的组织者总结了结果:在这个问题上,参赛者们共同迈出了一大步。论文指出:“获胜团队取得的结果比以往任何基因工程归因的尝试都要好得多,得分最高的团队和所有赢家团队都比之前的技术水平高出10个百分点。”
总的来说,在机器学习系统的帮助下,研究人员越来越善于找到制造特定质粒或用于基因操纵的特定DNA链的实验室。
表现最好的团队在命名一个质粒的创造者时,有95%的准确率,这被称为“前10个准确率”——这意味着如果算法识别出10个候选实验室,那么真正的实验室就是其中之一。他们有82%的最高准确性,也就是说,82%的情况下,他们认定的可能设计生物工程质粒的实验室,实际上就是设计它的实验室。
前1名的准确性是炫耀,但对于生物侦探工作,前10名的准确性几乎一样好:如果你可以把搜索罪犯的范围缩小到少数实验室,然后你可以使用其他方法来确定确切的实验室。
还有很多工作要做。竞赛只关注简单的工程质粒;理想的情况是,我们有办法对完全改造过的病毒和细菌有效。竞赛并没有考虑对抗性的例子,即研究人员故意试图在他们的工作中隐藏他们实验室的指纹。
基因指纹技术如何让世界更安全
生物安全研究人员去年在《自然通讯》(Nature Communications)杂志上提出,知道哪个实验室生产了生物武器可以从三方面保护我们。
首先,“了解谁是责任人可以通过揭示动机和能力来为应对工作提供信息,从而减轻事件的后果。”也就是说,弄清楚是谁建造了一些东西,也会给我们一些线索,让我们知道他们可能拥有的目标和我们可能面临的风险。
其次,很明显,它允许世界制裁和制止任何违反国际法生产生物武器的实验室或政府。
第三,这篇文章认为,如果这些能力广为人知,那么首先使用生物武器的吸引力就会大大降低。
但这些技术也有更普通的用途。
Bradshaw告诉我,他设想这项技术的应用可以用于发现实验室的意外泄露、识别学术论文中的剽窃行为以及保护生物知识产权——这些应用将验证和扩展这些工具的真正关键用途。
过去的一年半应该让我们所有人思考大流行疾病的破坏性有多大,以及研究实验室和政府采取的预防措施是否真的足以预防下一场大流行。
在我看来,答案是我们做得还不够,但更先进的生物取证肯定会有所帮助。基因工程归类仍然是一个新的领域。通过更多的努力,可能有一天会在更大的范围内使归因成为可能,并对病毒和细菌进行归因。这可能会让未来更安全。
更正,10月25日上午9时50分:这篇报道的先前版本称,已明确证明SARS-CoV-2不是一种生物工程病毒。尽管美国2021年8月的一份情报报告得出结论,“大多数机构……对SARS-CoV-2可能不是基因工程的评估信心不足,”许多科学家同意这一评估,但声称该理论已被彻底排除的说法是夸张的。故事的介绍和结论已经更新,以反映这种较低的确定性水平。(感谢麻省理工学院和哈佛大学布罗德研究所生物学家Alina Chan的评论和投入)