【基因组学与应用生物学】科学家用细胞生物学 破解AI黑匣子
机器学习系统建立在人造神经元层上,称为神经网络。这些网络层通过神经元之间看似随意的连接而联系在一起,而整个系统会通过微调这些连接进行"学习"。
这已经成为如今人工智能系统有效运行的重要支撑,然而,它却以极为"神秘"的方式运作。
对于诸如"这是一只猫的照片吗?""下一步棋该怎么走?""自动驾驶汽车在遇到黄灯时是否应该加速?"等等问题,神经网络往往能够轻松给出答案,但关键问题在于,我们并不知道它是如何做到的。这就是所谓的"黑匣子"。
而为了让人工智能在具体应用中变得更值得信赖,越来越多的研究者正在试图打开"黑匣子",理解系统得出某个具体结论的过程。
最近,美国加州大学圣迭戈分校生物工程与医学教授Trey Ideker与他的研究团队一起,开发了一种"可见"的神经网络,并用它构建了称之为DCell的啤酒酵母细胞模型(通常被用作基础研究的一种模型)。
具体而言,就是将神经网络映射到简单的酵母细胞内,使得研究人员能够观察AI系统的运作方式。在这个过程当中,研究人员得到了关于细胞生物学的诸多分析结论,而由此产生的技术还可能有助于研发新的癌症药物和个性化治疗方案。
首先,介绍一下当今机器学习系统中使用的神经网络的相关基础知识:
计算机科学家通过设置多个图层来建立神经网络框架,其中每个图层包含数千个负责执行微小计算任务的"神经元".
在此基础上,培训人员输入数据集(例如数百万张猫、狗的照片,数百万次围棋落子,数百万种驾驶操作与结果等),由系统连接图层中的神经元,对其进行结构化序列计算。该系统将通过神经网络进行数据处理,然后检查其执行任务的实际效果(例如将猫与狗者区分的准确度)。
最后,通过重新排列神经元之间的连接模式并再次运行数据集,检查新模式是否产生更好的结果。当神经网络能够非常准确地完成任务时,培训人员就会认定训练成功完成。
"虽然它们被称为神经网络,但这些系统所受到的人类神经系统启发还非常初级。"Ideker解释道。
他指出:"着眼于AlphaGo,可以发现这套系统的内部工作方式完全是一团乱麻,事实上根本不像人脑。它拥有一种全新的思维方式,但只是恰好能够作出不错的预测结论。"
立足于此,Ideker开始在细胞生物学人工智能研究当中作出新的尝试。他希望能够利用神经网络向研究人员们展示这些结论的得出方式,而不仅是简单粗暴地给出答案。
Ideker在接受采访时表示:"我们对于这样一套并非由计算机科学家进行优化,而是通过进化完成优化的特定结构抱有浓厚兴趣。"
▲ DCell可以像实验室实验一样精确地预测酵母细胞的生长和繁殖
这一项目之所以具备可行性,是因为酿酒酵母是一种单细胞生物,从上世纪五十年代以来就一直被作为一类基础生物系统接受研究。Ideker指出:"我们拥有大量细胞生物学知识可供参考,因此这项研究非常方便。"
因此,他的团队通过把神经网络中的各个图层映射至酵母细胞的组成部分中,从最微观的组成元素(构成DNA的核苷酸)开始,逐步向上延伸至更大的结构--例如核糖体(从DNA处获取指令以制造蛋白质),最后到达线粒体及细胞核等细胞器(负责执行细胞活动)。总体而言,这套DCell神经网络将运用到酵母细胞中的总计2526个子系统。
▲ DCell作为在线应用程序可供研究人员使用
DCell允许研究人员们变更细胞的DNA(即遗传代码),并观察这些变化如何向上蔓延以改变其生物学特征,进而影响到后续细胞生长与繁殖。其训练数据集由来自数百万个真实酵母细胞的基因突变实例组成,且与对应的突变结果信息相匹配。
研究人员发现,DCell能够通过模拟酵母来准确预测细胞的生长。由于这是一套"可见"的神经网络,因此研究人员们能够看到细胞机制在进行DNA混淆时发生的改变。
这种可视性,意味着DCell能够潜在应用于细胞的计算机制研究,且无需耗费大量时间与实验室实验资源投入。如果研究人员能够弄清其实际建模过程--而非简单的酵母细胞,则可进一步模拟更复杂的人类细胞。"如果能够构建单一人体细胞的整体工作模型并对其进行模拟,这将彻底改变精准医学与药物研发的发展方向。"Ideker表示。
癌症是目前最受关注的疾病研究方向,因为每一位癌症患者的肿瘤细胞都包含独特的突变组合。而Ideker和他的团队正在使用患者的基因组与突变条件建立模型,观察细胞的实际生长速度,以及癌症的侵略性特性。
更重要的是,致力于寻找癌症新药的制药企业将能够利用细胞生长情况作为成功或失败的评判标准。他们将观察到众多可以开启及关闭的不同基因分子,并据此思考某种潜在药物是否能够停止肿瘤细胞的增殖。考虑到以往需要数十亿美元进行抗癌药物研发投入,如今这种更为便捷的研究方式明显更具吸引力。
当然,要从酵母细胞升级为人类细胞绝非易事。研究人员需要收集与人类患者相关的足够信息,从而构建起神经网络所必需的训练数据集--至少需要数百万条记录,其中包含患者的遗传图谱与健康结果。Ideker预测称,这些数据的积累速度会相当快。在他看来,对患者基因组进行测序将受到高度关注。
而更棘手的部分在于积累人类癌细胞活动机制的知识,只有这样才能将神经网络映射至细胞中的各个部分。Ideker本人正是癌细胞绘图计划的成员之一,他们希望能够尽快解决这一挑战。目前,对癌细胞的生物活动进行归纳是一项非常困难的任务,因为这些突变不仅能够开启及关闭细胞功能,同时也会对细胞功能造成不同程度的影响,并以极为复杂的方式引发协调性变化。
不过,Ideker对于利用迁移学习技术将机器学习方案从模拟酵母细胞转化为模拟人类细胞的神经网络仍抱有乐观态度。他总结称:"只要建立起一套能够识别猫的系统,那么无需对其进行完全重新训练,也可以教会它如何识别松鼠。"