贺福初的学生 贺福初院士最新综述:大发现时代的“生命组学”
生物通报道:在《中国科学: 生命科学》2013年的第一期上,来自军事医学科学院, 北京蛋白质组研究中心的贺福初院士特以“大发现时代的‘生命组学’”为题,介绍了生命科学领域的“大发现时代”,指出集多种组学之大成的“生命组学”研究模式已现端倪, 大发现时代将如影随形。
文章指出,纵观自然科学史, 常常可以看到“厚积薄发”的现象:当人类对某个领域的认知积累到一定程度时, 必然会出现一个甚至数个划破历史长空的科学大家, 应承时代的召唤, 指引纪元的更替, 他(们)促使重大发现蜂拥而至、喷薄而出, 并汇聚成滚滚洪流, 冲破已有理论信条的桎梏, 将该领域的理性认识推上全新的高度, 使一个或多个相关学科呈现爆发式成长, 脱胎换骨乃至革命性突变, 如此该学科可谓进入了“大发现时代”。
随着分子生物学50余年突飞猛进的发展,尤其是生命组学等领域近20年的日新月异, 当代生命科学临近爆发的边缘, 而最终“点燃”此次爆发的极大可能就是“生命组学”(基因组学、RNA 组学、蛋白质组学等组学的集合)。
16-17 世纪, 近代生命科学肇始于生物学“大发现”。1543 年, 以维萨留斯为代表的解剖学家通过对动物、人体的解剖, 从整体的角度对人体结构有了充分的认识。17世纪, 也是生物物种的大发现时代. 在公元前335年的亚里士多德时代, 经过科学研究和精确描述的动物已有 500 多种。亚里士多德首创“动物”一词, 并创作了第一本动物学名著, 其学说主宰学界上千年。
19世纪, 细胞学说的问世标志着生命科学第一次微观层面的系统大发现结出了革命性理论的硕果, 同时还衍生了现代医学的革命性研究模式—实验医学。
20世纪被称为基因的世纪,“基因”几乎成为20 世纪生命科学的神话。1900 年, 德佛里斯、科林斯、切马克各自独立重现孟德尔遗传定律。1910-1930 年, 摩尔根发现基因连锁定律, 绘制出第一个染色体基因连锁图(果蝇), 出版了《遗传的物质基础》与《基因论》, 建立了完整的基因遗传理论体系。
20世纪70年代以后, 分子生物学挥舞还原论的神剑, 不断演绎基因的神奇, 几近到达无以复加、出神入化的境界。Linn 和 Arber及 Smith 和 Wilcox分别发现两种“工具酶”, 能对 DNA 剪切、连接。
1970年, Nathans 用之实现 DNA 体外切割。1971 年, Berg运用“工具酶”实现不同种属基因重组。1976 年, 简悦威报告首例单基因遗传疾病的基因诊断。1977 年, Bishop实验室首次发现癌基因 src。1975年, Sanger等人建立 DNA 顺序分析法, 并于2年后完成φχ-174 噬菌体 DNA 全序列测定。
此后,组学的发展引领了 20 世纪末至今的生命科学大发现。“碱基的排列顺序就是携带遗传信息的密码”, 1953 年, 沃森和克里克在提出 DNA 双螺旋结构后又续写了另一空谷绝唱。1958 年, 其同一实验室的Sanger 建立蛋白质氨基酸序列测定方法, 70年代梅开二度, 又建立了DNA序列分析方法, 并因此两度荣获诺贝尔化学奖。
“序列之王”Sanger 的卓越成就, 使读写基因的信息不再是空想。序列成为对生命的新认知, 人类两大先锋科技生物科技与信息科技, 通过序列实现了历史性的融合。1986 年, 第一代基于荧光测序技术的 DNA 自动测序仪诞生, 26 年来 DNA 测序能力呈指数增长, 当前的日数据产出量已达 Gb 级, 比肩计算机芯片发展的“摩尔定律”。
以色谱-质谱为代表的蛋白质大规模测序技术发展之势同样不可小觑, 在生物质谱技术获得诺贝尔奖的 2002 年, 一个样本可鉴定到的蛋白质尚不过几百种, 而现今生物质谱一次运行可鉴定到的蛋白质竟多达数千种, 总数直逼转录组. 大规模自动测序技术破茧而出, 似大鹏振翅高翔, 生命“组学”洞开生命大发现之巨门。
第一代DNA自动测序仪诞生后仅4年, 美国政 府正式启动“人类基因组计划”, 随后德、日、英、 法和中国相继加盟。计划拟定之初, 已知的 DNA 序列仅有区区数十万级碱基对, 而 10 年弹指间, 人类不仅豪迈地完成了人类基因组 30 亿碱基对的第一次完整测序, 还成功实现了酵母菌等一批重要病原体和模式生物的基因组测序。
该计划的实施还积极推动了一系列后续研究计划的诞生, 如 2002 年启动的“国际人类基因组单体型图计划”、 2008 年启动的“国际千人基因组计划”、2009 年启动的“万种微生物基因组计划”、2010 年启动的“千种动植物基因组计划”、 “万种脊椎动物基因组计划”。
在人类基因组草图完成后10年的时间内(到2011年10月), 1200多种生物的基因组已获解析。
截止2012年6月14日, NCBI (National Center for Biotechnology Information)的基因组数据达到 2.08 Pb(1 Pb=1015 b), 与计划前相比增加了10亿个量级, 其中中国科学家的贡献超过 0.64 Pb, 占 30%以上。
基因组测序的完成只是欲来山雨的“满楼风”, 而这部天书的解读则需要拨云见日、再造乾坤。就在人类基因组草图公布的同月, 国际人类蛋白质组组织(human proteome organization, HUPO)宣告成立。次年, 人类蛋白质组计划(human proteome project, HPP)即宣布启动。
鉴于蛋白质组的组分种类多(至少 百倍于基因数)、丰度跨度大、翻译后修饰形式广、 时空特异性繁复、组分间的网络性等特点, 人类蛋白质组计划先期启动了一系列示范计划: 于 2002 年首批启动肝脏、血浆蛋白质组分计划; 之后又陆续启动脑、肾脏和尿液、心血管等器官/组织蛋白质组分计划; 以及数据分析标准化、抗体、生物标志物等支撑分计划。
2005 年, “人类血浆蛋白质组计划”发布了 3020 种蛋白质的核心数据集, 这是首个被鉴定的人体体液蛋白质组; 2010年, “人类肝脏蛋白质组计划”精确鉴定出6788种蛋白质, 这是首个被鉴定的人体器官蛋白质组, 其中半数以上为在人类肝脏中首次发现, 约 1/4 是首次在蛋白质层次被发现, 经典代谢通路数以千计的所有成员悉数发现, 因此构成了名副其实的“大发现”; 中国科学家领衔“人类肝脏蛋白质组计划”也显著推进了中国的蛋白质组学研究。
2009 年, 中国科学家通过通量化的蛋白质研究和不同物种的代谢通路研究, 发现了 1000 余个乙酰化蛋白, 而此前仅在人肝细胞中发现 76 个乙酰化蛋白,尤其重要的是, 该研究首次发现乙酰化修饰对代谢的广泛调控, 撼动了对代谢调控的经典认识。
2012 年,中国科学家选取大肠杆菌、酵母、线虫、果蝇、小鼠及人类为研究对象, 通过对海量规模化定量蛋白质组数据的分析, 发现了蛋白质丰度整体分布的3个普适性规律: 丰度与其起源时间和序列保守性呈正相关的进化律; 丰度与其结构域数目呈负相关、与覆盖度呈正相关的结构律; 参与“基础物质流”的蛋白质丰度高于调控“精细信息流”的蛋白质的功能律。
文章最后指出,回首自然科学, 尤其是生命科学史上“大发现时代”的兴盛历程以及最近以来组学的勃兴进程, 可以把“大发现时代”形象地比作“核聚变”, 原子核聚合并瞬间释放出巨能。“核聚变”的发生前提是原子核必须瞬间达到超高温, 才能突破巨大的能垒从而发生聚合, 因此核聚变必须靠核裂变来点燃, 即俗话所说的“氢弹靠原子弹点燃”。
科学史上常常靠思想或/和技术的重大突破, 甚至双重利器并举, 才能撬开新世界的大门、打通新大陆的道路, 从而使人类的理性、科学的光芒似秋风扫叶、长驱直入, 在历史的瞬间照遍新世界、覆盖新大陆, 进入“大发现时代”。
原文检索:
贺福初. 大发现时代的“生命组学”. 中国科学: 生命科学, 2013, 43: 1–15, doi: 10.1360/052013-5 He F C. “Life Omics” in grand discovery era. Sci China Life Sci, 2013, 56, in press