计算生物学(computational biology)是一门典型的交叉学科,涉及的学科包括数学、统计学、化学、物理学、生物学和计算机科学等。就整个学科的内容而论,计算生物学最终是以生命科学中的现象和规律作为研究对象,以解决生物学问题为最终目标,数学和计算机仅仅是解决问题的工具和手段。计算生物学的研究范畴相当广泛,几乎渗透到现代生物学研究的每一个领域。对于这样一门学科,大家有不同的认识,要给出一个既全面又精准的定义实非易事。通俗地讲,计算生物学是应用计算机科学、应用数学和统计学的方法和手段研究生物学问题的一门交叉学科[1]。一个更专业但是依然宽泛的定义是,任何关于生物学问题的交叉学科研究,只要其工作假设(working hypothesis)可以通过建立数学模型和计算机仿真来进行检验,都可纳入计算生物学的研究范畴[2]。在称谓上,曾经有人提出过“数学生物学”(mathematical biology)或“定量生物学”(quantitative biology),但普遍认为,定量的测度以及数学和统计学分析在整个自然科学领域中都广为应用,只有“计算”(computation)可以比较好地反映这门学科各个研究领域的共同本质和内在联系,并且很好地把它们统一起来[3]。因此,“计算生物学”的概念最终被广泛接受和使用。
计算生物学的本质
计算生物学与许多其他学科有密切的联系,通常不容易区分,比如系统生物学、生物数学等,而最容易混淆的是生物信息学。随着1990年人类基因组计划(Human Genome Project, HGP)正式启动,海量数据信息迅速积累,人们发现靠传统的方法存储处理这些爆炸式增长的数据已力不从心,因此开始借鉴信息学的工具方法,由此出现了生物信息学这一新兴的学科。如今,生物信息学(bioinformatics)作为一门学科已经深入人心,为大家所熟识。但实际上,人们很快意识到,对那些海量数据只进行一些传统处理,并不能给生命科学以及医学带来太大的促进,迫切需要一个有效的研究方法体系来帮助人们了解像人体这样一个极其复杂的生物体系,这就是最近几年逐渐受到越来越多关注的计算生物学。
实际上,计算生物学与生物信息学都属于典型的交叉学科,它们的研究内容往往交织在一起,并没有一个严格的界限。但是一般认为,生物信息学主要侧重于生物学中信息的采集、存储、分析处理与可视化等方面,而计算生物学主要侧重于利用数学模型和计算仿真技术对生物学问题进行研究。生命科学已发展到后基因组时代,即人们面对的都是海量的“组学”数据集。在大多数情况下,计算生物学的研究需要经过前期的生物信息学研究过程,因此通常将生物信息学作为计算生物学的分支学科来看待。
此外,区分计算生物学与其他相关学科的一个要点是计算生物学以直接解决生物学问题为目标和出发点,而其他同样涉及数学和计算的学科不一定如此。比如生物数学也同时涉及数学计算和生物学,但在更多情况下并没有明确的、直接的生物学研究对象,而只研究那些与生物学应用有关的数学方法和理论。当然我们没有必要纠缠于各学科有多少具体差异甚至学科名称的字面解释,往往一个研究人员的兴趣可能更偏向某个领域或某一方面,而具体的研究工作同时涉及多个学科,在这种情况下一般会达成不同领域的研究人员之间的合作。跨学科研究是趋势,不同领域研究人员的合作已经是常态。
“发现的科学”与“假设驱动的科学”
一般来说,计算生物学的研究可以划分成两个部分或者两个阶段,一是数据挖掘和知识发现,从大量的实验数据中提取背后隐藏的模式,然后形成假设;第二个阶段是建立数学模型,利用计算机模拟来检验各种假设,为进一步的体内、体外实验研究提供预测结果和指导建议[4]。因此,计算生物学的两个阶段可以归纳为“发现的科学”(discovery science)和“假设驱动的科学”(hypothesis-driven science)。
具体来讲,计算生物学运用大规模高效的理论模型和数值计算来识别基因组序列中代表蛋白质的编码区,破译隐藏在核酸序列中的遗传语言规律;直接从蛋白质序列预测蛋白质三维结构以及动力学特征,研究生物大分子结构与功能的关系、生物大分子之间相互作用以及生物大分子与配体的相互作用,促进蛋白质工程、蛋白质设计和计算机辅助药物设计的发展;同时,归纳、整理与基因组遗传语言信息释放及其调控相关的转录谱和蛋白质谱的数据,模拟生命体内的信息流过程,从而认识代谢、发育、分化、进化的规律,从基因组科学新视角来探究人类健康和疾病的各个方面,使将人类基因组计划的成果转化为医学领域的进步成为可能。
运用计算生物学,科学家有望鉴定基因和生物通路在健康和疾病中的角色,挖掘它们与环境因素之间的关系;发展、评价以及应用以基因组为基础的诊断方法来预测对疾病的易感性,预测药物反应,发现疾病的早期诊断标记、疾病在分子水平上的发展机制;应用基因组和代谢通路的知识,通过分子模拟等方法进行计算机辅助药物设计,缩短新药开发周期,从而开发有效的、新的疾病治疗方法;发展基于基因组的工具来改善大众的健康状况,从而促进人类基因组计划造福于人类[5]。
在数据挖掘及知识发现阶段,常用的研究方法有统计学方法、信息论方法、集合论方法、仿生学(或人工智能)方法、语言学分析方法和其他一些广泛用于数据挖掘和知识发现的具体方法,包括频繁出现在该领域的一些关键词,如机器学习、支持向量机、隐马尔科夫模型、贝叶斯推断、模式识别等,大部分可归属到上述分类当中。此外,可视化技术作为数据挖掘和知识发现阶段的辅助技术受到越来越多的重视。
在模型建立和计算机仿真阶段,具体方法的实行与前一阶段知识发现中建立的假设以及具体的生物学问题有关。但不论用什么具体方法,总之是要将观察到的数据模式和感兴趣的生物学问题借助数学模型转变成一个可计算问题。通过数学模型表现和描述真实数据中观察到的某些现象、特征和状况,定量地描述其状态和过程。最终通过对数学模型的逻辑推理、求解以及运算,或者至少能通过计算机仿真实现对模型和假设进行检验,获得对感兴趣的生物学问题的有关结论以及对具体生命现象本质的认识和科学解释。
如果以上两个阶段分开来看,表面上第一个阶段基本属于生物信息学的研究范畴,第二阶段大致属于生物数学和计算机科学研究范畴。然而,计算生物学的特点就在于两个研究阶段的不可分割性,它既不是单纯的生物信息学研究,也不是纯粹的生物数学理论研究,更不是简单的计算机技术应用研究。举例来讲,通过知识发现建立假设和构建数学模型进行计算机仿真并进行检验,与实验观察结果进行比较分析,一方面预测和指导进一步的体内体外实验研究,另一方面从新的实验数据中重新进行知识发现、修正假设、完善数学模型,最终阐明生命活动的现象和本质。这个过程可能反复进行,各个环节相互依赖,始终围绕生物学问题。因此一个典型的、完整的计算生物学研究两个阶段是必不可少的,往往是交互进行的。计算生物学将“发现的科学”和“假设驱动的科学”有机地联系起来,使得生物信息、知识发现、数学模型和假设检验完美地结合在一起,为生命科学研究铺开一条多学科交叉融合的高速公路。
国内外的发展概况
计算生物学在国际上受到高度重视,美国和欧洲一直走在该研究领域的前列。1975年,美国的皮帕斯(J. Pipas)和麦克马洪(J. McMahon)首先提出运用计算机技术预测RNA二级结构。1980年,美国《科学》周刊发表了关于计算分子生物学的综述。1997年,国际计算生物学学会(ISCB)在美国成立,如今发展成为一个拥有来自70多个国家的2500多名会员的庞大组织。由其负责的两本刊物,《公共科学图书馆计算生物学》(PLoS Computational Biology)和《生物信息学》(Bioinformatics),成为当今计算生物学领域主流的专业杂志。1999年,世界上第一个系统生物学研究所在美国西雅图成立。2002年秋天,第一届欧洲计算生物学会议(ECCB)在德国萨尔布吕肯召开,吸引了来自30个国家的459名参会者。2002年11月,英国《自然》杂志推出一个关于计算生物学的专辑,介绍计算生物学的学科概念、研究现状和发展前景。2004年,美国卫生研究院启动了 “生物信息学和计算生物学”计划,并着手建立了数个“国家生物医学计算中心”(National Centers for Biomedical Computing)。近年来,加州大学、斯坦福大学、德克萨斯大学、芝加哥大学、威斯康星大学等机构均成立了计算生物学中心,德国、法国、澳大利亚、意大利等国也纷纷建立了计算生物学研究机构。
中国的计算生物学研究起步较晚,与欧美国家相比,在研究机构的数量和规模、研究人员组成以及资金投入方面都存在比较大的差距。由于现代生物学许多地方要求大量运用计算生物学的手段,实际上,很多大学和研究院所都有相关科研人员从事部分计算生物学的研究,或至少有意无意地用到计算生物学的研究手段。但一直以来,国内计算生物学研究和研究人员大多分散在各个大学和研究院所的其他学科当中,没有形成体系,没有学科概念,更遑论集群优势。庆幸的是,最近几年计算生物学研究在国内逐渐受到重视,相关的学术会议相继召开。2005年10月13日,中科院上海生命科学研究院计算生物学研究所(中科院-马普学会计算生物学伙伴研究所)正式揭牌,我国第一个计算生物学研究所成立。这个由中科院和德国马普学会合作共建的研究所,标志着我国对计算生物学研究的重视达到前所未有的高度。此后,一些大学也陆续成立了系统生物学研究机构,与计算生物学相关的一些重要研究计划也纷纷出台。
当前的计算生物学仍处于探索和发展阶段,还远远没有形成一个比较完整的研究体系。计算生物学的许多方法和理论还很不完善,许多更复杂的生物学问题至今未能找到相应的计算手段和方法进行研究。尽管如此,计算生物学在一些研究领域还是取得了不少的进展。
正如计算生物学的出现和发展最初得益于人类基因组计划,目前较为显著的成果最先也是体现在基因组学领域,其中又以群体基因组学(population genomics)最具代表性,包括下述几个方面:(1)人类复杂疾病研究,主要表现在全基因组关联分析(GWAS)的广泛应用于人类复杂疾病的基因定位研究;(2)群体基因组结构研究,在群体水平研究基因组的结构,包括单体型结构、连锁不平衡结构、重组率的基因组分布等,代表性的工作是国际单体型计划(The International HapMap Project)的实施及其随后大量的研究成果;(3)自然选择研究,代表性的工作是在全基因组范围利用群体基因组学的手段寻找受到达尔文正选择的基因[6];(4)史前人口统计学研究,包括人类群体亚结构、群体大小的波动、人群基因交流等参数的估计,成果主要体现在一系列相关研究方法的发展[7],以及对人类遗传多样性计划(HGDP)的世界人群在全基因组范围的遗传结构研究[8, 9]。
当然,计算生物学在其他领域也得到不同程度的发展,如分子模拟和计算机辅助药物设计是当前计算生物学研究的一个热点,也是计算生物学与生物医药产业结合最紧密的方向之一。中国科学院上海药物研究所率先在国内将高性能计算应用于分子模拟和开展药物设计研究,发展了复杂生物大分子体系理论计算方法,进行了复杂生物大分子长时分子动力学和变构动力学模拟;并在分子模拟的基础上对30余种重要靶标进行了药物设计研究。
值得指出的是,在目前具体的研究中,相当一部分没有明确的生物学问题,要么只研究生物信息的挖掘技术,要么只研究那些涉及生物学应用有关的数学方法和理论。这说明目前的计算生物学研究还是零散的、脱节的,没有真正超越传统的生物信息学和生物数学的研究模式。计算生物学还要从生物学的需要和特点,探求新方法、新手段和新的理论体系。这是挑战也是机遇,国内众多高校和研究所也已经开始进行计算生物学领域的研究工作,相信中国科学家在这一领域会大有作为。
代表未来生命科学的发展方向
计算生物学代表未来生命科学和生物技术研究的发展方向,今后的计算生物学一定会具备以下四个特征。
第一个是组学特征,这包括从一系列组学(-omics),如表型组(phenome)、基因组(genome)、转录组(transcriptome)、蛋白质组(proteome)、相互作用组(interactome)、代谢组(metabolome)等组学数据的知识发现。
第二个是广泛深入的数学建模及应用,计算生物学要将众多知识发现有机地整合起来,把来自各方面的因素联系在一起,以定量的形式刻画、从不同角度展现生命现象的本质,必然需要建立数学模型通过数学语言的抽象描述来实现。
第三个是系统性研究,生命系统的复杂性和整体性必然要求人们对多种组学数据进行整合,系统地、整体地来考虑,通过综合分析阐明生命活动的机制。
第四个是高性能计算,由于生命现象复杂,从生物学中提出的数学问题往往也十分复杂,需要进行大量计算工作,加之当前和今后计算生物学研究面临的都是大规模的组学数据,因此,高性能计算是今后研究和解决生物学问题的重要手段和工具。
计算生物学在解决生物学问题的同时,也促使其他学科向前发展。比如数学在生物学研究中得到广泛应用,同时从生物学研究中提出了许多数学问题,萌发出许多数学发展的生长点,正吸引着许多数学家从事研究。当然,更重要的是新一代专门的计算生物学研究人才的培养。正如克拉弗里厄(J. Claverie)指出[10],今后计算生物学的发展,最需要的可能不是将DNA看作图灵机磁带的计算机专家和数学家,而是新一代专业的计算生物学家,他们不但有较好的数学和计算机知识背景,而且在生物学一系列相关领域,如转录调控、分子酶学、结构生物学、发育生物学以及进化遗传学等等领域也具有坚实的知识基础。只有如此,我们才有可能在将来真正了解DNA序列在细胞水平的功能和进化,最终阐明生命活动的机制。
[1] Wikipedia. Computational biology[EB/OL]. [2009-3-25]. https://en.wikipedia.org/wiki/Computational_ biology.
[2] Bassi S,Gonzalez V,Parisi G. Computational biology in Argentina. PLoS Comput Biol,2007,3(12):e257.
[3] Surridge C. Computational biology. Nature, 2002. 420(6912):205.
[4] Kitano H. Computational systems biology. Nature, 2002. 420(6912): 206.
[5] 中科院上海分院. 东方科技论坛第60次学术研讨会会议纪要[EB/OL]. (2005-8-31)[2009-3-25]. https://www.biotech.org.cn.
[6] Voight B F,Kudaravalli S,Wen X,et al. A map of recent positive selection in the human genome. PLoS Biol, 2006,4(3): e72.
[7] Pritchard J K, Stephens M, Donnelly P. Inference of population structure using multilocus genotype data. Genetics, 2000,155(2):945.
[8] Li J Z,Absher D M,Tang H,et al. Worldwide human relationships inferred from genome-wide patterns of variation. Science, 2008,319(5866):1100.
[9] Jakobsson M, Scholz S W, Scheet P, et al. Genotype, haplotype and copy-number variation in worldwide human populations. Nature, 2008, 451(7181): 998.
[10] Claverie J M. From bioinformatics to computational biology. Genome Res, 2000,10(9):1277