《生物信息学 第四版》读书笔记·ch01 生物信息学的概念及发展历史
基于序列的生物学时代已经到来。
1.1 生物信息学发展历史
人类基因组计划为生物信息学提供了兴盛的契机。
生物信息学常见期刊,见P1原文。
绝大部分核酸、蛋白质数据库由美国、欧洲、日本三家数据库系统产生,共同组成了Genbank/ENA/DDBJ国际核酸序列数据库。
表1-1(P2)列出了生命科学、计算机科学、生物信息学的大事。
1.2 生物信息学的研究领域
生物信息学是一门工程技术学科,其研究内容与研究对象或客体(应用方面)是不同的。
生物信息学的研究对象是生物数据,最经典的是分子生物学数据,即DNA序列。后基因组时代将从系统角度研究生命过程的各个层次,包括微观、宏观,着重于序列、结构、功能、应用的功能、应用部分。
生物信息学参与了生命科学各个领域的研究,包括:
- 分子生物学和细胞生物学。以DNA-RNA-蛋白质为研究对象,分析编码区、非编码区的信息结构、编码特征,研究信息调节、表达规律等。
- 生物物理学。研究生物的物理形态,涉及生物能学、结构生物学、生物力学、生物控制论、电生理学等。
- 脑和神经科学。
- 医药学。
- 农林牧渔学。
- 分子和生态进化。
1.3 生物信息学的主要应用
生物信息学数据库。生物信息学的一大部分工作在收集、存储、管理、共享生物数据,即生物信息学数据库,例如NCBI、EMBL、KEGG等。
建设数据库。数据库建设是生物信息学研究的基础。建立自己的数据库,必须分析数据库的存储形式、复杂程度,选择什么数据库,怎么开发信息交流平台,是否提供分析程序等诸多因素。
数据库整合与数据挖掘。整合多个数据库提供综合服务时,有超链接、拷贝再整理等方法。考虑使用联合数据库系统、基于网络的远程查询等方式。整合时,需要从语义学角度考虑不同数据库的一致性问题,Ontology技术可能解决这个问题。
序列分析。包括序列比对、基因序列注释。
序列比对。比较序列的目的是发现相似序列,得到保守区域,可能有结构、功能、进化上的关系。相关算法有BLAST、FASTA、PSI-BLAST、megaBLAST等。
基因序列注释。对物种全基因组进行自动注释。例如Ensembl是EBI、Sanger合作的项目,根据已有蛋白质证据对DNA序列进行自动注释。
比较基因组学。识别、建立不同生物基因、基因组特征的联系,研究不同物种间的基因组结构的关系和功能。
基因和蛋白表达分析。测量基因表达的技术有微阵列、表达序列标签、基因表达连续分析、大规模平行信号测序、多元原位杂交。蛋白质微阵列、高通量质谱分析可用于高通量分析蛋白质。
生物芯片大规模功能表达谱分析。生物芯片可用于基因表达、蛋白质反应监测,获得功能表达谱,还可以用于DNA、蛋白质快速检测、药物筛选等。现在,已经普遍使用基于NGS的RNA-seq进行转录组表达谱分析。
蛋白质结构预测。通过氨基酸序列预测蛋白质三维结构,可用于药物设计、酶设计等方面。
蛋白质互作。鉴定蛋白质互作的技术有免疫共沉淀、酵母双杂交、双分子荧光互补等。X射线晶体衍射、核磁共振等技术可高分辨率展示蛋白质在空间上如何结合。利用计算机可基于蛋白质的各种性质预测蛋白质互作。
表型组学。通过评估生物体形态、生理和生化特征、遗传、表观遗传、环境因素等,对表型进行高通量组学分析。在植物学研究中应用广泛,被认为可能是未来粮食安全和第二次绿色革命的关键。
生物系统模拟。Leroy Hood认为,系统生物学是确定、分析、整合生物系统在遗传、环境扰动下所有内部元件间相互作用关系的一门学科。
代谢网络建模分析。代谢网络涉及生化反应途径、基因调控、信号转导过程等。网络生物学是研究大规模网络的生命过程,包括预测调控网络、网络普遍性分析、建立模型分析等。与代谢分析直接相关的是系统生物学研究,是后基因组时代最突出的研究方向。
计算进化生物学。通过DNA、全基因组研究大量进化事件。
生物多样性研究。生物多样性数据库集合了物种的各种信息。生信可以保存大量物种的遗传信息,为濒危物种建立基因库。
合成生物学。一般认为,合成生物学是依据生物学、化学、物理学、工程学等原理设计的优越的、新型的生物系统。
生物医学文本挖掘。融合自然语言处理技术的生物医学文本挖掘,包括生物医学命名实体识别、文本分类、关系抽取、构建知识图谱等。
1.4 生信面临的挑战
生信是基于分子生物学与多种学科交叉而成的新学科,现在仍表现为各种学科的简单堆砌,相互之间的联系并不是特别紧密。在处理大规模数据上,没有行之有效的一般性方法,对大规模数据内在的生成机制也没有完全明了,使得生物信息学研究在短时间内很难有突破性结果。要得到真正解决,可能还得从生物学自身,从数学上的新思路获得本质性的动力。
很难预测生信在未来几十年给生物学的发展带来什么样的根本性突破,但人类科学研究史表明,科学数据的大量积累将导致重大的科学规律的发现。
统计学原理表明,在一定程度上,统计结果的显著性与数据量的对数成正比。因此,随着数据库中数据量的增长,基于数据库的研究工作必将有所突破。
后基因组研究阶段,将致力于蛋白质功能的蛋白质组学、功能蛋白质组学。
参考
《生物信息学》第四版 陈铭 chapter01