文章

《生物信息学 第四版》读书笔记·ch02 生物学数据库及其检索

《生物信息学 第四版》读书笔记·ch02 生物学数据库及其检索

组学发展过程中,如何有效建立与使用数据库实现大批量数据的存储、处理、检索是科学家首要解决的问题。因此,开发与分子生物学大规模数据有关的生物学数据库已经成为生物信息学研究中最基本的一项任务

2.1 生物学数据库简介

数据库,是一类用于存储、管理数据的文档,统一管理的数据集合,存储形式有利于数据信息的检索与调用。数据库开发的主要任务是将数据以结构化记录的形式进行组织,便于信息检索

数据库检索,指利用查询语言在整个数据库中查找符合条件的所有记录。

生物学数据库使用了以下4种不同类型的数据库结构

  • 平面文件(flat file format)。将多个记录、记录的字段通过约定的分隔符区分。
  • 数据库管理系统,具有帮助查询数据库记录间隐含关系的操作指令,分为关系型数据库、对象型数据库,见第二节、ch13.3。
  • 基于Internet平台的XML

生物学数据库的类型。根据存放数据的类型分为序列(genbank、swiss-prot等)、结构(PDB等)、文献(PubMed等)、序列特征(PROS-ITE、Pfam等)、基因组图谱(MapViewer、Ensembl等)、表达谱等多种数据库。根据存储内容分为一级数据库、二级数据库、专用数据库。一级数据库属于档案数据库(archive),主要内容是实验的原始结果及基本说明,例如genbank、EMBL、DDBJ、PDB等。二级库在一级库基础上进行了计算处理,增加了人为注释,例如RefSeq、UniProt的KnowledgeBase。

查找与研究相关的生物学资源的方式如下:

  • 公共搜索引擎。
  • 生物信息学门户站点,例如NCBI、EBI、ExPASy。
  • NAR杂志的数据库专辑、网络服务器专辑。

重要的生物信息学站点,包括:

  • NCBI。数据资源包括数据库、数据下载、数据提交、分析工具。
  • EBI。
  • EMBnet(欧洲分子生物学信息网络)。

2.2 生物学数据库数据存储格式

信息在计算机中以字节形式存储。获取信息需要控制数据格式(数据编译为字节的方式)、编解码程序。除非现有的程序可以方便地存储指定格式的数据,否则复杂、全能的数据格式没有意义。类似地,简单、可被大多数简单工具解析的数据格式,其简单性也可能成为限制其发展的因素

生物信息学数据常见的格式有:平面文件格式、XML格式、JSON格式、关系型数据库

平面文件格式(flat file),即纯文本文件。由纯文本构成,通常使用ASCII、Unicode等字符集中的字符。优势在于通用性,但存储空间上不存在优势。解决了跨平台的传递、转换问题,但检索信息比较复杂。

语法分析,指用于定义和提取指定文本特定部分或语法成分的计算手段。具体的通过算法实现,算法遵从一系列语法规则,识别输入文本中的有用部分。对输入文本与规则进行匹配,失败则拒绝接受,成功则分解为几部分。例如基于正则表达式的语法分析,通过正则表达式匹配输入文本

可扩展标记语言(XML,entensible markup language)。一种在文本文件中组织数据的语言,万维网联盟定义并建议将XML作为通用的独立平台结构化文件。一个XML文件代表一颗嵌套的信息树,始于根节点,每个节点包含1串子节点或属性。XML作为数据格式广泛用于生信领域,例如PubMed、MeSH(医学主题词表)。XML在软件应用中也广泛使用,例如SOAP协议(简易对象存储协议)。

DTD(文件类型定义),定义了一类遵守一组规则的XML文档,由作者自行定义规则,以独立文件存储。文档类型声明指出XML文档依附于DTD定义的结构。

DOM(文档对象模型),是XML文档的概念表征,是以树状形式将数据存储于XML的软件模型。DOM是通用的,对DOM对象的操作本质上是对XML文档的处理。

JSON(JavaScript Object Notation),一种开放的标准文件格式和数据交换格式,用人类可读的文本存储key-value对、数组等。基础数据类型有数字、字符串、布尔值、数组、对象、null

关系型数据库。根据特定的关系模型组织数据。基本单位为表,由行、列组成,每行表示一个记录,每列表示记录的一个属性,具有特定的数据类型。每张表通常设置ID列作为索引。数据库通常包含多张表,通过关系、限制来连接,确保数据一致性。关系型数据库模型为复杂关系定义和数据联系设计,保证数据真实反映它记录的域的结构

数据库建模,指将数据放入关系型数据库的特定域中,包含许多权衡。首先定义表、列的格式,其次是定义关系、数据规范化。规范化的目的在于移除冗余数据,实践上看,其目的在冗余、性能中权衡出最佳情况,由数据库系统类型、使用频率、最常用数据库决定。建模的结果是形成数据库结构纲目(database schema),即表和表的关系

关系数据库管理系统(RDBMS)。实现数据关联的系统,通过SQL提供搜索、检索数据。用户控制导入过程,确定被RDBMS引入、再利用的部分,具有一定灵活性。但导入过程可能需要大量时间、资源,操作大量数据时也需要进一步优化。生物数据可能随着时间发生变动,因此XML等格式正逐渐流行。

生信的关系数据库有Ensembl、Gene Ontology数据库。

2.3 生物学数据库检索

生物学数据库除了提供存储、管理之外,还应该提供有效的、界面友好的检索、接入系统

Entrez。NCBI开发、维护的数据库检索系统,利用了公共数据库记录之间的逻辑关系,从多种类型数据中找到所需信息。具体用法见P35。

元数据库(meta-database),指描述数据库的数据库,例如:

参考

《生物信息学》第四版 陈铭 chapter02

本文由作者按照 CC BY 4.0 进行授权

热门标签