基因组这个术语由德国汉堡大学植物学教授Hans Winkler于1920年提出,在分子生物学和遗传学领域,基因组是指生物体所有遗传物质的总和,这些遗传物质包括RNA(病毒RNA)和DNA,DNA包括核基因组DNA、线粒体基因组DNA、叶绿体基因组DNA和其它额外基因组序列(如B染色体、染色体外环状DNA-eccDNA等)。
研究基因组的科学称为基因组学。1980年,噬菌体Φ-X174;(5,368 碱基对)完全测序,成为第一个测定的基因组。1990年代随着几个物种基因组计划的启动,基因组学取得长足发展。1995年,嗜血流感菌(Haemophilus influenzae,1.8Mb)测序完成,是第一个测定的自由生活物种。从这时起,基因组测序工作迅速展开。2001年,人类基因组计划公布了人类基因组草图,为基因组学研究揭开新的一页。
基因组学是研究生物基因组的组成,基因组内各基因的精确结构、相互关系及表达调控的科学。基因组学研究包括两方面的内容:以全基因组测序为目标的结构基因组学(structural genomics)和以基因功能鉴定为目标的功能基因组学(functional genomics),又被称为后基因组(postgenome)研究。基因组de novo测序就是结构基因组学的一部分,指的是把物种细胞中完整的基因组序列从第1个核苷酸开始一直到最后一个核苷酸,完完整整地检测出来,并排列好。真核生物基因组de novo测序通常是指对核基因组进行de novo测序。基因组序列图谱完成后,可以构建该物种的基因组数据库,为后续从基因组学水平研究物种的生长、发育、进化、起源及特定环境适应性奠定基础,同时也为该物种的后基因组学研究搭建一个高效的平台,为后续的基因挖掘、功能验证提供DNA序列信息,从而对基础生物学、分子育种、遗传基因改良等方面的研究起到巨大的推动作用。
基因组de novo测序包括:基因组调研、基因组测序、基因组装、基因组组装质量评估、基因组注释和基因组注释质量评估。
在进行基因组de novo测序项目中,测序前,需要对该物种的基因组进行详细的调研(Survey),以帮助我们正确地制定基因组测序和后续分析策略,调研的内容包括但不限于以下信息:
(1)DNA提取时污染的可能性大小,即共生、寄生等情况;
(2)染色体条数;
(3)基因组倍型,是二倍体还是多倍体等;
(4)基因组大小,可通过网站查询(http://data.kew.org/cvalues查询植物基因组大小,http://www.genomesize.com 查询动物基因组大小),流式细胞仪方法,或者低深度测序Survey分析(即通过 K-mer 分析,从数学的角度评估基因组的大小,杂合以及重复等信息)。
小片段文库是指插入片段小于1Kb的文库,小片段文库产生的Reads(即我们通常说的读长的意思,它是指高通量测序平台直接产生的DNA序列)主要用于拼接成Contig(指Reads基于Overlap关系,拼接获得的长的序列)和组装结果纠错,我们通常需要不同梯度下的片段如250bp、350bp、500bp等。大片段文库是指插入片段大于1Kb的文库,大片段文库主要是用于将Contig进一步组装成Scaffold(是指将获得的Contig根据大片段文库的Pair-end关系,将Contig进一步组装成更长的序列)。文库类型通常有2Kb、5Kb、10Kb、15Kb以及20Kb等。10X Genomics、BioNano、PacBio和ONT等测序平台还有自己的建库方式,用于满足各自仪器设备的需求。测序方式有:Illumina、10X Genomics、BioNano、PacBio、ONT、HiFi、HiC。
对于测得的序列,例如通过Nanopore平台进行测序,我们直接获得的是平均长度在几十K的Reads;de novo测序最重要的目的就是对这些Reads进行组装、拼接,最终绘制出这个物种的基因组图谱。对于利用高通量技术对物种基因组进行de novo测序,很多物种得到的基因组组装序列都是一些长长短短的Scaffolds以及一些未组装的Reads。如果要组装到染色体水平则需要借助遗传图谱或其它测序技术(如HiC测序技术等)的辅助。对于一些高重复、高杂合的基因组区域,由于目前基因组组装算法以及测序技术的限制,这些基因组区域往往组装的效果不是特别理想。
Contig N50是指将拼接得到的Contig从长到短进行排列,排列成一条线。当长度达到总长度一半的时候,此时该条Contig的长度即为ContigN50。
Scaffold N50是将组装得到的Scaffold从长到短进行排列,当长度达到总长度一半的时候,此时该条Scaffold的长度即Scaffold N50。
一般来说Contig N50和Scaffold N50的长度越长,基因组组装的质量也就越好;但是Contig N50和Scaffold N50也不是唯一评估标准,还要看基因组的拼接的完整性等;除用Contig N50 和 Scaffold N50对基因组进行评估外,还会对基因组进行序列一致性评估序列完整性评估、准确性评估、核心蛋白编码基因完整性评估等。
对于组装得到的序列其实是一系列的ATCG的排列组合,那如何解读序列中的信息呢?我们要做的是对基因组进行注释,注释主要是对基因组中的重复序列、非编码基因结构、蛋白编码基因结构、基因功能进行注释。
对基因组注释结果进行评估,如:注释结果中的必需基因含量是否合理,基因数目是否合理,可信度高不高等,以此来评估注释结果的质量。
应用最新的测序平台,完成super-scaffold或染色体级别的组装,super-scaffold/染色体内部含有gap区域,是目前大多真核生物基因组的组装结果。
测序策略:HiFi+HiC;NGS+ONT+HiC;NGS+QNome+HiC。
应用最新的测序平台,完成染色体级别的组装。
对于真核生物而言,目前没有绝对的完成图,因此目前真核生物的完成图也包含少量的gap区域。
测序策略:HiFi+ONT Ultra-long+HiC;HiFi+QNome+HiC。
利用已有基因组测序数据(有条件的可以利用更新的平台,补测数据),完成更新版本和/或更高质量的基因组组装版本。
公众号
电话咨询
返回顶部