子刊重磅,从零开首完整学习全基因组测序

金沙易记域名4166am 37

中国化工仪器网 行业动态】近期,《Nature
Biotechnology》上在线发表了一篇由西奈山伊坎医学院,生物信息学公司Sema4,纽约大学和佛罗里达大学的科学家们联合开展的研究结果。在这项新工作中,科学家使用PacBio长读长单分子实时测序技术(SMRT
测序技术)和新型算法进行微生物组菌株鉴定,提出不同种的微生物中广泛存在自己独特的DNA甲基化修饰模式,能被看成是一个天然的“条形码”,结合表观遗传标签和碱基序列信息获得更高分辨率的微生物组菌种分型。
微生物在我们的生活中无所不在,从键盘和手机的表面到我们身上和体内,例如我们的口腔或肠道,都可以找到它们。越来越多的研究表明,微生物的异常已经极大程度的影响了我们的健康情况,涉及包括传染病,癌症和诸如克罗恩病,溃疡性结肠炎和糖尿病等复杂疾病。高分辨率鉴定微生物组中的菌株类别,确定群落是否处于异常状态,就显得至关重要。
目前大多数微生物组菌种分型的技术如16S rRNA
测序或短读长测序技术提供的分辨率往往不足。一个微生物物种可能只会被归类为更广泛的遗传家族的一部分,而不是作为单独的遗传物种被识别出来。PacBio长读长单分子测序技术,其在获取超长读长同时,可利用测序过程聚合酶反应的动力学变化直接检测碱基修饰。其原理在于,聚合酶每合成一个碱基,都有一个时间段,而当模板碱基带有修饰时,就像行车过程中遇到路障聚合酶会慢下来,使带有修饰的碱基两个相邻的脉冲峰之间的距离和参考序列的距离之间的比值结果即IPD值大于1,由此就可以推断这个位置有修饰。
本文巧妙利用SMRT技术产生的表观遗传标签和序列信息进行微生物组分型。该方法分型更,可以纠正和补充传统技术限制所产生的菌株鉴定中的错误和不完全结果。更重要的是,该方法提供了将移动基因元件与其细菌宿主相连接的新方法,使科学家能够更准确地预测单独某个细菌菌种和菌株的毒力,抗生素抗性以及其他与生物医学相关的重要性状,具有潜在的临床应用价值。
西奈山遗传学和基因组学研究助理教授,本文通讯作者Gang Fang博士说
“生物医学界长期以来一直需要能够以高分辨率解决个别物种和品系的微生物组分析方法。我们发现,DNA甲基化模式可以被利用作为高度信息化的天然条形码,以帮助区分微生物物种,帮助将移动遗传元件与其宿主基因组相关联,并实现更的微生物组分析。”
在使用人工合成和真实的微生物样品的试点项目中,科学家们能够区分甚至是遗传特征特别近似的菌种。他们通过使用甲基化图谱连接相关的DNA序列数据,提供了关于单个生物体更全面的信息。该小组在中低复杂度的微生物群落中验证了该方法,目前正在开发更先进的技术来有效地解决环境微生物群体等高度复杂的微生物群落问题。
“这个项目展现了分析多种类型数据的复杂性和能力,并且产生了之前所使用的简单方法所无法实现的研究结果。”本篇文章共同作者,Sema4公司执行官,西奈山医学院院长Eric
Schadt
博士说。“生物学是复杂的,如果我们希望终将这些信息用于临床,我们的分析必须准确地反映这种复杂性。”
编辑点评
目前,三代测序设备已实现稳定性、小型化,价格也在不断下降,分析软件不断丰富,我们认为随着准确度提升、平行测序能力和酶活性等问题的解决,第三代测序技术是未来发展趋势,实现大规模商业化将是大势所趋。
(原标题:Nature重磅!PacBio 三代测序技术又一重大应用)

【原文】【作者】

金沙易记域名4166am 1


前言

前言

基因测序已是时下热门,目前除了华大基因之外,其他分布于全中国的大型测序平台(HiSeq
X
10)还有约10个,每个每年大概能完成1.8万人的高深度全基因组测序,加起来就是18万人,如果加上华大,可能需要翻倍!而且随着新技术的快速发展和成本的下降,WGS正变得越来越普遍!再加上国家十三五规划已经提出了构建大规模中国人群遗传队列图谱的要求,全基因组测序技术正在逐渐替代其它测序手段,这也是我打算写这一个系列的原因。

基因测序已是时下热门,目前除了华大基因之外,其他分布于全中国的大型测序平台(HiSeq
X
10)还有约10个,每个每年大概能完成1.8万人的高深度全基因组测序,加起来就是18万人,如果加上华大,可能需要翻倍!而且随着新技术的快速发展和成本的下降,WGS正变得越来越普遍!再加上国家十三五规划已经提出了构建大规模中国人群遗传队列图谱的要求,全基因组测序技术正在逐渐替代其它测序手段,这也是我打算写这一个系列的原因。

金沙易记域名4166am 2

HiSeq X 10分布(来源:转化医学网)

金沙易记域名4166am 3

首先,全基因组测序的英文是Whole Genome
Sequencing,简称WGS,目前默认指的是人类的全基因组测序。所谓全(Whole),指的就是
把物种细胞里面完整的基因组序列从第1个DNA开始一直到最后一个DNA,完完整整地检测出来,并排列好,因此这个技术几乎能够鉴定出基因组上任何类型的突变。对于人类来说,全基因组测序的价值是极大的,它的信息包含了所有基因和生命特征之间的内在关联性,当然也意味着更大的数据解读和更高的技术挑战。但,没关系,在这个系列中,我将从测序技术、常用文件解析,数据质控和流程构建等各个方面结合实际的例子,详细阐述什么是全基因组测序以及
该如何构造流程 分析全基因组测序(WGS)数据。

这是这一组学入门技术系列的第一篇(这篇文章修改自我以前的一篇博客,该文也已被各种形式转载),我首先将介绍当前的基因组测序原理及其发展历程。

HiSeq X 10分布(来源:转化医学网)

第一节 NGS测序技术

首先,全基因组测序的英文是Whole Genome
Sequencing,简称WGS,目前默认指的是人类的全基因组测序。所谓全(Whole),指的就是
把物种细胞里面完整的基因组序列从第1个DNA开始一直到最后一个DNA,完完整整地检测出来,并排列好,因此这个技术几乎能够鉴定出基因组上任何类型的突变。对于人类来说,全基因组测序的价值是极大的,它的信息包含了所有基因和生命特征之间的内在关联性,当然也意味着更大的数据解读和更高的技术挑战。但,没关系,在这个系列中,我将从测序技术、常用文件解析,数据质控和流程构建等各个方面结合实际的例子,详细阐述什么是全基因组测序以及
该如何构造流程 分析全基因组测序(WGS)数据。

在真正开始数据分析之前先知道我们是如何将那些原本存在于细胞中的DNA信息获取出来的——也就是测序的原理,总是有益的。

这是这一组学入门技术系列的第一篇(这篇文章修改自我以前的一篇博客,该文也已被各种形式转载),我首先将介绍当前的基因组测序原理及其发展历程。

测序,简单来说就是将DNA化学信号转变为计算机可处理的数字信号。

第一节 NGS测序技术

它从1977年的第一代Sanger技术发展至今,已经足有40年时间。在这个技术发展的更迭历程中,测序读长从长到短,再从短到长。虽然就当前形势看第二代短读长测序技术在全球范围内上占有着绝对的垄断位置,但第三测序技术也已在这几年快速地发展着。测序技术的每一次变革和突破,都对基因组学研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。所以在这个系列的第一篇里我将对当前最主流的测序技术以及它们的测序原理做一个全面的介绍。

在真正开始数据分析之前先知道我们是如何将那些原本存在于细胞中的DNA信息获取出来的——也就是测序的原理,总是有益的。

金沙易记域名4166am 4

测序,简单来说就是将DNA化学信号转变为计算机可处理的数字信号。

图1. 测序技术发展历程

它从1977年的第一代Sanger技术发展至今,已经足有40年时间。在这个技术发展的更迭历程中,测序读长从长到短,再从短到长。虽然就当前形势看第二代短读长测序技术在全球范围内上占有着绝对的垄断位置,但第三测序技术也已在这几年快速地发展着。测序技术的每一次变革和突破,都对基因组学研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。所以在这个系列的第一篇里我将对当前最主流的测序技术以及它们的测序原理做一个全面的介绍。

第一代测序技术

第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解).
并在1977年,由桑格老人家测定了第一个基因组序列——噬菌体phiX-174,全长只有5,375个碱基。虽然与今日的技术比起来根本不算什么,但自此之后,人类获得了窥探生命本质的能力,并以此为开端真正步入了基因组学时代。

金沙易记域名4166am 5

研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首个人类基因组图谱就是以改进了的Sanger法为基础进行测序的。Sanger法的核心原理是:由于ddNTP(4种带有荧光标记的A,C,G,T碱基)的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA的合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分别为:ddATP,ddCTP,ddGTP和ddTTP),然后利用凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列(图2)。这个网址为Sanger测序法制作了一个小短片,形象而生动。
值得注意的是,在测序技术起步发展的这一时期中,除了Sanger法之外还出现了一些其他的测序技术,如焦磷酸测序法、连接酶法等。其中,焦磷酸测序法是后来Roche公司454技术所使用的测序方法,而连接酶测序法是后来ABI公司SOLID使用的测序方法,但他们的核心手段都是利用了Sanger中可中断DNA合成反应的dNTP。

金沙易记域名4166am 6

图1. 测序技术发展历程

图2. Sanger测序发原理

第一代测序技术

第二代测序技术

第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解).
并在1977年,由桑格老人家测定了第一个基因组序列——噬菌体phiX-174,全长只有5,375个碱基。虽然与今日的技术比起来根本不算什么,但自此之后,人类获得了窥探生命本质的能力,并以此为开端真正步入了基因组学时代。

总的来说,第一代测序技术的主要特点是测序读长可达1,000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。因而第一代测序技术并不是理想的测序方法。经过不断的技术开发和改进,以Roche公司的454技术、illumina公司的Solexa/HiSeq技术和ABI公司的SOLID技术为标记的第二代测序技术诞生了。第二代测序技术在大幅提高了测序速度的同时,还大大地降低了测序成本,并且保持了高准确性,以前完成一个人类基因组的测序需要3年时间,而使用二代测序技术则仅仅需要1周,但其序列读长方面比起第一代测序技术则要短很多,大多只有100bp-150bp。图3.
是第一代和第二代测序技术测序成本作了一个简单的比较,可以看出自第二代测序技术发展出来之后,历史开始发生根本性的改变,测序的成本开始快速实现断崖式下降,也就是业内经常提到的
超摩尔定律 现象。

研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首个人类基因组图谱就是以改进了的Sanger法为基础进行测序的。Sanger法的核心原理是:由于ddNTP(4种带有荧光标记的A,C,G,T碱基)的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA的合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分别为:ddATP,ddCTP,ddGTP和ddTTP),然后利用凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列(图2)。这个网址为Sanger测序法制作了一个小短片,形象而生动。
值得注意的是,在测序技术起步发展的这一时期中,除了Sanger法之外还出现了一些其他的测序技术,如焦磷酸测序法、连接酶法等。其中,焦磷酸测序法是后来Roche公司454技术所使用的测序方法,而连接酶测序法是后来ABI公司SOLID使用的测序方法,但他们的核心手段都是利用了Sanger中可中断DNA合成反应的dNTP。

金沙易记域名4166am 7

图3. 测序成本比较(来源:NIH网站)

金沙易记域名4166am 8

接下来我以illumina(目前最大、最成功的NGS测序仪公司)的技术为基础简要单介绍第二代测序测序技术的原理和特点。

目前illumina的测序仪占全球75%以上,以HiSeq系列为主。它的机器采用的都是边合成边测序的方法,主要分为以下4个步骤:

图2. Sanger测序发原理

金沙易记域名4166am 9

第二代测序技术

图4. illumina测序原理(来源:illumina官网)

总的来说,第一代测序技术的主要特点是测序读长可达1,000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。因而第一代测序技术并不是理想的测序方法。经过不断的技术开发和改进,以Roche公司的454技术、illumina公司的Solexa/HiSeq技术和ABI公司的SOLID技术为标记的第二代测序技术诞生了。第二代测序技术在大幅提高了测序速度的同时,还大大地降低了测序成本,并且保持了高准确性,以前完成一个人类基因组的测序需要3年时间,而使用二代测序技术则仅仅需要1周,但其序列读长方面比起第一代测序技术则要短很多,大多只有100bp-150bp。图3.
是第一代和第二代测序技术测序成本作了一个简单的比较,可以看出自第二代测序技术发展出来之后,历史开始发生根本性的改变,测序的成本开始快速实现断崖式下降,也就是业内经常提到的
超摩尔定律 现象。

1)构建DNA测序文库,图4-1

简单来说就是把一堆乱糟糟的DNA分子用超声波打断成一定长度范围的小片段。目前除了一些特殊的需求之外,基本都是打断为300bp-800bp长的序列片段,并在这些小片段的两端添加上不同的接头【注】,构建出单链DNA文库,以备测序之用;

金沙易记域名4166am 10

【注】接头在illumina中一般分为P5和P7接头,其中一个带有和flowcell上的探针反向互补的序列,以完成待测序列和探针结合的作用,另外一个接头带有barcord序列以区分不同的样本。

2)测序流动槽(flowcell),图4-2

图3. 测序成本比较(来源:NIH网站)

flowcell是用于吸附流动DNA片段的槽道,也是核心的测序反应容器——所有的测序过程就发生在这里。当文库建好后,这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的槽道(称为lane)上。每个flowcell有8个lane(图5),每个lane的表面都附有很多接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对,这就是为什么flowcell能吸附建库后的DNA的原因,并能支持DNA在其表面进行桥式PCR的扩增,理论上这些lane之间是不会相互影响的。

接下来我以illumina(目前最大、最成功的NGS测序仪公司)的技术为基础简要单介绍第二代测序测序技术的原理和特点。

金沙易记域名4166am 11

目前illumina的测序仪占全球75%以上,以HiSeq系列为主。它的机器采用的都是边合成边测序的方法,主要分为以下4个步骤:

图5. flowcell(实物 VS 示意图)

3)桥式PCR扩增与变性

金沙易记域名4166am 12

金沙易记域名4166am 13

图6. 桥式PCR扩增(来源:illumina官网)

图4. illumina测序原理(来源:illumina官网)

<p align=”center”><a>图6.
桥式PCR扩增(来源:illumina官网)</a></p>

1)构建DNA测序文库,图4-1

这是NGS技术的一个核心特点。桥式PCR以flowcell表面所固定的序列为模板,进行桥形扩增,如图6所示。经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,这一过程的目的在于实现将单一碱基的信号强度进行放大,以达到测序所需的信号要求。

简单来说就是把一堆乱糟糟的DNA分子用超声波打断成一定长度范围的小片段。目前除了一些特殊的需求之外,基本都是打断为300bp-800bp长的序列片段,并在这些小片段的两端添加上不同的接头【注】,构建出单链DNA文库,以备测序之用;

4)测序,如图4-4和图7所示

【注】接头在illumina中一般分为P5和P7接头,其中一个带有和flowcell上的探针反向互补的序列,以完成待测序列和探针结合的作用,另外一个接头带有barcord序列以区分不同的样本。

金沙易记域名4166am 14

2)测序流动槽(flowcell),图4-2

图7. 边合成边测序(来源:illumina官网)

flowcell是用于吸附流动DNA片段的槽道,也是核心的测序反应容器——所有的测序过程就发生在这里。当文库建好后,这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的槽道(称为lane)上。每个flowcell有8个lane(图5),每个lane的表面都附有很多接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对,这就是为什么flowcell能吸附建库后的DNA的原因,并能支持DNA在其表面进行桥式PCR的扩增,理论上这些lane之间是不会相互影响的。

测序方法采用边合成边测序的方法。向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP(如同Sanger测序法)。这些dNTP的3’-OH被化学方法所保护,因而每次只能添加一个dNTP,这就确保了在测序过程中,一次只会被添加一个碱基。同时在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号(图7),并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP
3’-OH保护基团,以便能进行下一轮的测序反应。

Illumina的这种每次只添加一个dNTP的技术特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%左右。测序周期以人类基因组重测序为例,30x-50x测序深度对于Hisq系列需要3-5天时间,而对于2017年初最新推出的NovaSeq系列则只需要40个小时!

金沙易记域名4166am 15

表1.
测序量比较(双流动槽为例,如为单流动槽则测序量减少为下表的一半,时间不变)

金沙易记域名4166am 16

图5. flowcell(实物 VS 示意图)

novaseq_vs_hiseq

3)桥式PCR扩增与变性

一次测序的数据总产量的单位Gb,不是计算机字节,而是测序碱基的数目(Giga
base)

金沙易记域名4166am 17

金沙易记域名4166am 18

图8. NovaSeq与其他测序仪测序通量的比较(来源:illumina官网)

上面表1和图8是NovaSeq和其他测序系列的比较,数据相当好。按照这个数据量估算,一台NovaSeq
6000(S4)在跑满的情况下,一年就可以测序6400多人!而且按照以往的经验,illumina的官方公布的数据都是偏于保守的,我们在实际的使用过程中发现
高质量(Q30)的read其实占到了总数据的90%以上,远高于官方公布的75%,数据的总产量也同样更高

图6. 桥式PCR扩增(来源:illumina官网)

第三代测序技术

这是NGS技术的一个核心特点。桥式PCR以flowcell表面所固定的序列为模板,进行桥形扩增,如图6所示。经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,这一过程的目的在于实现将单一碱基的信号强度进行放大,以达到测序所需的信号要求。

这是一个新的里程碑。以PacBio公司的SMRT和Oxford Nanopore
Technologies的纳米孔单分子测序技术为标志,被称之为第三代测序技术。与前两代相比,最大的特点就是
单分子测序,测序过程无需进行PCR扩增,超长读长,以下图9是PacBio
SMRT技术的测序读长分布情况,平均达到10Kb-15Kb,是二代测序技术的100倍以上,值得注意的是在测序过程中这些序列的读长也不再是相等的,下文有解析!

4)测序,如图4-4和图7所示

金沙易记域名4166am 19

金沙易记域名4166am,图9. PacBio SMRT 测序read读长分布(来源:PacBio官网)

金沙易记域名4166am 20

PacBio SMRT

PacBio
SMRT技术其实也应用了边合成边测序的思想,并以SMRT芯片为测序载体(如同flowcell)。基本原理是:
DNA聚合酶和模板结合,用4色荧光标记A,C,G,T这4种碱基(即是dNTP)。在碱基的配对阶段,不同的碱基加入,会发出不同的光,根据光的波长与峰值可判断进入的碱基类型。

图7. 边合成边测序(来源:illumina官网)

金沙易记域名4166am 21

测序方法采用边合成边测序的方法。向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP(如同Sanger测序法)。这些dNTP的3’-OH被化学方法所保护,因而每次只能添加一个dNTP,这就确保了在测序过程中,一次只会被添加一个碱基。同时在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号(图7),并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP
3’-OH保护基团,以便能进行下一轮的测序反应。

图10. PacBio SMRT 测序原理

Illumina的这种每次只添加一个dNTP的技术特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%左右。测序周期以人类基因组重测序为例,30x-50x测序深度对于Hisq系列需要3-5天时间,而对于2017年初最新推出的NovaSeq系列则只需要40个小时!

这个DNA聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响。PacBio
SMRT技术的一个关键点是在于如何将反应信号与周围游离碱基的强大荧光背景区别出来。他们利用的是ZMW(零模波导孔)原理:如同微波炉壁上可看到的很多密集小孔。这些小孔的直径是有严格要求的,如果直径大于微波波长,能量就会在衍射效应的作用下穿透面板从而泄露出来(光波的衍射效应),从而与周围小孔相互干扰(光波的干涉)。如果孔径能够小于波长,那么能量就不会辐射到周围,而是保持直线状态,从而可起到保护的作用。同理,在一个反应管(SMRTCell:单分子实时反应孔)中有许多这样的圆形纳米小孔,,即
ZMW(零模波导孔),外径100多纳米,比检测激光波长小(数百纳米),激光从底部打上去后不会穿透小孔进入上方的溶液区,能量会被限制在一个小范围(体积20X
10-21
L)里(图10-A),正好足够覆盖需要检测的部分,使得信号仅仅只是来自于这个小反应区域,孔外过多的游离核苷酸单体依然留在黑暗中,从而实现将背景噪音降到最低的目的

表1.
测序量比较(双流动槽为例,如为单流动槽则测序量减少为下表的一半,时间不变)

PacBio
SMRT技术除了能够检测普通的碱基之外,还可以通过检测相邻两个碱基之间的测序时间,来检测碱基的表观修饰情况,如甲基化。因为假设某个碱基存在表观修饰,则通过聚合酶时的速度会减慢,那么相邻两峰之间的距离会增大,我们可以通过这个时间上的差异来检测表观甲基化修饰等信息(图11)。

金沙易记域名4166am 22

金沙易记域名4166am 23

图11. PacBio SMRT 检测甲基化修饰(来源:PacBio官网)

novaseq_vs_hiseq

SMRT技术的测序速度很快,每秒约10个dNTP。但这么快的测序速度也带来了一些明显的缺点——测序错误率比较高(这几乎是目前单分子测序技术的通病),可以达到10%-15%,而且以缺失序列和错位居多,但好在它的出错是随机的,并不会像第二代测序技术那样存在一定的碱基偏向,因此可以通过多次测序来进行有效纠错。

一次测序的数据总产量的单位Gb,不是计算机字节,而是测序碱基的数目(Giga
base)

Oxford Nanopore

Oxford Nanopore
的MinION是另一个比较受关注的第三代测序仪,俗称U盘测序仪,它真的很小,我亲手拿过,并拆过,图12(左)!这家公司开发的纳米单分子测序技术与以往的测序技术相比都不一样,它是基于电信号而不是光信号的测序技术!

金沙易记域名4166am 24

金沙易记域名4166am 25

图12. Oxford Nanopore MinION

图8. NovaSeq与其他测序仪测序通量的比较(来源:illumina官网)

这个技术的关键点在于他们所设计的一种特殊纳米孔,孔内共价结合分子接头。当DNA分子通过纳米孔时,它们使电荷发生变化,从而短暂地影响流过纳米孔的电流强度(每种碱基所影响的电流变化幅度是不同的),最后高灵敏度的电子设备检测到这些变化从而鉴定所通过的碱基(图13)。

上面表1和图8是NovaSeq和其他测序系列的比较,数据相当好。按照这个数据量估算,一台NovaSeq
6000(S4)在跑满的情况下,一年就可以测序6400多人!而且按照以往的经验,illumina的官方公布的数据都是偏于保守的,我们在实际的使用过程中发现
高质量(Q30)的read其实占到了总数据的90%以上,远高于官方公布的75%,数据的总产量也同样更高

金沙易记域名4166am 26

第三代测序技术

图13. MinION 测序原理

这是一个新的里程碑。以PacBio公司的SMRT和Oxford Nanopore
Technologies的纳米孔单分子测序技术为标志,被称之为第三代测序技术。与前两代相比,最大的特点就是
单分子测序,测序过程无需进行PCR扩增,超长读长,以下图9是PacBio
SMRT技术的测序读长分布情况,平均达到10Kb-15Kb,是二代测序技术的100倍以上,值得注意的是在测序过程中这些序列的读长也不再是相等的,下文有解析!

纳米孔测序以及其他第三代测序技术,有可能会彻底地解决目前第二代测序平台的诸多不足。另外,MinION的主要特点是:读长很长,而且比PacBio的都长得多,基本都是在几十kb上百kb以上,最新的数据显示可以达到900
kb!错误率是5%-15%,也是随机错误,MinION最大的特点除了极小的体积之外,就是数据将是可实时读取的,并且起始DNA在测序过程中不被破坏!这真是个可以上天的能力。然鹅,遗憾地多说几句,目前还没真正公布,细节也不知,自从2012开过一次发布会之后,就没什么声响了。

这种纳米孔单分子测序仪还有另一大特点,它能够 直接
读取出甲基化的胞嘧啶,而不必像二代测序方法那样需要事先对基因组进行bisulfite处理。这对于在基因组水平直接研究表观遗传相关现象有极大的帮助。下面是对PacBio和Oxford
Nanopore这两家第三代测序技术公司的测序仪做的一个简单比较,可以看出其实成本还是蛮高的,质量也只是还行,期待他们的下一次进化吧。

金沙易记域名4166am 27

金沙易记域名4166am 28

cost_compare

图9. PacBio SMRT 测序read读长分布(来源:PacBio官网)

总结

PacBio SMRT

以上,便是对各代测序技术的原理做了简要的阐述。在这个比较的过程中,可以看到测序成本,读长和通量是该测序技术先进与否的三个重要指标。其实第一代和第二代测序技术除了通量和成本上的差异之外,测序的核心原理都来自于边合成边测序的思想。第二代测序技术的优点是通量大大提升,成本大大减低,使得昔日王榭堂前燕,可以飞入寻常百姓家。总之,只有变成白菜价,才能真正对大众有意义;但它的缺点是所引入PCR过程会在一定程度上增加测序的错误率,并且具有系统偏向性,同时读长也比较短。第三代测序技术是为了解决第二代所存在的缺点而开发的,它的根本特点是单分子测序,不需要任何PCR的过程,这是为了能有效避免因PCR偏向性而导致的系统错误,同时提高读长,但这个技术还不是很成熟,需要再进化,成本也偏高。

PacBio
SMRT技术其实也应用了边合成边测序的思想,并以SMRT芯片为测序载体(如同flowcell)。基本原理是:
DNA聚合酶和模板结合,用4色荧光标记A,C,G,T这4种碱基(即是dNTP)。在碱基的配对阶段,不同的碱基加入,会发出不同的光,根据光的波长与峰值可判断进入的碱基类型。

金沙易记域名4166am 29

图14. 全球测序仪数量分布

金沙易记域名4166am 30

参考文献

  1. Sanger, F. & Nicklen, S. DNA sequencing with chain-terminating.
    74, 5463–5467 (1977).
  2. Mardis, E. R. Next-generation DNA sequencing methods. Annual
    review of genomics and human genetics
    9, 387–402 (2008).
  3. Shendure, J. & Ji, H. Next-generation DNA sequencing. Nature
    biotechnology
    26, 1135–45 (2008).
  4. Metzker, M. L. Sequencing technologies – the next generation.
    Nature reviews. Genetics 11, 31–46 (2010).
  5. Niedringhaus, T. P., Milanova, D., Kerby, M. B., Snyder, M. P. &
    Barron, A. E. Landscape of Next-Generation Sequencing
    Technologies. 4327–4341 (2011).
  6. Rothberg, J. M. et al. An integrated semiconductor device
    enabling non-optical genome sequencing. Nature 475, 348–52
    (2011).

图10. PacBio SMRT 测序原理

欢迎通过我的公众号(解螺旋的矿工),更及时了解更多信息

这个DNA聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响。PacBio
SMRT技术的一个关键点是在于如何将反应信号与周围游离碱基的强大荧光背景区别出来。他们利用的是ZMW(零模波导孔)原理:如同微波炉壁上可看到的很多密集小孔。这些小孔的直径是有严格要求的,如果直径大于微波波长,能量就会在衍射效应的作用下穿透面板从而泄露出来(光波的衍射效应),从而与周围小孔相互干扰(光波的干涉)。如果孔径能够小于波长,那么能量就不会辐射到周围,而是保持直线状态,从而可起到保护的作用。同理,在一个反应管(SMRTCell:单分子实时反应孔)中有许多这样的圆形纳米小孔,,即
ZMW(零模波导孔),外径100多纳米,比检测激光波长小(数百纳米),激光从底部打上去后不会穿透小孔进入上方的溶液区,能量会被限制在一个小范围(体积20X
10-21
L)里(图10-A),正好足够覆盖需要检测的部分,使得信号仅仅只是来自于这个小反应区域,孔外过多的游离核苷酸单体依然留在黑暗中,从而实现将背景噪音降到最低的目的

金沙易记域名4166am 31

PacBio
SMRT技术除了能够检测普通的碱基之外,还可以通过检测相邻两个碱基之间的测序时间,来检测碱基的表观修饰情况,如甲基化。因为假设某个碱基存在表观修饰,则通过聚合酶时的速度会减慢,那么相邻两峰之间的距离会增大,我们可以通过这个时间上的差异来检测表观甲基化修饰等信息(图11)。

解螺旋的矿工

金沙易记域名4166am 32

图11. PacBio SMRT 检测甲基化修饰(来源:PacBio官网)

SMRT技术的测序速度很快,每秒约10个dNTP。但这么快的测序速度也带来了一些明显的缺点——测序错误率比较高(这几乎是目前单分子测序技术的通病),可以达到10%-15%,而且以缺失序列和错位居多,但好在它的出错是随机的,并不会像第二代测序技术那样存在一定的碱基偏向,因此可以通过多次测序来进行有效纠错。

Oxford Nanopore

Oxford Nanopore
的MinION是另一个比较受关注的第三代测序仪,俗称U盘测序仪,它真的很小,我亲手拿过,并拆过,图12(左)!这家公司开发的纳米单分子测序技术与以往的测序技术相比都不一样,它是基于电信号而不是光信号的测序技术!

金沙易记域名4166am 33

图12. Oxford Nanopore MinION

这个技术的关键点在于他们所设计的一种特殊纳米孔,孔内共价结合分子接头。当DNA分子通过纳米孔时,它们使电荷发生变化,从而短暂地影响流过纳米孔的电流强度(每种碱基所影响的电流变化幅度是不同的),最后高灵敏度的电子设备检测到这些变化从而鉴定所通过的碱基(图13)。

金沙易记域名4166am 34

图13. MinION 测序原理

纳米孔测序以及其他第三代测序技术,有可能会彻底地解决目前第二代测序平台的诸多不足。另外,MinION的主要特点是:读长很长,而且比PacBio的都长得多,基本都是在几十kb上百kb以上,最新的数据显示可以达到900
kb!错误率是5%-15%,也是随机错误,MinION最大的特点除了极小的体积之外,就是数据将是可实时读取的,并且起始DNA在测序过程中不被破坏!这真是个可以上天的能力。然鹅,遗憾地多说几句,目前还没真正公布,细节也不知,自从2012开过一次发布会之后,就没什么声响了。

这种纳米孔单分子测序仪还有另一大特点,它能够 直接
读取出甲基化的胞嘧啶,而不必像二代测序方法那样需要事先对基因组进行bisulfite处理。这对于在基因组水平直接研究表观遗传相关现象有极大的帮助。下面是对PacBio和Oxford
Nanopore这两家第三代测序技术公司的测序仪做的一个简单比较,可以看出其实成本还是蛮高的,质量也只是还行,期待他们的下一次进化吧。

金沙易记域名4166am 35

cost_compare

总结

以上,便是对各代测序技术的原理做了简要的阐述。在这个比较的过程中,可以看到测序成本,读长和通量是该测序技术先进与否的三个重要指标。其实第一代和第二代测序技术除了通量和成本上的差异之外,测序的核心原理都来自于边合成边测序的思想。第二代测序技术的优点是通量大大提升,成本大大减低,使得昔日王榭堂前燕,可以飞入寻常百姓家。总之,只有变成白菜价,才能真正对大众有意义;但它的缺点是所引入PCR过程会在一定程度上增加测序的错误率,并且具有系统偏向性,同时读长也比较短。第三代测序技术是为了解决第二代所存在的缺点而开发的,它的根本特点是单分子测序,不需要任何PCR的过程,这是为了能有效避免因PCR偏向性而导致的系统错误,同时提高读长,但这个技术还不是很成熟,需要再进化,成本也偏高。

金沙易记域名4166am 36

图14. 全球测序仪数量分布

参考文献

  1. Sanger, F. & Nicklen, S. DNA sequencing with chain-terminating.
    74, 5463–5467 (1977).
  2. Mardis, E. R. Next-generation DNA sequencing methods. Annual
    review of genomics and human genetics**
    9**, 387–402 (2008).
  3. Shendure, J. & Ji, H. Next-generation DNA sequencing. Nature
    biotechnology
    26, 1135–45 (2008).
  4. Metzker, M. L. Sequencing technologies – the next generation.
    Nature reviews. Genetics 11, 31–46 (2010).
  5. Niedringhaus, T. P., Milanova, D., Kerby, M. B., Snyder, M. P. &
    Barron, A. E. Landscape of Next-Generation Sequencing
    Technologies. 4327–4341 (2011).
  6. Rothberg, J. M. et al. An integrated semiconductor device
    enabling non-optical genome sequencing. Nature 475, 348–52
    (2011).

欢迎通过公众号(解螺旋的矿工),更及时了解更多信息

金沙易记域名4166am 37

解螺旋的矿工