建材秒知道
登录
建材号 > 设计 > 正文

单细胞测序的设计与分析

痴情的斑马
忧心的咖啡
2023-01-26 05:49:03

单细胞测序的设计与分析

最佳答案
洁净的小馒头
欣慰的鞋垫
2025-12-14 08:22:46

缩略词表:

fluorescence-activated cell sorting (FACS) —— 流式细胞荧光分选技术

whole-genome amplification (WGA)—— 全基因组扩增技术

multiple displacement amplification (MDA) —— 多重置换扩增

multiple annealing and looping-based amplification cycles(MALBAC)—— 多次退火环状循环扩增技术

micro-well displacement amplification system (MIDAS) —— 微孔置换扩增系统

UMI (Unique molecularidentifier)——特异性分子标签(UMI)

由于哺乳动物单细胞DNA含量少于10pg,所以全基因组扩增技术对于单细胞测序和微阵列分析至关重要。

目前WGA有以下几种技术:

PCR、MDA、MALBAC

但是所有方法都会引入基因组覆盖度不均造成的技术伪像。尤其是GC偏差、碱基错配、DNA嵌合体。所以我们应该根据所需的结果选择合适的方法。

例如,基于随机引物PCR的方法可实现高度均匀的扩增,但产量高

仅覆盖基因组的稀疏区域,因此非常适合长度少于长度60 kb的低分辨率拷贝数变异检测。

MDA具有更好的基因组覆盖度,适用于SNP的检测,但是由于MDA复制的高度不均匀性,做CNV检测则有很强的不确定性。

PCR和MDA都会产生嵌合DNA分子会被认为是插入或结构重排。

MDA中嵌合的发生机制

Lasken, R.S., Stockwell, T.B. Mechanism of chimera formation during the Multiple Displacement Amplification reaction. BMC Biotechnol 7, 19 (2007).

MALBAC复制均匀且覆盖度高

先进行预扩增,MALBAC引物随机退火至DNA模板。在高温下具有置换活性的聚合酶会放大模板,生成“半扩增子”。随着扩增和退火过程的重复,半扩增子被扩增为完整的扩增子,其3'端与5'端互补。结果,全扩增子末端杂交形成环状结构,抑制了环状扩增子的进一步扩增,而仅半扩增子和基因组DNA经历了扩增。经过5次的预扩增之后进入PCR流程。最终可获得93%的基因组覆盖度和平均25×的测序深度。

与MDA相比提高了复制的均一性,等位基因缺失率大大降低。 (1% for MALBAC versus 31%–65% for MDA )。MALBAC的假阳性率(4 ×10-5)这是由于聚合酶的忠实度较低,可以多用几个细胞做重复以降低假阳性率。MALBAC适用于同样表征的细胞的SNPs和CNVs检测。

MIDAS相比于MDA所需样本量减少1000倍,增加对模板的忠实度,减少污染。纳米孔反应也有这样的作用,假阳性率降低至4×10-9.

WGA之后的定量可由测序或者基因芯片完成。

首先要比对到参考基因组上,参考基因组可以从UCSC genome browser或者ensembl获得。

再比对之前需要检查reads的质量,切除低质量序列以及接头。长度过短的reads也应该舍弃以避免多重比对。之后比对到基因组上保留只比对到一个位置的reads,对于多重比对的reads有两种处理方法。一是舍弃,二是计算权重(每个reads的权重总和为1)。

对于拷贝数变异的检测,将肿瘤细胞和肺肿瘤细胞的拷贝数用归一化因子标准化之后进行比较,通常使用genome analysis toolkit (GATK)。为增加可信度一般会设置重复,另外细胞周期也会对CNV产生影响,应使用G1或G2/M期细胞,避免使用S期细胞。

单细胞测序面临的主要问题就是获得的遗传物质的量很少,上面我们已经介绍了扩增方法,但是这些方法都存在扩增偏差,这会使不同基因的mRNA的丰度受到影响。

在过去,扩增的单细胞RNA用微阵列芯片检测(2002)。不过目前已经发展出一些灵敏度较高的单细胞测序技术,第一个单细胞测序方案发布于2009 Surani的实验室。最初的扩增方法是利用带有特殊锚定序列的poly(T)引物捕获以及反转录poly(A)RNA,获得的单链cDNA经过多聚腺苷酸化再结合带有特殊锚定序列的poly(T)引物,得到双链cDNA。cDNA通过针对锚定序列的引物进行PCR扩增,在建立文库之前将产物片段化。

A. CEL-seq

多聚腺苷酸mRNA被oligo dT引物反转录,该引物含有Illumina P1 接头,细胞条形码,T7启动子,通常还会含有一个UMI。紧接着进行第二条链合成,从T7启动子开始,之后双链cDNA进行片段化,连接上含有Illumina P2接头。对reads的测序开始于mRNA的3‘端。

B. STRT-seq

使用Oligo-dT引物对多聚腺苷酸RNA逆转录,该引物还包含Illumina P1 接头和Pvul 限制性酶切位点。用一段带有Illumina P1 接头、UMI和template switch oligo (TSO)的引物接在转录本的5’端,然后合成双链cDNA。双链cDNA通过与Illumina P1 接头互补的引物扩增,片段化产物,用Tn5转座酶在片段上链接Illumina P2接头以及细胞条形码。3‘端被Pvul限制酶消化,仅保留5’端进行测序。

C. Smart-seq2

使用含有Oligo-dT的PCR引物对多聚腺苷酸RNA逆转录,同样的引物作为TSO的一部分被添加在模板链5‘末端。PCR扩增后,产物片段化,由Tn5转座酶在3’和5‘末端分别加上不同的引物。新一轮的扩增使用Nextera sequencing primers ,这样可以实现全长覆盖,但是没有UMI定量。

此外还有:液滴测序(Drop-seq),可以快速低成本的测多个细胞,并且多个细胞同时出现在一个液滴中也避免了上样量过低对测序造成的影响。

http://www.merrybio.com.cn/blog/Drop-seq.html

https://www.jianshu.com/p/0800a07cfa37

为了量化敏感度,我们通常会采用已知浓度的外源spike-in RNA

https://www.youtube.com/watch?v=YVlrzKMJ2uc

加入spike-in的浓度通常为mRNA总数的1%~5%,通常会使用ERCC的产品,这些涉及的RNA比哺乳动物的RNA短,有较短的poly(A)尾,缺乏5’ 帽。

分析的第一步就是进行质控(fastqc)并修剪(bwa)reads,对于人和鼠来说最终应保留长度>35bp的reads。

在比对到参考基因组之前,应确保barcode\UMI等primer来源的序列都被除去。不过对于1对reads来说,其中一条read保留索引信息,另一条read比对到参考基因组上[见前文图:三种测序方法]。通常,可以将读段映射到基因组,然后通过将基因组的读段与基因模型注释相交来进行表达定量。建议仅保留单一比对的reads。

由于单细胞测序对基因的覆盖度低,不同转录本的鉴定(Cufflinks)成为一个难题。如果异构体的信息对于你的研究不是必须的,你可以把这些异构体合并到同一个基因位点。

除了依照参考文献,更重要的是考虑实验策略。如果我们的测序方法回富集3‘或5’端的序列,那么基因注释的质量就会对实验的里灵敏度产生很大的影响。因为基因模型在转录本的两端可信度较低,改善3‘或5’端注释可能会更好,尤其是对于那些非标准的模式生物。例如,Junker等人运用一种修正的CEL-seq进行长读段低深度测序以精确检测斑马鱼胚胎的3’poly(A)位点。

一旦细胞中的所有的reads或者转录本被计数,我们建议滤除reads含量低的细胞。这可能是样品准备过程造成的问题,比如细胞凋亡、应激、不当裂解、RNA降解或者扩增测序的效率较低。每个细胞中reads的总数或者UMIs代表的转录本的数量,最先预示着样本的质量。应该设置阈值以去除read counts分布左尾的细胞,防范由低质量细胞产生的伪像。

spike-in RNA 的表达可以用来鉴别和剔除测序效率不高的样本。由于所有样品的spike-in RNA数量应相同,因此鉴定低产量样品非常简单。

最新回答
香蕉枕头
爱听歌的夕阳
2025-12-14 08:22:46

PCR产物直接测序技术现已成为分子生物学和基因组学研究中的一个重要技术,广泛用于基因突变检测、遗传性疾病诊断、单核苷酸多态性研究、基因组重叠序列群等.与传统克隆测序技术相比较,直接对PCR扩增的DNA进行测序,省去了耗时的克隆步骤,避免了传统的细菌培养,模板提取等重复性操作,可以从少量的原始样品中得到正确的DNA序列信息.PCR产物直接测序技术具有快速、简便、稳定经济的优点.

试验试剂

PCR扩增的双链DNA模板

长约20个核苷酸的DNA引物

DNA聚合酶

测序胶

0.1mol/L DDT

α-32P-dATP

dNTP/ddNTP混合物(80μmol/L/8μmol/L)

dNTP(dCTP、dGTP 、dTTP 各0.75μmol/L)

测序反应缓冲液:40mmol/L Tris-HCl(pH7.5),20mmol/L MgCl2,50mmol/L NaCl

终止缓冲液:95% 甲酰胺,20mmol/L EDTA,0.05% 溴酚蓝,0.05% 二甲苯腈

试验步骤:

1、 4个微量离心管中各加入dNTP/ddNTP混合物2.5μl,混合物37OC温浴5min,备用.

2、 在一个空的微量离心管中加入1pmol的PCR扩增双链DNA,10pmol测序引物,2μl 5×测序缓冲液,加双蒸水至总体积10μl,96OC加热8min,冰浴泠却1min,4OC 10000g离心10s.

3、 加入2μl预冷的标记混合物(dCTP、dGTP 、dTTP 各0.75μmol/L),α-32P-dATP 5μCi,1μl 0.1mol/L DDT,测序酶2U,加水至15μl,混匀后置冰上2min,标记新合成的DNA链.

4、 在第1步骤的4个管中各加入3.5μl标记反应混合物,37OC温浴5min.每管各加入4μl终止液.

5、 样品在80OC的水浴中热变性5min,每一泳道加2μl 加到测序胶上,电泳分离这些片段.

注意事项:

1.?PCR产物要有一定的长度(>200bp),因为测序结果两端20-30bp的电泳峰图的准确性较低.

2.?纯化PCR产物可通过离子交换层析使扩增的DNA段与反应剩余的dNTP及引物分离;也可通过琼脂糖凝胶电泳,将PCR产物与非特异性扩增产物和引物分离开来;如果扩增的特异性较高时,可直接通过酚:氯仿抽提,乙醇沉淀的方法来纯化.

3.?测序引物设计原则类似于PCR引物设计,可在DNA合成仪上合成20个左右的核苷酸作为引物,经过高压液相层析或聚丙烯酰胺凝胶电泳纯化后,即可用作测序引物.

PCR循环测序法

PCR循环测序法是将PCR扩增和核酸序列分析技术相结合,从而形成的一种测定核苷酸序列的研究方法,也称作线性扩增测序.该方法采用PCR仪加热使DNA模板变性,在TaqDNA聚合酶作用下,以温度循环模式在模板上进行多轮的双脱氧核苷酸测序反应,线性扩增标记的DNA分子.

PCR循环测序法与以往的测序方法相比,其优点在于:大大减少所需的模板量;能提高测序反应产生的信号,降低了操作的复杂性,且聚合酶的用量减少;可在小量制备的模板上进行筛选反应;高温下进行的测序反应使DNA聚合酶催化的聚合反应能够通过模板二级结构的区域;双链闭环DNA可以直接作为反应模板应用,不用作预先碱变性处理.由于PCR循环测序法能够简单、快速地检测特定序列,因此, PCR循环测序法在核酸序列分析研究中受到广泛的重视.

试验试剂:

DNA测序试剂盒

dNTP

ddNTP

丙烯酰胺

双丙烯酰胺

尿素

TEMED(N,N,N‘,N’-四甲基乙二胺)

过硫酸铵

6%测序胶:6%丙烯酰胺,7mmol/L 尿素,1×TBE.

10×测序缓冲液:100mmol/L Tris-HCl(pH8.8),500mmol/L KCl,40mmol/L MgCl2,0.01%明胶,20μmol/L dATP,50μmol/L dCTP,50μmol/L dGTP,50μmol/L dTTP

终止混合液:ddATP (600μmol/L),ddCTP (600μmol/L),ddGTP (100μmol/L),ddTTP(1000μmol/L)

终止缓冲液:95%甲酰胺,20mmol/L EDTA,0.05%溴酚蓝,0.05%二甲苯腈

试验步骤

1、 4个小离心管,每个小管加入3μl的终止混合液,将管子放在冰上.

2、 在DNA模板中加入引物(4pmol), 4μl 10×测序缓冲液, 10μlα-32P-dATP, 2U TaqDNA聚合酶,加双蒸水到30μl彻底混匀,每管7μl加入上面4个小管中.

3、 反应液上加30μl的石蜡油.

4、 95OC 30S,50OC 30S,72OC 60S共30个循环,可根据具体的情况进行适当的调整循环条件及循环次数.

5、 反应结束后在油层下加入5μl的终止缓冲液并用加样枪混匀.

6、 上样前将样品在大于80OC的水浴中热变性5min,每一道加2μl加到测序胶上,电泳分离这些片段.

注意事项:

1、 制备测序模板:PCR 扩增的产物可以经过低熔点的琼脂糖凝胶电泳纯化回收后,用于序列分析;可经过柱层析纯化,去除PCR 反应后剩余的dNTP和引物后,用于序列分析.PCR 产物也可不经纯化直接用于测序,但是这种测序产生的结果较差,建议测序之前应进行PCR产物的纯化.各种标准的质粒制备方法所纯化出的质粒均可作为测序模板使用.用标准方法制备的M13噬菌体、粘粒、λDNA都适合用作测序模板用.但要注意的是反应体系中不应有与引物互补的非目的基因序列,否则将会导致测序实验的失败.

2、 测序引物:测序引物是指合成的与测序模板链特异性互补的寡核苷酸序列.可用α-32P-dATP和T4多聚核苷酸激酶对引物的5‘端进行标记,反应体系中引物、激酶和α-32P-dATP要保持在最佳的比例,以得到高比活性的标记引物;也可用α-32P-dATP标记新合成的DNA链.引物的浓度不宜高,否则容易形成引物二聚体,或产生非特异性的扩增引物.

3、 酶:各种缺乏3‘—5‘端外切活性的耐热DNA聚合酶都可以用于循环测序,其中TaqDNA聚合酶在DNA测序中最为常用.虽然应用PCR循环测序法能够简单、快速的进行基因序列的测定,但仍未能适应大规模DNA序列测定的需要,而PCR循环测序法、荧光标记和自动测序仪的联合使用成为大规模基因组测序的主要技术.该技术是采用荧光标记引物或双脱氧核苷三磷酸,反应产物经聚丙烯酰胺凝胶电泳后,经特定的DNA序列分析仪和分析系统处理待测的DNA序列.它的应用减轻了DNA序列测定的工作量,提高了测序的效率.

沉静的金鱼
潇洒的宝贝
2025-12-14 08:22:46
1、主体结构:

目前实验室的主体多为彩钢板、铝合金型材。室内所有阴角、阳角均采用铝合金R50内圆角铝,从而解决容易污染、积尘、不易清扫等问题。并且彩钢板结构牢固,线条简明,美观大方,密封性好。

2、标准的四区分隔和气压调节:

将PCR过程分成试剂准备、标本制备和PCR扩增区及产物分析检测区四个独立的实验区。整个区域有一个整体缓冲走廊。每个独立实验区设置有缓冲区,同时各区通过气压调节,使整个PCR实验过程中试剂和标本免受气溶胶的污染并降低扩增产物对人员和环境的污染。

3、消毒:

在四个实验区和四个缓冲区顶部以及传送窗内部安装有紫外灯,供消毒用。

在试剂准备区和标本制备区还设置移动紫外线灯,对实验桌进行局部消毒。

4、机械连锁不锈钢传递窗:

试剂和标本通过机械连锁不锈钢(不建议使用电子连锁方式)传递窗传递,保证试剂和标本在传递过程中不受污染(人物分流)。

5、地面

地面建议使用PVC卷材地面或自流坪地面,整体性好。便于进行清扫,耐腐蚀。没有条件的也可采用水磨石地面,或大块的瓷砖(至少800mm×800mm)接缝需要小于2mm。

6、照明

灯具要选用净化灯具,能达到便于清洗、不积尘的特点。

另外:

PCR实验室可分为两个大的功能工作区域:核酸扩增前区和核酸扩增后区。核算扩增前区包括试剂准备间和样本制备间,这个两房间各自独立,不能出现空气互通,这两个房间相对外界气压呈正压状态。核酸扩增后区包括扩增区和产物分析区,使用实时荧光PCR仪、HIV病毒载量测定仪的PCR实验室,这个两区域可以合并为一个房间。这个区域如果是分开两个房间,这两个房间也必须是各自独立,不能出现空气互通。核算扩增后区对外界气压呈负压状态。

‚PCR实验室根据使用仪器的功能合理设置各个工作区域,如采用聚合酶联反应:则设置试剂储存和准备区、标本制备区、扩增区、扩增产物分析区四个单独的工作区域,这是最常用的分区方式。样品需要粉碎处理的,还需增设样品粉碎区;若使用实时荧光PCR法:基因扩增区、基因产物分析区可以合并在一个房间内;采用标本处理、核酸提取及扩增检测为一体的全自动化PCR分析仪,则标本制备区、扩增区、扩增产物分析区可合并为一个区域,因此PCR实验室原则上设置五个区或四个区或三个区或二个单独的工作区。

ƒ核酸扩增前区和核酸扩增后区可设在一个房间内,但必须在满足下列要求的前提下:

核酸扩增前区实验室内设置两个不同位置的实验区,试剂配置在超净工作台中操作,样品处理在生物安全柜内操作。

在核酸扩增后区使用全封闭的扩增和检测系统,如实时荧光PCR仪等。

每个实验人员使用各自的试剂、耗材、移液器和盛放污染物的盛器。

在实验前后对操作区域和共享器具进行清洁及消毒。

各区域的试剂、器具、仪器和设备为该区专用,不得交叉使用。

三、空气流与压差要求

PCR实验室的空气流向必须严格按照试剂储存和准备区→标本制备区→扩增区→扩增产物分析区空气压力逐渐递减方式进行,防止扩增产物顺空气气流进入扩增前的区域。风速流向不得混乱。

为了保证房间内的压差和避免污染,应在空调面板处写清楚送风机和排风机的开启顺序和关闭顺序,先后顺序不得混乱。

空气洁净级别不同的相邻房间之间的静压差应大于5帕,洁净室(区)与室外大气的静压差应大于10帕,应配备监测静压差的设备,并定期监控。

一般情况下,试剂配制室及样品处理室宜呈微正压,以防外界含核酸气溶胶的空气进入,造成污染;可以通过控制进风风量大于排风风量达到正压效果。

核酸扩增室及产物分析室应呈微负压,以防含核酸的气溶胶扩散出去污染试剂与样品,可以通过控制排风风量大于进风风量达到负压效果。

在理想情况下,PCR实验室缓冲间内,可设置正压,使室内空气不流向室外,室外空气不流向室内。 PCR实验室进风由原有中央空调控制的要求将中央空调风口安装到指定定点。

四、实验室面积及设备间距

一般来说各房间的面积没有严格要求,只需能放置所需仪器设备,并且便于人员操作即可,但是有生物安全柜的房间面积不能小于10平米,并且每增加一台生物安全柜,房间就要增加10平米。

各实验室缓冲间的面积一般为1300*(1300或1500)mm为宜,并且缓冲间的面积不能大于实验室房间面积的1/8。

在做平面设计的时候,首先要考虑的因素是就是“安全”,实验室是最易发生爆炸、火灾、毒气泄露等的场所。我们在做平面设计的时候,应尽量地要保持实验室的通风流畅、逃生通道畅通。根据国际人体工程学的标准。我们做如下的划分以供参照:

实验台与实验台通道划分标准(通道间隔用L表示)

L>500mm时,一边可站人操作;

L>800mm时,一边可坐人操作;

L>1200mm时,一边可坐人,一边可站人,中间不可过人

L>1500mm时,两边可坐人,中间可过人;

L>1800mm时,两边可坐人,中间可过人可过仪器

天平台、仪器台不宜离墙太近,离墙400mm为宜。为了在工作发生危险时易于疏散,实验台间的过道应全部通向走廊。另:实验室建筑层高宜为3.7米-4.0米为宜,净高宜为2.7米-2.8米,有洁净度、压力梯度、恒温恒湿等特殊要求的实验室净高宜为2.5米-2.7米(不包括吊顶);实验室走廊净宽宜为2.5米-3.0米.普通实验室双门宽以1.1米-1.5米(不对称对开门)为宜,单门宽以0.8米-0.9米为宜。

五、洁净装修要求

洁净室(区)的内表面应平整光滑、无裂缝、接口严密、无颗粒物脱落,并能耐受清洗和消毒,墙壁与地面的交界处宜成弧形或采取其他措施,以减少灰尘积聚和便于清洁。

洁净室(区)内各种管道、灯具、风口以及其他公用设施,在设计和安装时应考虑使用中避免出现不易清洁的部位。

洁净室(区)的窗户、天棚及进入室内的管道、风口、灯具与墙壁或天棚的连接部位均应密封。

六、工作服要求

在净化车间内工作的人员应穿着符合要求的工作服。工作服的选材、式样及穿戴方式应与生产操作和空气洁净度级别要求相适应,并不得混用。洁净工作服的质地应光滑、不产生静电、不脱落纤维和颗粒性物质。无菌工作服必须包盖全部毛发、胡须及脚部,并能阻留人体脱落物。不同空气洁净度级别使用的工作服应当分别清洗、整理,必要时消毒或灭菌。工作服洗涤、灭菌时不应带入附加的颗粒物质。工作服应制定清洗周期。

进入各个区域必须严格按照单一方向进行,不同的工作区域使用不同的工作服(例如不同的颜色)。工作人员离开时,不得将工作服带出。

实验室应建立、执行人员进出洁净区的清洁程序和管理制度,人员清洁程序合理。

七、人流路径与物流路径

进入实验室区域工作人员应该按照以下路径:

公共清洁区——更衣间(更换洁净服)——缓冲间——污染实验区

工作人员退出实验室的路径为:

污染试验区——缓冲间——淋浴间(有条件的可设置)——更衣间——公共清洁区

所有的物品进入实验区必须经过双扉互锁传递窗,利用传递窗消毒后才可进入,实验室内所有物品的也必须经过传递窗才可以传递到实验室以外的清洁公共区。

八、门的开启方向

实验室建筑层高宜为3.7米-4.0米为宜,PCR实验室净高宜为2.5米-2.7米(不包括吊顶);实验室走廊净宽宜为2.5米-3.0米.普通实验室双门宽以1.1米-1.5米(不对称对开门)为宜,单门宽以0.8米-0.9米为宜。

一般实验室门主要向里开,但如有危险的房间,房门应朝外开,房门材质最好选择压力玻璃。

有压差梯度的房间,门的开启方向应朝向正压方向一侧开启;

考虑到消防安全,对于那些主要逃生门的开启方向应朝向清洁区方向开启。

九、基本仪器设备考虑

(1)试剂贮存和准备区

该实验区主要进行的操作为贮存试剂的制备、试剂的分装和主反应混合液的制备。试剂和用于样品制作的材料应直接运送至该区,不得经过其他区域。试剂原材料必须贮存在本区内,并在本区内制备成所需的贮存试剂。对与气流压力的控制,本区应对外界保持微正压。

试剂准备区仪器设备主要应有加样器、冰箱、天平、低速离心机、混匀器、可移动紫外灯等。可使用超净工作台作为试剂配制操作台面。

(2)标本制备区

该区域主要进行的操作为样本的保存、核酸(RNA、DNA)提取、贮存及其加入至扩增反应管和测定DNA的合成。本区的压力梯度要求为:相对于邻近区域为正压,以避免从邻近区进入本区的气溶胶污染。另外,由于在加样操作中可能会发生气溶胶所致的污染,所以应避免在本区内不必要的走动。

标本制备区仪器设备主要应有生物安全柜(最好为B2,可避免提取核酸在柜内反复循环,造成标本间交叉“污染”,出现假阳性结果。此外还应配备加样器、台式高速离心机(冷冻及常温)、台式低速离心机、恒温设备(水浴和/或干浴仪)、冰箱、混匀器和可移动紫外灯等。

(3)扩增和扩增产物分析区

该区域主要进行的操作为DNA扩增和扩增片段的测定。此外,已制备的DNA模板(来自样本制备区)的加入和主反应混合液(来自试剂贮存和制备区)制备成反应混合液等也可在本区内进行。本区的压力梯度要求为:相对于邻近区域为负压,以避免气溶胶从本区漏出。为避免气溶胶所致的污染,应尽量减少在本区内的不必要的走动。个别操作如加样等应在超净台内进行。

扩增区主要仪器就是核酸扩增热循环仪(PCR仪,实时荧光或普通的)。热循环仪的电源应专用,并配备一个稳压电源或UPS,以防止由于电压的波动对扩增测定的影响。此外,根据工作需要,还可配备加样器、超净台等。

产物分析区:本区所使用的仪器设备可能有加样器、电泳仪(槽)、电转印仪、杂交炉或杂交箱、水浴箱、DNA测序仪、酶标仪和洗板机等。

现实的麦片
喜悦的星星
2025-12-14 08:22:46
如果是测序引物的话,因为目前的测序技术一端只能到800bp左右,所以一对引物差不多能测1.5kb左右的片段,超出这个范围测出来的也不太可信了。所以如果你的目的片段在这个范围内,设计1对引物就行了,如果超出这个范围,比如说有6k左右,那就要设计四对引物,设计方法跟常规的一样,只是把握这个间隔就好了。1.5kb左右设计前后一对引物。最好相邻的测序片段之间存在overlap,这样就好最后组装在一块儿!

内向的蜜粉
爱笑的银耳汤
2025-12-14 08:22:46

高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。

Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。

全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。

de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。

外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。

转录组学(transcriptomics)是在基因组学后新兴的一门学科,即研究特定细胞在某一功能状态下所能转录出来的所有RNA(包括mRNA和非编码RNA)的类型与拷贝数。Illumina提供的mRNA测序技术可在整个mRNA领域进行各种相关研究和新的发现。mRNA测序不对引物或探针进行设计,可自由提供关于转录的客观和权威信息。研究人员仅需要一次试验即可快速生成完整的poly-A尾的RNA完整序列信息,并分析基因表达、cSNP、全新的转录、全新异构体、剪接位点、等位基因特异性表达和罕见转录等最全面的转录组信息。简单的样品制备和数据分析软件支持在所有物种中的mRNA测序研究。

Small RNA(micro RNAs、siRNAs和 pi RNAs)是生命活动重要的调控因子,在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。Illumina能够对细胞或者组织中的全部Small RNA进行深度测序及定量分析等研究。实验时首先将18-30 nt范围的Small RNA从总RNA中分离出来,两端分别加上特定接头后体外反转录做成cDNA再做进一步处理后,利用测序仪对DNA片段进行单向末端直接测序。通过Illumina对Small RNA大规模测序分析,可以从中获得物种全基因组水平的miRNA图谱,实现包括新miRNA分子的挖掘,其作用靶基因的预测和鉴定、样品间差异表达分析、miRNAs聚类和表达谱分析等科学应用。

成熟的microRNA(miRNA)是17~24nt的单链非编码RNA分子,通过与mRNA相互作用影响目标mRNA的稳定性及翻译,最终诱导基因沉默,调控着基因表达、细胞生长、发育等生物学过程。基于第二代测序技术的microRNA测序,可以一次性获得数百万条microRNA序列,能够快速鉴定出不同组织、不同发育阶段、不同疾病状态下已知和未知的microRNA及其表达差异,为研究microRNA对细胞进程的作用及其生物学影响提供了有力工具。

染色质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)也称结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。

ChIP-Seq的原理是:首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。

CHIRP-Seq( Chromatin Isolation by RNA Purification )是一种检测与RNA绑定的DNA和蛋白的高通量测序方法。方法是通过设计生物素或链霉亲和素探针,把目标RNA拉下来以后,与其共同作用的DNA染色体片段就会附在到磁珠上,最后把染色体片段做高通量测序,这样会得到该RNA能够结合到在基因组的哪些区域,但由于蛋白测序技术不够成熟,无法知道与该RNA结合的蛋白。

RNA Immunoprecipitation是研究细胞内RNA与蛋白结合情况的技术,是了解转录后调控网络动态过程的有力工具,能帮助我们发现miRNA的调节靶点。这种技术运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来,然后经过分离纯化就可以对结合在复合物上的RNA进行测序分析。

RIP可以看成是普遍使用的染色质免疫沉淀ChIP技术的类似应用,但由于研究对象是RNA-蛋白复合物而不是DNA-蛋白复合物,RIP实验的优化条件与ChIP实验不太相同(如复合物不需要固定,RIP反应体系中的试剂和抗体绝对不能含有RNA酶,抗体需经RIP实验验证等等)。RIP技术下游结合microarray技术被称为RIP-Chip,帮助我们更高通量地了解癌症以及其它疾病整体水平的RNA变化。

CLIP-seq,又称为HITS-CLIP,即紫外交联免疫沉淀结合高通量测序(crosslinking-immunprecipitation and high-throughput sequencing), 是一项在全基因组水平揭示RNA分子与RNA结合蛋白相互作用的革命性技术。其主要原理是基于RNA分子与RNA结合蛋白在紫外照射下发生耦联,以RNA结合蛋白的特异性抗体将RNA-蛋白质复合体沉淀之后,回收其中的RNA片段,经添加接头、RT-PCR等步骤,对这些分子进行高通量测序,再经生物信息学的分析和处理、总结,挖掘出其特定规律,从而深入揭示RNA结合蛋白与RNA分子的调控作用及其对生命的意义。

什么是metagenomic(宏基因组):

Magenomics研究的对象是整个微生物群落。相对于传统单个细菌研究来说,它具有众多优势,其中很重要的两点:(1)微生物通常是以群落方式共生于某一小生境中,它们的很多特性是基于整个群落环境及个体间的相互影响的,因此做Metagenomics研究比做单个个体的研究更能发现其特性;(2) Metagenomics研究无需分离单个细菌,可以研究那些不能被实验室分离培养的微生物。

宏基因组是基因组学一个新兴的科学研究方向。宏基因组学(又称元基因组学,环境基因组学,生态基因组学等),是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养,元基因组的兴起填补了无法在传统实验室中培养的微生物研究的空白。过去几年中,DNA测序技术的进步以及测序通量和分析方法的改进使得人们得以一窥这一未知的基因组科学领域。

10 .什么是SNP、SNV(单核苷酸位点变异)

单核苷酸多态性singlenucleotide polymorphism,SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变(somatic mutation),称做SNV。

基因组上小片段(>50bp)的插入或缺失,形同SNP/SNV。

基因组拷贝数变异是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。例如人类正常染色体拷贝数是2,有些染色体区域拷贝数变成1或3,这样,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。如果把一条染色体分成A-B-C-D四个区域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失,扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增,如A-C-B-C-D。

染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失(引起CNV的变化),染色体内部的某块区域发生翻转颠换,两条染色体之间发生重组(inter-chromosome trans-location)等。一般SV的展示利用Circos 软件。

15.什么是Segment duplication

一般称为SD区域,串联重复是由序列相近的一些DNA片段串联组成。串联重复在人类基因多样性的灵长类基因中发挥重要作用。在人类染色体Y和22号染色体上,有很大的SD序列。

既基因型与表型;一般指某些单核苷酸位点变异与表现形式间的关系。

17.什么是soft-clipped reads

当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点及剪接位点的reads回帖到基因组时,一条reads被切成两段,匹配到不同的区域,这样的reads叫做soft-clipped reads,这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。

由于大部分测序得到的reads较短,一个reads能够匹配到基因组多个位置,无法区分其真实来源的位置。一些工具根据统计模型,如将这类reads分配给reads较多的区域。

21.什么是Contig N50?

Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3...………Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度 1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。值越大,contig越长组装效果越好,测序效率也就越好了.

给定一组具有其自身长度的重叠群,L50计数被定义为长度总和占基因组大小一半的重叠群的最小数量。

21.1 什么是Scaffold N50?

Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度 1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

22.什么是测序深度和覆盖度?

测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。

RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]: 每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。 假如有1百万个reads映射到了人的基因组上,那么具体到每个外显子呢,有多少映射上了呢,而外显子的长度不一,那么每1K个碱基上又有多少reads映射上了呢,这大概就是这个RPKM的直观解释。

如果对应特定基因的话,那么就是每1000000 mapped到该基因上的reads中每kb有多少是mapped到该基因上的exon的read Total exon reads:This is the number in the column with header Total exonreads in the row for the gene. This is the number of reads that have beenmapped to a region in which an exon is annotated for the gene or across theboundaries of two exons or an intron and an exon for an annotated transcript ofthe gene. For eukaryotes, exons and their internal relationships are defined byannotations of type mRNA.映射到外显子上总的reads个数。这个是映射到某个区域上的reads个数,这个区域或者是已知注释的基因或者跨两个外显子的边界或者是某个基因已经注释的转录本的内含子、外显子。对于真核生物来说,外显子和它们自己内部的关系由某类型的mRNA来注释。

Exonlength: This is the number in the column with the header Exon length inthe row for the gene, divided by 1000. This is calculated as the sum of thelengths of all exons annotated for the gene. Each exon is included only once inthis sum, even if it is present in more annotated transcripts for the gene.Partly overlapping exons will count with their full length, even though theyshare the same region.外显子的长度。计算时,计算所有某个基因已注释的所有外显子长度的总和。即使某个基因以多种注释的转录本呈现,这个外显子在求和时只被包含一次。即使部分重叠的外显子共享相同的区域,重叠的外显子以其总长来计算。 Mapped reads: The sum of all the numbers in the column with header Totalgene reads. The Total gene reads for a gene is the total number ofreads that after mapping have been mapped to the region of the gene. Thus thisincludes all the reads uniquely mapped to the region of the gene as well asthose of the reads which match in more places (below the limit set in thedialog in figure18.110) that have been allocated tothis gene's region. A gene's region is that comprised of the flanking regions(if it was specified in figure 18.110), the exons, the introns andacross exon-exon boundaries of all transcripts annotated for the gene. Thus,the sum of the total gene reads numbers is the number of mapped reads for thesample (you can find the number in the RNA-Seq report).map的reads总和。映射到某个基因上的所有reads总数。因此这包含所有的唯一映射到这个区域上的reads。

举例:比如对应到该基因的read有1000个,总reads个数有100万,而该基因的外显子总长为5kb,那么它的RPKM为:10 9*1000(reads个数)/10 6(总reads个数) 5000(外显子长度)=200或者:1000(reads个数)/1(百万) 5(K)=200这个值反映基因的表达水平。

FPKM(fragments per kilobase of exon per million fragments mapped). FPKM与RPKM计算方法基本一致。不同点就是FPKM计算的是fragments,而RPKM计算的是reads。Fragment比read的含义更广,因此FPKM包含的意义也更广,可以是pair-end的一个fragment,也可以是一个read。

什么是转录本重构

用测序的数据组装成转录本。有两种组装方式:1,de-novo构建; 2,有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下,将有overlap的reads连接成一个更长的序列,经过不断的延伸,拼成一个个的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有参考基因组重构,是指先将read贴回到基因组上,然后在基因组通过reads覆盖度,junction位点的信息等得到转录本,常用工具包括scripture、cufflinks。

什么是genefusion

将基因组位置不同的两个基因中的一部分或全部整合到一起,形成新的基因,称作融合基因,或嵌合体基因。该基因有可能翻译出融合或嵌合体蛋白。

什么是表达谱

基因表达谱(geneexpression profile):指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱

什么是功能基因组学

功能基因组学(Functuionalgenomics)又往往被称为后基因组学(Postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质得研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入对基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等。采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的

分析,新的技术应运而生,包括基因表达的系统分析(serial analysis of gene expression,SAGE),cDNA微阵列(cDNA microarray),DNA 芯片(DNA chip)和序列标志片段显示(sequence tagged fragmentsdisplay。

什么是比较基因组学

比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。

什么是表观遗传学

表观遗传学是研究基因的核苷酸序列不发生改变的情况下,基因表达了可遗传的变化的一门遗传学分支学科。表观遗传的现象很多,已知的有DNA甲基化(DNAmethylation),基因组印记(genomicimpriting),母体效应(maternaleffects),基因沉默(genesilencing),核仁显性,休眠转座子激活和RNA编辑(RNA editing)等。

什么是计算生物学

计算生物学是指开发和应用数据分析及理论的方法、数学建模、计算机仿真技术等。当前,生物学数据量和复杂性不断增长,每14个月基因研究产生的数据就会翻一番,单单依靠观察和实验已难以应付。因此,必须依靠大规模计算模拟技术,从海量信息中提取最有用的数据。

什么是基因组印记

基因组印记(又称遗传印记)是指基因根据亲代的不同而有不同的表达。印记基因的存在能导致细胞中两个等位基因的一个表达而另一个不表达。基因组印记是一正常过程,此现象在一些低等动物和植物中已发现多年。印记的基因只占人类基因组中的少数,可能不超过5%,但在胎儿的生长和行为发育中起着至关重要的作用。基因组印记病主要表现为过度生长、生长迟缓、智力障碍、行为异常。目前在肿瘤的研究中认为印记缺失是引起肿瘤最常见的遗传学因素之一。

什么是基因组学

基因组学(英文genomics),研究生物基因组和如何利用基因的一门学问。用于概括涉及基因作图、测序和整个基因组功能分析的遗传学分支。该学科提供基因组信息以及相关数据系统利用,试图解决生物,医学,和工业领域的重大问题。

什么是DNA甲基化

DNA甲基化是指在DNA甲基化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5'碳位共价键结合一个甲基基团。正常情况下,人类基因组“垃圾”序列的CpG二核苷酸相对稀少,并且总是处于甲基化状态,与之相反,人类基因组中大小为100—1000 bp左右且富含CpG二核苷酸的CpG岛则总是处于未甲基化状态,并且与56%的人类基因组编码基因相关。人类基因组序列草图分析结果表明,人类基因组CpG岛约为28890个,大部分染色体每1 Mb就有5—15个CpG岛,平均值为每Mb含10.5个CpG岛,CpG岛的数目与基因密度有良好的对应关系[9]。由于DNA甲基化与人类发育和肿瘤疾病的密切关系,特别是CpG岛甲基化所致抑癌基因转录失活问题,DNA甲基化已经成为表观遗传学和表观基因组学的重要研究内容。

什么是基因组注释?

基因组注释(Genomeannotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。

什么是Q30?

Q30是指一个碱基的识别可靠性等于99.9%,或者说出错可能性是0.1%。Q20则是指碱基识别的可靠性等于99%。

Q30数据量是指一批数据中,质量高于等于Q30的数据的量的总和。

测序数据的PF data/PF reads是什么意思?

PF是pass filter的意思。也就是质量合格的意思。Illumina的测仪序会自动地对一个read(序列)的质量可靠性进行打分。

对于前25个碱基中的是否有两个碱基的识别可靠性低于0.6,是PF的判断标准。这句话翻译成较容易理解的话: 就是前25个碱基中,如果低质量的数据有2个或更多,则这条read被判定为不合格,PF就不通过。反之,则质检通过。

PF是国际公认的质检标准。

你们给的数据是什么质量的?

对于哺乳动物基因组重测序、外显子测序,我们保证数据质量是Q30的比例高于80%。对于mRNA测序,smRNA测序,我们保证对照Lane的数据质是Q30的比例高于80%。

一般情况下:

哺乳动物基因组重测序、外显子测序,GC比例在40%左右,Q30的比例是80~95%

RNA-seq,GC比例在50%左右,Q30的比例是~80%。如果Poly(A)特别多的情况下,Q30会更低一些

SmRNA-seq,因为有许多的read读通之后,只剩下一串的A,质量会更低,我们的实验结果%Q30在70~75%

测序中的Duplication是什么,如何避免,一般会有多少Duplication?

所谓Duplication是指起始与终止位置完全一致的片段。

引起Duplication的主要原因是因为在测序中有PCR过程,来源于同一个DNA片段PCR的产物被重复测序,就会是Duplication。次要原因是正巧两个片段的头和尾的位置完全一致。

一般通过控制PCR的循环数来控制Duplication。我们一般控制PCR的循环次数在10~12个循环。

在药明康德外显子测序中,如果用illumina的捕获试剂盒Duplication的比例约为10%,如果用Nimblegen的捕获试剂盒Duplication的比例波动较大,在5~50%范围 ,平均为30%。

在RNA-seq中,Duplication的比例约为40%。RNA-seq中,因为高丰度的mRNA集中在几个基因上,集中度很高,所以Duplication的比例也就高。

测序的插入片段一般是多长?

测序的插入片段一般是100bp到600bp.

因为Hiseq测序过程中有一个桥式PCR的过程。如果插入片段过长,测桥式PCR产生的Cluster就会太大,而且光强也会减弱。所以插入片段的长度是有限制的。

PhiX文库有什么用?

PhiX文库是一种用病毒基因组做的文库。其基因序列已精确知晓,GC比例约为40%,与人类、哺乳类的基因组的GC比例接近。其基因序列又与人类的基因序列相去甚远,在与哺乳类基因组一些测序时,可以轻松地通过基因序列比对而将之去除。

在测四种碱基不平衡(A、G、C、T四种碱基的含量远远偏离25%)的样本时,可以加入大量的PhiX文库,以部分抵消样本的不平衡性。例如ChIPed DNA测序,或者亚硫酸氢盐处理过的DNA文库,或者扩增子测序(PCR样测序),都可以加入PhiX,以部分弥补碱基不平衡性。

也可以少量地加入样本,以作为control library来验证测序质量。