illumina上海怎么样?illumina啥意思?

bk2898 2024-01-13 13:05:01 67 0

Duplicate产生原因

高通量测序检验流程可分为“实验室操作”（又称为“湿实验”）和“生物信息学分析”（又称“干实验”）两部分。生物信息学主要是测序完成之后的数据分析和解读，包括数据的拆分、比对和汇总，其中数据的有效性，也就是报告中常见的duplication rate 这一名词，是生信分析的一个重要指标，它让我们对测序得出的数据进行一个大致的了解。

所谓Dup，即重复序列Duplicate reads，这些重复序列在总测序序列中占比简称为Dup rate。 由于这些重复序列不能带来额外信息，相反会影响变异检测结果准确性，因此下游生信分析中这些重复序列是需要去除的去掉，这也就意味着Dup rate越高，数据利用率越低，测序成本浪费的也就越多。因此在NGS生信分析中首要了解的就是dup rate的占比。

常见测序对应Dup可能值

高通量测序技术的不断革新，生物信息学的分析也不断进步与发展，就dup来源，根据其定义与现实的案列分析，客观来讲主要有以下几个方面：

1.样本本身所导致的dup值

2.建库过程中产生的dup值（片段化，接头连接，PCR扩增）

通常来讲，我们认为的dup都是些无效数据，且基本上都是从建库过程中产生的，但实际案列告诉我们，有些时候dup也是“好”的有用数据，上机过程导致的dup值可能要要比我们建库过程中产生的dup值要大的多。

影响因素解读：

一、样本本身所导致的dup值

不同物种的基因含量不同，基因多样性不同，对应的基因表达情况也千差万别。在完全相同操作的前提下，不同的样本对应的dup值也有所差别。比如

1）cfDNA和ctDNA： 游离DNA断裂不是随机的而是有偏向性的，自然cfDNA的分子多样性可能会比人工cfDNA要差一些，且片段长度一般分布在165bp左右，较为集中的size分布比物理打断的size分布更不容易丢失片段，这样可能导致相比较常规的基因组样本cfDNA和ctDNA引起Duplication Rate会高一些。

2）基因组DNA： 以人类基因组为列，本身含有大量的基因组信息，不同细胞相同编号染色体在基因组片段化过程中是有可能产生一些起始位置和终止位置相同的分子片段的。此时对应的dup值就是样本本身的dup值。在后期分析中可以作为保留数据进行分析。

3）甲基化DNA： 经过亚 *** 氢盐反转的DNA，碱基类型都少了一种，分子多样性不但下降，更是引入了尿嘧啶，外加一些建库方式有着明显的GC偏好性，导致后期对应的dup值会明显的变高。

4）RNA： 一般我们所做的测序都是全外显子组，只占全基因组的2%不到，少了内含子以及非基因区域的参与，同时对应有高表达的基因和不表达的基因，分子多样性肯定就弱了很多。后期对应的dup值是目前测序中占比量较高的样本。

二、建库过程中产生的dup值

1）片段化对Duplication Rate的影响

无论是超声波打断、高压气体喷断，还是酶切切断，都要注意随机性和均一性，同时需要保证片段化之后获得适当的长度，片段长度越小，导致扩增越容易，加剧了PCR bias，最后引起PCR产物复杂度降低，dup rate升高。

2）链接效率对Duplication Rate的影响

对末端修复连接的效率的考量应该根据样本类型来考虑，比如ctDNA，单细胞样本，对应的连接效率就要很高，不然低频的目标片段就会消失。某种程度上，连接效率越高，分子多样性越好，dup rate也就越低。

3）PCR扩增对Duplication Rate的影响

首先我们了解一下PCR bias：

PCR扩增带有一定的偏好性和错配率，会影响最终形成文库的覆盖度和测序准确性。

PCR本身对于不同GC含量的样本的扩增效率是不同的，中等GC含量扩增效率高，高GC含量扩增慢，也就是说PCR循环越多，扩增困难和扩增容易的片段之间相差就会越大，对应的分子多样性就会越低，dup就会增大。

另外PCR本身在扩增的过程中可能会产生一些碱基的错配，错误的扩增可能会到出现与现有相同基因的结果，导致dup值升高。

另外我们解释一下，为什么我们PCR扩增要控制在较小的循环数内。

我们知道PCR过程中，每一次循环，对应生成的产物都是一样的，PCR放大成百上千倍，为什么NGS的Dup rate只有十位数甚至是个位数呢？（对应的数学解释可参考对应的参考文献1）

举例如下：

因此对于PCR过程中的dup值，我们可以人为的增加投入样本的量（增加样本DNA的多样性），同时降低PCR的循环数，选择均一性和保真性较好的扩增酶，就可以将这一过程中产生的dup，控制在合理的范围内。

三、 Cluster生成对dup的影响

Cluster在flowcell上的生成也是一个PCR过程。这个PCR比较容易被人遗忘。如果cluster变少，影响dup rate。原因是比例少的分子可能不能产生cluster，唯一性分子数减少，进而影响dup rate。适当的cluster生成密度，不仅能够获得好的数据产量，也能够获得较低的dup rate。目前的平台中，我们都希望cluster是单克隆(monoclonal)的，多克隆(Polyclonal)的cluster会出现空间距离过近而导致图像识别时相互overlap的cluster被测序识别程序过滤掉，造成的直接影响就是cluster密度过高，数据产量降低，整张芯片的cluster多样性降低，造成dup rate升高。

四、光学分辨引起的dup

目前的测序平台主要包括两种扩增方式illumina和life的线性分子扩增，和ICG的滚环扩增，形成的DNA Nanoball都是靠流体来保证芯片表面利用率的，芯片利用率是数据高产出的基础，相反待测分子与芯片的结合的同时，可能导致反应不充分的信号点因为信号强度显著弱于反应充分的“邻居”，从而被映射成两个孔表达出一样的信号，也就是一种光学上的Dup。

总结

综合考虑分析，影响dup的主要因素就是DNA的多样性，其中样本本身所产生或者增加的dup值，这种情况占比量较小，我们一般可以忽略；PCR产生的dup值，我们在选择均一性和保真性较好的扩增酶的同时，人为的降到底拷贝数也是可行的（一般控制在6-10 cycle）；至于Cluster和光学分辨引起的dup，主要是和测序平台相关，不同测序平台还是有一定的差异的，主要原因是cluster与光学分辨过程中导致的DNA多样性的改变和信号收集的误差，目前来说可能是产生dup的主要来源。

参考文献：
【1】Eric Vallabh Minikel. How PCR duplicates arise in next-generation sequencing[Z].2012,12.

【2】illumina. Effects of Patterned and Nonpatterned Flow Cells [Z].

【3】 Sayols S, Scherzinger D, Klein H. dupRadar: a Bioconductor package for the asses *** ent of PCR artifacts in RNA-Seq data. BMC Bioinformatics. 2016 Oct 21;17(1):428

【4】Natarajan KN, Miao Z, Jiang M，et al. Comparative *** ysis of sequencing technologies for single-cell transcriptomics. Genome Biology. 2019 Apr 9;20(1):70

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------I'm a line ! Thanks !---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

参考链接： http://yeasen.com/news/detail/250

高通量测序中，read、contig和Scaffold分别是什么

1.什么是Reads?

高通量测序平台产生的序列就称为reads。

2.什么是Contig？

拼接软件基于reads之间的overlap区，拼接获得的序列称为Contig（重叠群）。

3.什么是Scaffold？

基因组de novo测序，通过reads拼接获得Contigs后，往往还需要构建454 Paired-end库或Illumina Mate-pair库，以获得一定大小片段（如3Kb、6Kb、10Kb、20Kb）两端的序列。基于这些序列，可以确定一些Contig之间的顺序关系，这些先后顺序已知的Contigs组成Scaffold。

Contig N50：Reads拼接后会获得一些不同长度的Contigs.将所有的Contig长度相加,能获得一个Contig总长度.然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,contig 3...………Contig 25.将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50.举例：Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50.ContigN50可以作为基因组拼接的结果好坏的一个判断标准.

Scaffold N50：Scaffold N50与Contig N50的定义类似.Contigs拼接组装获得一些不同长度的Scaffolds.将所有的Scaffold长度相加,能获得一个Scaffold总长度.然后将所有的Scaffolds

按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25.将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上

的Scaffold长度即为Scaffold N50.举例：Scaffold 1+Scaffold 2+ Scaffold3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50.Scaffold N50可以作为基因组拼接

的结果好坏的一个判断标准.

分享相关内容的知识扩展阅读：

NGS中的错误总结（三）——Illumina平台错误率评估

这是一篇德国波恩大学 LIMES研究所于2018年发表在《SCIENTIFIC REPORTS》杂志的一篇文章，名为《系统评估短序列样品中NGS的错误率和发生原因》。该文章在Illumina测序仪上对单条序列进行了测序，并对获得的数百万reads进行了分析。得出了以下结论： 1、尽管PCR这一步骤被传统认为是NGS中主要的错误来源，但在本研究中样品制备过程的index-PCR步骤没有对错误率造成影响；2、pre-phasing 效应在测序过程中持续存在；3、测序平均错误率为每碱基0.24±0.06%，序列突变的百分比为6.4±1.24%；4、在5 ' 和3 ' 端添加固定区域，例如引物结合位点，对突变率没有影响，重测序的样品仍获得高重复性；5、由于NGS设备以及测序流程不同，也会导致phasing效应和其他测序问题各不相同，这篇文章推荐NGS使用者进行错误率以及错误类型分析评估以提高NGS的数据质量及分析结果。

目前最常用的测序技术是边合成边测序（SBS）。目前报导的单碱基平均错误率是0.1%，大部分情况是单碱基的替换。此外，该技术会导致固有测序错误：1、颜色或激光干扰、相邻簇间的干扰、2、phasing（移相）3、dimming(调光)。颜色干扰的原因是读取合并碱基时，不同的荧光团之间的激发和发射光谱重叠。虽然颜色干扰可以被校正，但是由于相同的原因，相邻簇之间干扰的问题仍然会存在。phasing(移相)描述了两种现象，这两种现象都可以导致单碱基与其他簇的相位不一致：(1) 如果在一个循环中纳入了两个或者更多的核苷酸则发生pre-phasing(前相移)，这是因为dNTP上标记的叠氮基团(N3)不正确的掉落，当丢失了叠氮基团的dNTP加到（合成链的）3’端之后，它的聚合反应不会终止，而是会继续往前走。当再加上了一个带叠氮基团的dNTP之后，这个聚合反应才停下来。（2）post-phasing(后相移) 是由于酶活性不足或者终止子没有完全移除，导致后续的dNTP碱基无法加入，序列滞后于簇的其余部分(如图1所示)。无法移除的终止子以及激光对DNA链的损伤会导致一个簇中测序的序列减少，从而使读出的荧光变暗。

目前，碱基检测软件Bustard已经包含了相移的校正（假设相移有固定的频率），包括考虑周围碱基、根据逐个纳入的碱基调整算法。除了这些内在的测序错误，还有一些突变是由样本制备和PCR过程导致的。通过研究paired-end 或者 duplex-DNA重叠区域的互补配对关系，可以去除那些错误的碱基。以上因素导致的突变，可以通过indices 或者barcodes 的 *** 分析，紧密监控这些错误的发生。
所有以上这些 *** ，都是为了确定比单端NGS reads更长的序列错误。然而，NGS也可通过体外分析较短的序列（单端reads可以覆盖整条序列）进行参数的优化。本文目的是对体外制备的样品进行测序，获得测序错误的详细信息: 这里采用index-PCR技术在5 ' 和3 ' 末端添加barcode，使12个样品在单个flowcell中同时进行测序。
最终文章研究表明，相移效应是初始错误率的主要原因。去除短序列可以排除相移序列，并确定单个碱基0.25%的真实错误率。此外，相同样本的测序本次实验具有很好的可重复性。文章认为这些发现有助于提高人们对NGS过程中相移效应和实际错误率的认识并更好的使用NGS。

1、为了研究样品制备对错误率的影响，对C12序列进行了测序和分析。C12 是一段结合GFP配体、通过click-chemistry化学修饰的序列，序列模板都是用标准的核苷酸进行合成。
2、对于C12_T_PWO和C12_T_Taq样本，使用PWO或者Taq 聚合酶进行index-PCR。对于C12_T_w/o样本，合成模板时已经包括了index，因此不需要再进行index-PCR。index-PCR之后，所有样品进行混合，消除其他处理步骤造成的影响。
3、对产生的序列进行汇总，分析所有突变序列的占比以及每个碱基的平均突变率，即错误率。

1、如表1所示，无论是否进行index-PCR步骤，样品的序列突变频率都没有发生变化。没有进行index-PCR的C12_T_w/o样品，碱基错误率略低于C12_T_Taq、C12_T_PWO样品。
3、如附表1所示，列出了C12_T_PWO 样本占比TOP25的序列信息，并列出了各种突变类型。
4、如图Figure2所示，a-c图显示了C12_T_Taq、C12_T_PWO和 C12_T_w/o样品的各个位置的突变频率，随着位置的增加，突变频率变大。d图显示了4个样品中原碱基的平均突变频率。C12_T_Taq样品所有碱基的突变频率比C12_T_PWO样本略低，没有进行index-PCR的样本C12_T_w/o，突变频率更低。e图显示了4个样品中突变为指定碱基的平均突变频率。f 图显示了C12 序列中的原始碱基分布。图e 中突变为指定碱基的突变频率与原始碱基分布一致。

1、为了研究碱基修饰对NGS误差率的影响。以5’-乙炔-脱氧尿苷(EdU)代替胸腺嘧啶合成了C12_EdU 样本序列模板。在非保护条件下，约20%的EdU转化为酮副产物(KdU)，这可能对PCR的保真性造成影响。
2、与其他只含标准碱基的C12样品相比，C12_ EdU突变序列比例和错误率明显增加（表1所示），原碱基突变频率和指定碱基突变频率也显著增加（图2 d,e所示）。与其他C12样本类似，随着位置的增加，突变频率变大（图2 g 所示）。

1、Table2 中描述了分析的重复序列。GATC和G4A4T4C4由于正链和负链不能退火，所以不能使用NGS进行测序。
2、所有初始重复序列使用引物结合的FT2文库进行分析。如Table3所示，重复序列的突变序列占比和碱基错误率都低于C12样品。FT2_T4G4C4A4样品虽然具有较低的碱基错误率，但是与FT2_GATC样品相比具有较高的突变序列占比。如图3 a b 所示，这是因为FT2_T4G4C4A4样品每个重复单元的前3个碱基的具有极低的突变频率，但是最后一个碱基却有较高的突变频率。FT2_GATC样品与C12样品一致，随着位置的增加，突变频率变大。
3、如图3 c d所示，原始碱基突变为哪种碱基具有特殊的偏好性。图3 e 汇总了突变碱基的关系，碱基更偏好于突变成随后的碱基。
4、Table4 汇总了各个样品中一个碱基突变成另一个碱基的比例。在完全随机状态下，一个碱基突变成另一个碱基的比例是33.3%，而表4 中的比例为FT2_GATC(64%)至FT2_T4G4C4A4(84%)。
5、如图3f 所示，随着所有测试样本中相同的连续核苷酸的数量的增加，后续核苷酸的突变频率稳步增加(从65%到85%)，并且与核苷酸的顺序无关。

1、为了评估测序数据的重复性，FT2_GATC 和 FT2_T4G4C4A4样品进行了重新建库、测序分析，见FT2_GATC_II、FT2_T4G4C4A4_II 样品。为了评估引物结合位点对突变率的影响，用D3 文库结合TCGA和T4G4C4A4进行了重新分析。
2、图4a,b以及从Table 3和Table 4可以看出，尽管FT2-GATC获得的序列数量相差5倍，但错误率、突变频率、突变序列数量以及对后续核苷酸的突变频率的变化很小.
3、尽管D3-TGCA的突变频率和错误率略低于FT2-TGCA，但对后续核苷酸的突变频率高于FT2-TGCA，而D3-T4G4C4A4与FT2-TGCA的突变频率无差异。

1、随着序列长度的增加，突变频率的增加和后续核苷酸的高突变率可以在所有样本中被识别出来，这可能是由于相位效应，我们的目的是将这些从分析中排除。
2、因此，通过评估了不同样本中26个最丰富的序列，发现包含pre-phasing 效应的序列被缩短。显然，序列的缩短也可能是由于碱基缺失导致的，pre-phasing效应和碱基缺失是无法区分的。
3、如图5 a b 和 Table 5所示，去除缩短序列之后，所有测试样本的突变序列百分比和错误率都有大幅度的下降。如图5 cd 所示，去除缩短序列之后，之前观察到所有样本随着序列长度增加突变频率增加的趋势也完全消失。
4、如图5 e 和 Table 5 Tabel6所示，碱基更偏好于突变成随后的碱基的突变频率下降到预期的33.3%左右，现在与相同连续核苷酸的数量无关。
5、Table 6 汇总了去除缩短序列后的变化。分析序列的数量平均减少5.2%，未突变序列增加5.6%。相比之下，错误率下降了79%。所有这些都是非常明确的迹象，表明我们忽略了大部分通过pre-phasing 产生的突变序列，而没有排除高百分比的序列。
6、因此，重新分析了样本，以确定NGS中的“真实”错误率。在排除C12_EdU样品后，所有样品的每个碱基的平均错误率为0.24± 0.06%，平均突变序列百分比为6.4 ± 1.24%。
7、图6 展示了去除短序列后，所有样品中一个核苷酸替换另一个核苷酸的突变百分比。平均突变率是在排除C12_EdU样品后计算的。

1、为了确定在体外筛选过程中排除短序列对样品的影响，我们重新分析了选择了碱基修饰的GFP配体样品。图7显示了在不同的选择周期的四种不同模式频率。在去除缩短序列的前后略有不同，但总体趋势和绝对频率都没有改变。

我们的突变数据显示了phasing效应的巨大影响，我们可以通过去除所有缩短的序列来排除phasing效应。尽管文献中已经显示了问题的原因，但它并不是每一个测序仪器的所面临的突出问题。因此文章建议NGS用户可以定期的使用这篇文章发布的重复序列进行测试，以更好的了解测序仪器的错误类型和频率。关于使用NGS分析指数富集(SELEX)，缩短序列的去除也可能导致绑定序列的去除，因为缩短的序列也可能是富集文库所固有的。如果缩短的序列占富集文库的比例较大，我们的策略并不能很好的起作用。如果是这样的话，我们建议用计算 *** 排除phasing 效应。此外，单序列分析在测序过程中受到实际突变和测序错误的影响要比这里基于序列家族的分析影响大得多。

样本准备和测序在不同的runs。

分析NGS数据所用的软件是 COMPAS，先根据样本唯一barcode信息对数据进行拆分。按照序列的相似度进行聚类，并计算每种类型序列的reads支持数。为了去除phasing的影响，进行了了除缩短的序列去除，只有正确长度和较长的序列才会进行后续的分析。

突变序列频率用于计算有突变的reads占所有reads的比例。每个核苷酸的突变率是由核苷酸分布从1减去特定位置正确核苷酸的频率计算出来的。一个特定核苷酸的每个核苷酸的突变频率的平均值和标准差被给出为“突变nt”。所有突变核苷酸的总体平均值和标准偏差就是“错误率”。
为了计算“突变成nt”的平均值和标准差，我们考虑了该核苷酸不是原始核苷酸的所有位置。

Shapiro-Wilk 用于检测正态性。单因素方差分析、双尾t检验、非正态分布采用Kruskal-Wallis检验。

如下图所示，pre-phasing效应会在一个测序周期中加入互补配对的TA两个碱基，但是多插入的A碱基测序成像是不能显示出来的，虽然后续的序列会逐渐的加入，但是最终的测序序列会变短,而且多添加碱基之后的所有碱基会被认为是突变。这也是虽然pre-phasing影响reads很少，但是会对错误率造成重大影响的原因。

[1] Pfeiffer, F., Gröber, C., Blank, M. et al. Systematic evaluation of error rates and causes in short samples in next-generation sequencing. Sci Rep 8, 10950 (2018). https://doi.org/10.1038/s41598-018-29325-6
[2] 测序原理参考： https://www.cnblogs.com/think-and-do/p/6638157.html

单细胞研究|| 利用 Illumina®技术的近期单细胞研究文献综述(数据分析)

单细胞研究|| 利用 Illumina®技术的近期单细胞研究文献综述（应用篇一）主要介绍单细胞技术在癌症、宏基因组学、干细胞、发育生物学、免疫学、神经生物学方面的应用。
单细胞研究|| 利用 Illumina®技术的近期单细胞研究文献综述（应用二），主要介绍单细胞技术在药物发现、生殖健康、微生物生态学和进化、植物生物学、法医学、等位基因 – 特定基因表达方面的应用。
单细胞研究|| 利用 Illumina®技术的近期单细胞研究文献综述(样本制备)

单细胞测序带来数据分析的独特挑战单个哺乳动物细胞包含50,000–300,000个转录本，且各个细胞间的基因表达值存在显著差异。虽然每个单个细胞可表达数十万个转录本，但高达85%的转录本仅有1–100个拷贝。因此，在 scRNA-Seq 中捕获低丰度mRNA转录本并扩增合成的cDNA以确保所有转录本最终在文库中均匀呈现至关重要。

已知丰度的外参定量标准可帮助区分具有生物学意义的基因表达改变导致的技术变异性/噪声。分子索引也可校正测序偏差，而近期对自动样本处理的改进可进一步降低技术变异性。

DNA扩增和单细胞DNA-Seq技术的杂峰可通过使用专为此目的设计的计算算法来减少。本节着重描述一些单细胞测序数据分析 *** （表 2）。

表2. 单细胞测序数据分析 *** 总结

参考文献

NGS常用于检测组织基因组DNA中的SNV，但是分析单细胞中的SNV易受到WGA相关杂峰的影响。为克服这一技术挑战，作者开发了单细胞多重置换扩增（SCMDA）以及相关的单细胞变异检出算法SCaller。在本研究中，作者从成纤维细胞克隆中分离了未扩增的基因组DNA。他们还从这些克隆中分离了单个细胞并使用 SCMDA 对单细胞基因组 DNA 进行了扩增。他们利用 HiSeq 2500 和 HiSeq X Ten 系统对经 SCMDA 扩增和未扩增的样本进行了全基因组测序，并使用SCaller对SNV进行了鉴定。通过比较来自单细胞和亲本克隆的SNV，作者证实他们的程序能准确分析单细胞基因组中的 SNV。

Illumina的技术：HiSeq 2500和 HiSeq X Ten 系统

单细胞基因组已为未培养微生物带来了大量单个基因组草图；但是，扩增步骤期间MDA杂峰导致覆盖不完整以及不均匀。元基因组学数据集不会发生相同序列偏移，但微生物群落的基因组复杂性妨碍了基因组草图的再现。在本研究中，作者研发了一种新的从元基因组学引导的、单细胞扩增基因组装数据生成种群基因组装的新 *** 。该研究通过完成海洋组1奇古菌门和SAR324类群浮游细菌的单细胞扩增基因组验证了该 *** 。SAR324类群基因组改进的 *** 组合揭示了存在多个单细胞扩增基因组中未发现的基因。

Illumina的技术：TruSeq LT Nano Kit、MiSeq系统

scRNA-Seq法提供了研究复合组织和疾病的无偏倚 *** 。但是，数据会发生高水平的技术噪声，并强烈依赖于表达程度。当基于重要生物学差异聚类细胞时，细胞间差异具有挑战性。例如，分割 *** （包括k 均值聚类和BackSPIN算法）基于细胞周期分离细胞，而不是组织特异性信号。作者引入通路和基因集过离散分析（PAGODA），通过检测已测量细胞可分类的所有重要的和潜在的重叠通路克服了该挑战。

Illumina的技术：HiSeq 2000系统

现代单细胞测序技术，尤其那些涉及大规模平行 *** 的技术，常会分离出受压、破碎或灭活细胞。这些低质量细胞可导致数据杂峰，且必须从分析中将其排除。在本研究中，作者提供了scRNA-Seq的首个工具，可以简单彻底的方式处理并移除低质量细胞。分析流程使用了 20 个高度组织的整合到机器学习算法中的生物学和技术功能集。作者在CD4+ T 细胞、骨髓树突状细胞和小鼠ESC上验证了该 *** 。 *** 还定义了视觉上无法检测的低质量细胞的新类型。

Illumina的技术：HiSeq 2000系统

scRNA-Seq数据集受固有技术噪声影响，不利于对细胞亚群的鉴定。为克服该困难以及影响基因表达异质性的未知隐藏因素，作者研发了一种模型（scLVM），以说明RNA-Seq数据集中未观察到的因素并使用单个小鼠ESC验证其模型。研究还是用HiSeq 2000系统在初始T细胞分化为TH2细胞过程中执行单个T细胞的RNA-Seq。研究将scLVM模型应用到T细胞RNA-Seq数据集并校正细胞周期基因表达。该研究能鉴定通过仅使用非线性 PCA 或 k 均值聚类无法发现的分化中 T 细胞的 2 个亚群。

Illumina的技术：Nextera XT DNA Sample Preparation Kit、HiSeq 2000系统

鉴定成分细胞类型对于了解给定器官或组织的功能至关重要。鉴定细胞类型的现有 *** 涉及基于特定标记成像和分离细胞，但是如果细胞类型稀有（如CSC或CTC）则该 *** 具有挑战性。在本研究中，作者使用HiSeq 2500 系统对数百个来自小鼠肠类器官的随机选定细胞执行 RNA-Seq。为鉴定类器官内的细胞亚群，研究研发了RaceID，一种在细胞符合群体中鉴定稀有细胞类型的计算 *** 。研究通过在取样的类器官细胞群鉴定单个激素生成细胞类型验证了该算法，并确定Reg4作为这些稀有肠道内分泌细胞的新标记。最后，研究使用 Reg4 捕获这些稀有细胞，以研究其遗传多样性，确定大量肠道内分泌细胞谱系。

Illumina的技术：HiSeq 2500系统

scRNA-Seq可在单个细胞群中捕获振荡动力学，并可发现大量测序试验中缺失的振荡。但是，连续RNA-Seq时期数列试验不可行，且对于大多数振荡系统可能无法同步化。先前已研发了Monocle254计算算法来在scRNA-Seq数据中通过几个不同时间点的数据拟时间排序解决该挑战。在本研究中，作者研发了Oscope，一种使用来自非同步细胞的scRNA-Seq数据确定并鉴定振荡基因的转录动力学的计算算法。研究通过将该模型应用到多种 scRNA-SeqIllumina 数据集（包括人 ESC）对 Oscope 进行了验证，且研究发现了与 Fluidigm C1 芯片上的捕获位点和输出孔位置相关的振荡模式。

Illumina的技术：Nextera XT DNA Sample Preparation Kit、HiSeq 2500系统

scRNA-Seq是一种发现新细胞类型、了解调控 *** 和重建发育过程的成熟 *** 。但是，scRNA-Seq通常涉及来自组织的分离细胞，因此破坏了其自然空间关系。为在scRNA-Seq数据中捕获空间关系，作者研发了Seurat，一种将较小的引导空间指定的“标志”基因集的scRNA-Seq与补充性原位杂交数据结合起来的计算策略。研究通过空间绘制从斑马鱼胚胎分离的851个单个细胞并创建空间模式的全转录组图对Seurat进行了验证。Seurat 可正确定位细胞的罕见亚群，并可绘制空间受限细胞以及表达模式更分散的细胞。

Illumina的技术：Nextera XT DNA Sample Preparation Kit、HiSeq 2500系统

Illumina的技术：HiSeq 2500系统

在分析单细胞DNA-Seq数据前，必须将DNA拷贝数异常与WGA杂峰区分开。该要求使得单细胞测序数据DNA拷贝数分析和单倍型分析有难度。在本研究中，作者研发了一种单细胞基因组分析法，可在单细胞全基因组确定单倍型和拷贝数——称为haplarithmisis的程序。 *** 解读单细胞的SNP等位基因片段，并将这些数据整合到计算工作流程中进行关联疾病变异的归因（siCHILD）。作者通过对来自人体外受精胚胎的单个淋巴细胞和人分裂球确定单细胞基因组中带有疾病等位基因的单倍型验证了该 *** 。

Illumina的技术：TruSeq DNA LT Sample Preparation Kit、HumanCytoSNP-12v2.1 BeadChips、HiSeq 2000/2500系统

在单细胞DNA-Seq中，序列杂峰由必要的DNA扩增法引入，如MDA255和 MALBAC。256在本研究中，作者开发了一种新的统计 *** ，用于定量评估由于WGA产生的单细胞DNA扩增偏差。通过比较MDA和MALBAC DNA文库，研究提供由MDA和MALBAC生成的单细胞文库的基准比较，并还确定了扩增水平下基因组范围偏差的普遍特征。该研究的统计模型可校正单细胞 WGA 数据中的等位基因偏差。

Illumina的技术：MiSeq 和 HiSeq 2500系统

高通量测序 Illumina HiSeq 2000 和Roche454 两种平台的区别

他们是两家不同公司的测序平台
1.原理
illumina的Hiseq2000和454都是通过单序列的扩增放大信号，只是Hiseq2000中间有桥式扩增，可以两头测序。测序长度来讲，Hiseq2000一般为1X100和2X100的模式，而454平均500bp左右，最长700左右，测序准确度来讲Hiseq的测序准确度稍高一些，454由于在测序的过程每次是加一种碱基，所有如果是单碱基重复，比如AAAA，那么区分几个A的准确性就会下降。
2.数据分析和应用方向
数据分析相差不大，只是不同的软件，应用方面两者各有优势，Hiseq2000数据适应性更高。454一般是宏基因组种群丰度测序上应用更好一些，不过illumina也有MIseq代替。
3.通量和价格
HISEQ2000的通量要高一些，价格比454便宜很多。
综合来讲454现在应用面比较窄了，所以在市场上现在也慢慢被代替掉了。现在耗材和试剂也很快就停服务了。
不过Hiseq现在市场上也都2500居多了，并且现在也有新的的技术更新的3000和4000。说实话现在Hiseq2000也很少了。