在“多、快、好、省”中,“数据质量好”是重中之重,SURFSeq 5000 V1.0全系测序试剂盒(FCM、FCH)现均已支持Balanced+Enhanced双模式Q40(≥85%/≥90%)高质量数据输出。
Enhanced模式下,与市情其他Q40测序产品比较,SURFSeq 5000整体测序缺点率减少60%以 上,低至0.05%级别,强力开启测序缺点率的"万五时期"。
01 双模式Q40高质量数据输出
SURFSeq 5000为用户供应Balanced Mode(BM,均衡模式)和Enhanced Mode(EM,增强模式)两⼤Q40测序模式。
在Balanced Mode下,SURFSeq 5000可实现≥90% bases≥Q30,≥85% bases≥Q40。在Enhanced Mode下,SURFSeq 5000可实现≥95% bases≥Q30,≥90% bases≥Q40。Q30/Q40%基于真迈生物企业标准品文库多轮测试结果的中位数值设定,该数值受到样本状态、文库质量和定量准确性等成分的影响而发生变革。
Balanced Mode是平衡数据质量和芯片利用率的最优解。在该模式下,我们统计了近3个月,SURFSeq 5000FCH芯片7大类运用方向共116轮的测试数据。个中100轮Balanced Mode PE150测序数据的Q30、Q40均值达分别达到了95.1%和91.3%,Output reads均值达到了2500M reads(官标2000M reads)。全新的Enhanced Mode在Balanced Mode的根本上,加入了基于机器学习构建的序列特色模型等多维信息,全新的“3D Basecall”可更全面的识别测序过程中的“问题序列区域”,并更准确地进行碱基识别和Q值打分。统计16轮Enhanced Mode下WGS PE150测序数据,Q30、Q40均值达分别达到了97.1%和95.2%,Output reads均值达到了2350M reads。
在数据产量Output reads方面,Enhanced Mode比较Balanced Mode会有5%±2%水平的降落(该差异水平依据为“对相同原始图像分别利用两种模式下basecall算法得到的数据差值”),降落比例受到样本状态、文库构建办法及质量和文库定量精准度等成分影响。
02 SURFSeq 5000 开启"万五时期"
SURFSeq 5000为双芯片平台,并支持异步滚动上机和分lane样本加载功能。如下表所示,我们采取了双FCH芯片在同一台机器上同时开展Enhanced Mode和Balanced Mode测试。个中Lane1、Lane2加载E.coli全基因组文库样本(PCR-plus),Lane3、Lane4加载GIAB HG001人全基因组⽂库样本(PCR-plus)。
GIAB HG001测序缺点率利用BWA MEM比拟至GRCh37参考基因组(NIST V4.2.1)打算得到,因受参考基因组质量及比拟软件性能影响,HG001测序缺点率数值中包含了较高比例的序列比对缺点(非测序缺点)。
如上图所示,Enhanced Mode下,PE150测序数据整体缺点率比较Balanced Mode低落了50~60%,低至0.05%级别。Q30 /Q40 均值高达97.6%/96.0%。
03 Q值打分体系精准性评估
使⽤Q/Q图对SURFSeq 5000 Q值打分体系精准性进行评估,Balanced Mode和Enhanced Mode双模式下Predicted Q Score(x)和Observed Q Score(y)均展现出精良的⼀致性。
上图展示了目前部分主流测序平台测序整体缺点率表现情形,个中SURFSeq 5000 Balanced Mode与NovaSeq X(Q40升级后) 表现相称。在Enhanced Mode下,SURFSeq 5000整体测序缺点率低落60%以上,低至0.05%级别,强力开启测序缺点率的“万五时期”。
基于E.coli进行打算 ▲基于NovaSeq X Software V1.2 Q40升级版本测试
SURFSeq 5000 Balanced Mode(≥85%Q40)和Enhanced Mode(≥90% Q40)为用户供应了更多选择。“万五时期”将快速推动以“超低频突变精准检出”为代表的运用进入发展快车道,真迈生物期待与各领域互助伙伴在“万五时期”一同探索基因测序技能的无限可能。
04 双模式Demo数据下载
如需获取SURFSeq 5000双模Q40 Demo数据,可关注“真迈生物”官方公众号,并在对话框回答关键词“万五时期”获取下载链接。
关于测序数据缺点率打算的补充解释
如上表所示,Q40对应的测序缺点率在0.01%级别,但在运用端投入剖析流程的是包含了Q40在内的所有Q值碱基(例如Q0~40)的测序数据,以是测序数据缺点率是基于各Q值碱基缺点率及依据碱基占比加权打算得出。打算公式如下:
Error rate=Q1error×Q1%+Q2error×Q2%+.......+Q40error×Q40%