CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
基因分型测序研究进展
作者:覃海文 孙涛 孔德英 滕少娜 周林 高文娜 郑春生 石娟
覃海文 孙涛 孔德英 滕少娜 周林 高文娜 郑春生 石娟
覃海文 1,2 孙 涛 1,2 孔德英 1,2 滕少娜 1,2 周 林 1,2 高文娜 3 郑春生 3 石 娟 4 *
摘 要 随着第二代测序技术的发展,简化基因组测序已成为一种高效、低成本的开发基因组遗传资源的方法。基因分型测序(Genotyping-By-Sequencing,GBS)技术基于DNA限制性内切酶对植物基因组进行简化,不依赖于参考基因组开发的SNP标记,为非模式植物的基因组研究提供了快速、精准、高通量和高性价比的工具,在动物基因组遗传研究领域也得到了快速发展。本文重点介绍GBS的主要操作步骤、技术类型、研究进展及其应用情况。
关键词 基因分型测序;研究进展;应用
Research Progress of Genotyping-by-sequencing
QIN Hai-Wen1,2 SUN Tao1,2 KONG De-Ying1,2 TENG Shao-Na1,2
ZHOU Lin1,2 GAO Wen-Na3 ZHENG Chun-Sheng3 SHI Juan4*
Abstract With the development of second-generation sequencing technology, simplified genome sequencing has become an efficient and low-cost method to develop genetic resources of plant genomes. Genotyping-By-Sequencing (GBS) technology is based on DNA restriction endonuclease to simplify the plant genome, and does not rely on SNP markers developed from reference genomes, which provides a rapid, precise, high-throughput and cost-effective tool for genomic studies of non-model plants, and it has seen rapid development in the field of animal genomic genetic studies in these years. This paper mainly focuses on the main operational steps, types of technologies, research progress and the application of GBS.
Keywords Genotyping-By-Sequencing (GBS); research progress; application
第二代测序技术是从第一代测序——Sanger法测序发展起来的高通量、高速度、高精度和低成本的测序技术,它可以一次对数百万个DNA片段进行快速测序,提供有关基因组结构、遗传变异、基因表达谱和表观遗传修饰等信息[1]。广泛使用的测序平台包括Roche 454测序平台[2]、离子激流测序平台(Ion Torrent)[3]和Illumina测序平台[4]。相对于一代测序,第二代测序技术大大降低了测序成本并大幅度提高了测序速度,显著提高了DNA测序的通量、速度和精准度,在基因组学研究和临床诊断中应用广泛,如突变体的定位、检测SNP位点、全基因组甲基化测序等[5]。
随着第二代测序技术的发展,简化基因组测序(Reduced-Representation Genome Sequencing,RRGS)已成为一种高效、低成本的开发动植物基因组遗传资源的方法,其主要利用限制性内切酶(Restriction Endonuclease,RE)打断基因组DNA,对特定片段进行高通量测序,从而获得大量遗传多态性序列来充分代表目标物种全基因组信息。此方法实验步骤简单、成本低,而且可不依赖参考基因组就能获得全基因组范围内的遗传多态性信息,因而广泛应用于生态学、进化学和基因组学等领域。其中,基因分型测序(Genotyping-By-Sequencing,GBS)是专为Illumina测序技术而开发的,它是根据整个基因组的简化表示来识别SNP,是一项应用前景广阔的技术,为筛选基因组资源匮乏的非模式标本的大型未定性基因库提供了巨大潜力[6]。与其他降低复杂性的方法相比,GBS是一种相对简单快捷的方法,可生成大量SNP数据[7-8]。它生成基因分型文库的方案简单,无须特定的凝胶粒度选择步骤,避免了使用不同的Y-适配体,并可通过手动或自动液体处理方法实现并行化[9]。GBS通过使用适当选择的限制性内切酶来降低基因组的复杂性,从而避免在测序过程中针对基因组中无信息的重复区域[6]。由于参考基因组的可用性不是GBS实施的必要条件,且成本较低、实验操作简单,并能实现高通量测序获得的SNP丰富的全基因组信息,因而目前广泛用于植物遗传多样性分析、系统进化、分子标记定位和高密度遗传图谱构建等研究[10]。
1 GBS技术的主要操作步骤
GBS技术的主要操作步骤包括以下三点:
(1)GBS文库构建:利用限制性内切酶进行酶切,酶切后的DNA片段两端用T4连接酶加上接头和barcode,之后进行PCR扩增,得到的PCR扩增产物纯化后立即进行荧光定量分析,确保其浓度符合后续测序要求。
(2)上机测序。
(3)数据质控与比对:使用FastQC[11]对原始测序序列(Raw Reads)进行质控,再采用Burrows-Wheeler-Alignment(BWA)[12]将剪切Reads与参考基因组进行比对,如果没有参考基因组,可通过Reads聚类建立Mock Reference,该流程可以最大程度地利用GBS数据并在没有参考基因组的情况下执行SNP基因分型分析;接着使用samtools mpileup[13]准备所有BAM文件的叠加文件,以便用PLATYPUS[14]进行遗传变异调用;然后使用VCFtools[15]过滤双等位基因SNP和低频等位基因,之后生成最终的VCF文件,并使用R[16]中的adegenet进行主成分分析等数据分析。
2 GBS技术类型
如今已有研究开发出了多种GBS技术类型,重点集中于优化测序文库构建和DNA片段大小选择。这些测序方法在对限制性内切酶的选择、DNA片段大小范围和特定接头的使用上存在一定的差异[17]。
通常从GBS中调用SNP数据的软件包括两类生物信息学管道:(1)不需要参考基因组的管道,如UNEAK[18]或GBS-SNP-CROP[19];(2)基于参考基因组进行SNP检测的管道,如TASSEL-GBS[20]、IGST[8]和Fast-GBS[21]。最近对这些工具的比较表明,两种类型的管道都可以成功地从GBS的读取数据中提取SNPs,但第二种类型的管道通常产生更多的SNPs[22]。此外,由于检测到的SNP精确定位在参考基因组上,因此所得信息更有用。
2.1 无参考基因组的GBS管道
对于一些缺乏参考基因组的高度杂合多倍体(四倍体和八倍体)植物物种,早期的检测SNP的方法很难实现,如今有基于网络的UNEAK方法和GBS-SNP-CROP可高效检测出SNP,无论是否有参考基因组,都可使用任意读取长度的对端GBS数据来促进遗传表征。它们与常规的GBS操作过程相似,但在与参考基因组比对的步骤,会直接将GBS原始数据经过解析和质量过滤后的Reads来构建特定于GBS的简化表示引用,以启用GBS读取映射并促进SNP的检测。这一阶段依赖于基于相似性的聚类策略来对GBS reads进行分组,以便为全套GBS片段生成具有代表性的参考序列。而且GBS-SNP-CROP与TASSEL-UNEAK相比,该管道有较好的效果,不仅鉴定的SNP数量显著增加,而且平均读取深度增加,且大大降低了基因分型错误率[19]。
2.2 基于参考基因组进行SNP检测的管道
现在大多数研究是基于物种的参考基因组来进行GBS分析,但会根据研究的物种去选择合适的限制性内切酶,以及选择合适的参数,如所需的覆盖深度、读映射的质量或允许的发散度等,以获得成功的映射[21]。而且尽管有些GBS生物信息学管道是为具有参考基因组的物种设计的,但可以使用由许多contigs组成的不完整基因组组装作为替代参考[20]。
3 GBS研究及应用进展
3.1 构建高密度遗传图谱
连锁图谱的构建对于植物遗传研究和标记辅助育种计划至关重要[23]。GBS可以产生高密度的连锁图谱,特别是在缺乏广泛基因组资源的非模式物种中。通常可以利用GBS技术对植物群体进行全基因组SNP检测和基因分型,生成单种群连锁图谱,并使用共同的SNP标记作为桥梁,将它们合并成一个高密度的综合遗传图谱[24-25]。
3.2 遗传多样性研究
GBS可精确检测种群和野生种群亲缘关系的杂合SNP,尤其是应用于农作物和其他树种上,已成功应用于玉米Zea mays、水稻Oryza sativa、大豆Glycine max、马铃薯Solanum tuberosum、大麦Hordeum vulgare、小麦Triticum aestivum、绿豆Vigna radiata、木薯Manihot esculenta、乌头叶豇豆Vigna aconitifolia、黄秋葵Abelmoschus esculentus、马尾松Pinus massoniana、宽杯杜鹃Rhododendron sinofalconeri、落叶松属Larix spp.等物种的遗传多样性研究中[8,10,26-38],为获取品质优良的高产品种和抗性育种提供理论依据。
近年来,GBS在动物遗传多样性的研究也逐渐增多,已成为家畜等常见动物基因分型的一种经济实惠的替代方法。例如,利用GBS揭示了来自秘鲁安第斯山脉6个不同地区传统饲养的豚鼠种群遗传多样性和遗传距离[39];采用GBS技术对三角鲂Megalobrama terminalis、翘嘴鲌Culter alburnus、蒙古鲌C. mongolicus及其杂交子代的遗传结构进行分析,为鲂鲌鱼类的杂交选育提供更多的遗传学数据[40]。
此外,GBS应用于昆虫遗传多样性的研究领域越来越广泛,特别是亚种以下的鉴定,例如使用GBS来检测新西兰石蝇种群(Zelandoperla fenestrata, Z. tillyardi和Z. pennulata)的全翅和退化翅个体的SNP位点,发现几个群体的基因组中可能存在形态类型之间的高度分化[41];利用GBS技术并结合声学和生态学数据对枯蝉Subpsaltria yangi不同地理种群的遗传分化和适应性分化等进行研究[42];采用GBS研究巴西和阿根廷农业区的草地贪夜蛾Spodoptera frugiperda种群的遗传多样性等[43]。
3.3 种质鉴定
GBS适用于对基因组复杂且未测序的植物种质进行分子鉴定。有学者利用GBS分析了24个不同黄芥子Sinapis alba品种的遗传多样性,发现品种之间、黄籽类型和黑籽类型之间存在变异,这体现了GBS在植物种质基因组鉴定中的实用性,也揭示了精英育种品系之间的遗传关系,对黄芥改良的亲本选择具有价值意义[44]。
4 结语
在过去的10多年里,基因测序技术研究取得了显著的进展,特别是随着第二代测序技术的快速发展,以高通量、高精度、低成本的方式提供了很多分析DNA和RNA的技术工具。这种变革性技术迅速推动了基因组学在各个领域的进步。GBS是一种有发展前景、低成本且可靠的常规筛选技术,随着样品制备方法的改进、测序深度的增加、单碱基测序成本的降低,GBS的可靠性与实用性在逐步提高,该技术展现出巨大的潜力,为基因组资源相对匮乏的非模式作物的构建和基因库的筛选提供强有力的支持,同时实现动物或植物亚种之间的快速精准鉴定。
参考文献
[1] Satam H, Joshi K, Mangrolia U, et al. Next-generation sequencing technology: Current trends and advancements[J]. Biology-Basel, 2023, 12(7): 997.
[2] Ronaghi M, Karamohamed S, Pettersson B, et al. Real-time DNA sequencing using detection of pyrophosphate release[J]. Analytical Biochemistry, 1996, 242(1): 84-89.
[3] Rothberg J M, Hinz W, Rearick T M, et al. An integrated semiconductor device enabling non-optical genome sequencing[J]. Nature, 2011, 475(7356): 348-352.
[4] Slatko B E, Gardner A F, Ausubel F M. Overview of Next-generation sequencing technologies[J]. Current Protocols in Molecular Biology, 2018, 122(1): e59.
[5] Pervez M T, Hasnain M, Abbas S H, et al. A comprehensive review of performance of next-generation sequencing platforms[J]. Biomed Research International, 2022, 2022: 3457806.
[6] Elshire R J, Glaubitz J C, Sun Q, et al. A robust, simple genotyping-by-sequencing (GBS) approach for high diversity species[J]. PLoS One, 2011, 6(5): e19379.
[7] Davey J W, Hohenlohe P A, Etter P D, et al. Genome-wide genetic marker discovery and genotyping using next-generation sequencing[J]. Nature Reviews Genetics, 2011, 12(7): 499-510.
[8] Sonah H, Bastien M, Iquira E, et al. An improved genotyping by sequencing (GBS) approach offering increased versatility and efficiency of SNP discovery and genotyping[J]. PLoS One, 2013, 8(1): e54603.
[9] Velmurugan J, Mollison E, Barth S, et al. An ultra-high density genetic linkage map of perennial ryegrass (Lolium perenne) using genotyping by sequencing (GBS) based on a reference shotgun genome assembly[J]. Annals of Botany, 2016, 118(1): 71-87.
[10] 张序, 张秀姣, 马永鹏, 等. 基于GBS简化基因组技术的宽杯杜鹃遗传多样性分析[J]. 植物研究, 2021, 41(3): 429-435.
[11] Andrews S. FastQC: a quality control tool for high throughput sequence data[Z]. Cambridge, United Kingdom, 2010.
[12] Li H, Durbin R. Fast and accurate long-read alignment with Burrows-Wheeler transform[J]. Bioinformatics, 2010, 26(5): 589-595.
[13] Li H, Handsaker B, Wysoker A, et al. The sequence alignment/map format and SAMtools[J]. Bioinformatics, 2009, 25(16): 2078-2079.
[14] Rimmer A, Phan H, Mathieson I, et al. Integrating mapping-, assembly-and haplotype-based approaches for calling variants in clinical sequencing applications[J]. Nature Genetics, 2014, 46(8): 912-918.
[15] Danecek P, Auton A, Abecasis G, et al. The variant call format and VCFtools[J]. Bioinformatics, 2011, 27(15): 2156-2158.
[16] Team R C. R: A language and environment for statistical computing[J]. MSOR Connections, 2014, 1.
[17] 徐千淯. 马尾松GBS文库限制性内切酶优化及SNP标记开发研究[D]. 长沙: 中南林业科技大学, 2023.
[18] Lu F, Lipka A E, Glaubitz J, et al. Switchgrass genomic diversity, ploidy, and evolution: novel insights from a network-based SNP discovery protocol[J]. PLoS Genetics, 2013, 9(1): e1003215.
[19] Melo A T, Bartaula R, Hale I. GBS-SNP-CROP: a reference-optional pipeline for SNP discovery and plant germplasm characterization using variable length, paired-end genotyping-by-sequencing data[J]. BMC Bioinformatics, 2016, 17: 29.
[20] Glaubitz J C, Casstevens T M, Lu F, et al. TASSEL-GBS: a high capacity genotyping by sequencing analysis pipeline[J]. PLoS One, 2014, 9(2): e90346.
[21] Torkamaneh D, Laroche J, Bastien M, et al. Fast-GBS: a new pipeline for the efficient and highly accurate calling of SNPs from genotyping-by-sequencing data[J]. BMC Bioinformatics, 2017, 18(1): 5.
[22] Torkamaneh D, Laroche J, Belzile F. Genome-wide SNP calling from genotyping by sequencing (GBS) data: a comparison of seven pipelines and two sequencing technologies[J]. PLoS One, 2016, 11(8): e161333.
[23] 董雨青, 魏雪苹, 强亭燕, 等. 简化基因组测序技术在植物遗传分析中的应用[J]. 中国农学通报, 2022, 38(8): 25-32.
[24] Mathiazhagan M, Elangovan D, Chinnaiyan V, et al. A high-density linkage map construction in guava (Psidium guajava L.) using genotyping by sequencing and identification of QTLs for leaf, peel, and pulp color in an intervarietal mapping population[J]. Frontiers in Plant Science, 2024, 15: 1335715.
[25] Shaha M R F, Liew L P, Zaman Q F, et al. Genotyping by sequencing for the construction of oil palm (Elaeis guineensis Jacq.) genetic linkage map and mapping of yield related quantitative trait loci[J]. PeerJ, 2024, 12: e16570.
[26] 刘天宇. 马尾松种子园亲本GBS-SNP开发及群体遗传多样性研究[D]. 长沙: 中南林业科技大学, 2023.
[27] Alipour H, Bai G, Zhang G, et al. Imputation accuracy of wheat genotyping-by-sequencing (GBS) data using barley and wheat genome references[J]. PLoS One, 2019, 14(1): e208614.
[28] Arbelaez J D, Moreno L T, Singh N, et al. Development and GBS-genotyping of introgression lines (ILs) using two wild species of rice, O. meridionalis and O. rufipogon, in a common recurrent parent, O. sativa cv. Curinga[J]. Molecular Breeding, 2015, 35(2): 81.
[29] Escudero M, Eaton D A, Hahn M, et al. Genotyping-by-sequencing as a tool to infer phylogeny and ancestral hybridization: a case study in Carex (Cyperaceae)[J]. Molecular Phylogenetics and Evolution, 2014, 79: 359-367.
[30] Manching H, Sengupta S, Hopper K R, et al. Phased genotyping-by-sequencing enhances analysis of genetic diversity and reveals divergent copy number variants in maize[J]. G3-Genes Genomes Genetics, 2017, 7(7): 2161-2170.
[31] Poland J A, Brown P J, Sorrells M E, et al. Development of high-density genetic maps for barley and wheat using a novel two-enzyme genotyping-by-sequencing approach[J]. PLoS One, 2012, 7(2): e32253.
[32] Su C, Wang W, Gong S, et al. High density linkage map construction and mapping of yield trait QTLs in maize (Zea mays) using the genotyping-by-sequencing (GBS) technology[J]. Frontiers in Plant Science, 2017, 8: 706.
[33] Uitdewilligen J G, Wolters A M, D’Hoop B B, et al. A next-generation sequencing method for genotyping-by-sequencing of highly heterozygous autotetraploid potato[J]. PLoS One, 2013, 8(5): e62355.
[34] Kohli M, Bansal H, Mishra P G, et al. Genome-wide association studies for earliness, MYMIV resistance, and other associated traits in mungbean (Vigna radiata L. Wilczek) using genotyping by sequencing approach[J]. PeerJ, 2024, 12: e16653.
[35] Orek C, Kyallo M, Oluwaseyi S, et al. Genotyping by sequencing reveals genetic relatedness and duplicates amongst local cassava (Manihot esculenta Crantz) landraces and improved genotypes in Kenya[J]. Biotechnology Journal International, 2023, 27(5): 29-46.
[36] Kumar A Y, Kumar C S, K. R K, et al. Genetic diversity, population structure, and genome-wide association study for the flowering trait in a diverse panel of 428 moth bean (Vigna aconitifolia) accessions using genotyping by sequencing[J]. BMC Plant Biology, 2023, 23(1): 228.
[37] Jian S, Gaowen X, Yudie H, et al. Genome-wide assessment of genetic diversity and association mapping for salt tolerance traits in okra (Abelmoschus esculentus L. Moench) using genotyping-by-sequencing[J]. Scientia Horticulturae, 2023, 313.
[38] Haupt S, Bernhardt N, Killing S, et al. Biogeography of larches in eastern Siberia-using single nucleotide polymorphisms derived by genotyping by sequencing[J]. Ecography, 2024, 7.
[39] Borja Lozano V M, Vigil Santillán B, More Montoya J M, et al. Genotyping-by-sequencing reveals a high number and quality of single nucleotide polymorphisms in guinea pigs (Cavia porcellus) from the Peruvian Andes[J]. Animal Genetics, 2023, 54(6): 792-797.
[40] 刘凯, 冯晓宇, 沈玉帮, 等. 基于基因分型测序(GBS)技术分析鲂鲌鱼类及其杂交子代的遗传结构[J]. 水产学报, 2021, 45(8): 1307-1316.
[41] Veale A J, Foster B J, Dearden P K, et al. Genotyping-by-sequencing supports a genetic basis for wing reduction in an alpine New Zealand stonefly[J]. Scientific Reports, 2018, 8(1): 16275.
[42] 刘雲祥. 四种中国蝉科昆虫谱系地理学研究暨枯蝉适应性进化研究[D]. 咸阳: 西北农林科技大学, 2020.
[43] Ishizuka T K, Cordeiro E, Alves-Pereira A, et al. Population genomics of fall armyworm by genotyping-by-sequencing: Implications for pest management[J]. PLoS One, 2023, 18(4): e284587.
[44] Fu Y, Cheng B, Peterson G W. Genetic diversity analysis of yellow mustard (Sinapis alba L.) germplasm based on genotyping by sequencing[J]. Genetic Resources and Crop Evolution, 2014, 61(3): 579-594.
本论文由1+X合作单位资助
基金项目:重庆市科技计划项目(2022TIAD-GPX0186);海关总署科研项目(2020HK176)
第一作者:覃海文(1993—),女,壮族,广西河池人,博士,农艺师,主要从事植物检疫工作,E-mail: qinhaiwen17@126.com
通信作者:石娟(1979—),女,汉族,山西新绛人,博士,教授,主要从事植物检疫工作,E-mail: BJshijuan@bjfu.edu.cn
1. 重庆海关技术中心 重庆 400020
2. 国家中药材物种鉴定及质量安全检测重点实验室(重庆) 重庆 400020
3. 中国海关科学技术研究中心 北京 100026
4. 北京林业大学 北京 100083
1. Chongqing Customs Technology Center, Chongqing 400020
2. State Key Laboratory for Species Identification and Quality Safety Inspection of Traditional Chinese Medicine, Chongqing 400020
3. Science and Technology Research Center of China Customs, Beijing 100026
4. Beijing Forestry University, Beijing 100083