Development and identification of SSR markers based on RNA-seq data of Diodon hystrix
-
摘要: 以密斑刺鲀 (Diodon hystrix) 为研究对象,利用RNA-seq技术进行转录组测序及序列组装,最终获得221 762条Unigene序列,N50为2 240 nt,GC含量为46.20%。利用MISA软件从该转录组数据中搜索到106 221个符合条件的SSR位点,分布于62 451条Unigene中,发生频率为28.16%。优势重复单元为单核苷酸、二核苷酸和三核苷酸,发生频率分别为48.99%、32.57%和14.72%,其中单核苷酸重复单元中以A/T为主,占总SSR位点数的46.21%,二和三核苷酸重复单元分别以AC/GT和AGG/CCT为主,占比分别为21.90%和2.70%。选取SSR长度大于等于20 bp的位点设计了17 563个位点的引物,随机挑选160对位点引物进行扩增鉴定,筛选到95对有效扩增引物,占比为59.38%。通过多态性验证,最终获得30对稳定、可重复的多态性引物 (占有效扩增引物的31.58%),其中15对引物表现出高多态性 (PIC>0.5),这些高多态性引物具有评估密斑刺鲀群体多样性的潜力。结果表明,密斑刺鲀转录组数据可作为开发稳定的SSR标记的有效来源,该实验所开发的多态性SSR位点为进一步研究密斑刺鲀的遗传图谱和遗传多样性奠定了基础。Abstract: The transcriptome sequences of Diodon hystrix were obtained by RNA-seq technology, and a total of 221 762 Unigenes were generated by de novo assembly with N50 of 2 240 nt and GC content of 46.20%. By using MISA software, 106 221 SSR loci, which distributed in 62 451 Unigenes with a frequency of 28.16%, were detected from the RNA-seq data of D. hystrix. The dominant repeat units were mononucleotide, dinucleotide and trinucleotide, which accounted for 48.99%, 32.57% and 14.72% of the total SSR loci, respectively. The A/T was the main repeat unit in mononucleotide, accounting for 46.21% of the total SSR loci, while the AC/GT and AGG/CCT were the dominant repeat units in di- and thinucleotides, accounting for 21.90% and 2.70% of the total SSR loci, respectively. Altogether 17 563 pairs of primers were designed by selecting SSR loci with length greater than 20 bp. Then 160 pairs of primers were randomly selected for amplification and identification, and 95 pairs of effective amplification primers were screened, accounting for 59.38%. Thirty pairs of stable and repeatable polymorphic primers were obtained from the effective amplification primers by polymorphism verification (31.58% of the effective amplification primers). Among them, 15 pairs of primers showed high polymorphism (PIC>0.5), which were benefit for assessing the diversity of D. hystrix population. These results indicate that the transcriptome data of D. hystrix can be used as an effective source for the development of stable SSR markers, and the obtained polymorphic SSR loci can provide foundation for the further study of genetic map and genetic diversity of D. hystrix.
-
Keywords:
- Diodon hystrix /
- Transcriptome /
- SSR /
- Polymorphism loci
-
密斑刺鲀 (Diodon hystrix),隶属鲀形目、二齿鲀科,主要分布于热带海域,栖息于潟湖和珊瑚礁,偏好捕食甲壳类等无脊椎动物[1-2]。尽管密斑刺鲀被认为含有河豚毒素[3],但其肉质鲜美,鱼皮富含胶原蛋白,在一些太平洋岛屿[4]以及中国海南南部地区常被食用。除此以外,密斑刺鲀也会被制成标本供私人和水族馆收集[4]。迄今密斑刺鲀仍未进入濒危动物红色名录[5],但其群体资源恢复力较低,并具有较高的灭绝风险,尽快开展对密斑刺鲀生物学及群体遗传学的研究,有利于该物种资源的保护和利用。
简单重复序列 (Simple sequence repeat, SSR) 是真核生物基因组中1~6个任意核苷酸串联组成的高度重复序列[6],其长度分布存在一定的物种特征性[7]。在众多分子标记中,SSR具有无表型效应、不受环境限制和影响、在生物基因组内大量存在、分布均匀、稳定可靠,易于检测等优点,已经成为遗传多样性和亲缘关系研究的重要分子标记技术之一。但传统的SSR标记开发主要利用基因组文库杂交测序,耗时长、效率低,不适合在短时间内开发大量的标记用于遗传学研究。转录组测序 (Transcriptomic sequenceing,RNA-seq) 技术是分析基因型和表型之间关系的有力工具,转录组测序技术可用于快速比较基因表达水平、挖掘简单重复序列和单核苷酸多态性 (Single nucleotide polymorphisms, SNP) 位点等[8-9]。
目前,在鱼类中,已经有巨魾 (Bagarius yarrelli)[9]、黄姑鱼 (Nibea albiflora)[10]、黄颡鱼 (Pelteobagrus fulvidraco)[11]、翘嘴鳜 (Siniperca chuatsi) [12]、牙鲆 (Paralichthys olivaceus)[13]等完成了转录组测序及SSR位点开发工作,但是利用密斑刺鲀转录组数据开发SSR位点及信息分析的研究尚未见报道。本研究主要目的是揭示密斑刺鲀SSR位点在总RNA水平的分布规律和特性,并对SSR位点的多态性进行一定的预测和验证,以期为密斑刺鲀的遗传多样性和分子标记辅助育种研究提供基础数据。
1. 材料与方法
1.1 RNA提取及cDNA文库构建
实验所用材料为南海特有物种密斑刺鲀,分别取脑、垂体、脾脏、肾脏、肝脏、肌肉、性腺 (精巢/卵巢) 组织,快速装入冻存管内,并投入液氮中速冻,防止RNA降解。不同组织RNA的提取方法参照Trizol法 (Invitrogen) 进行,提取的总RNA经1.0%的琼脂糖凝胶电泳快速检测RNA完整度,并采用Agilent 2100检测RNA浓度和片段长度,用qPCR检测文库的摩尔浓度,构建文库的插入长度为100~500 bp。
1.2 RNA测序及组装
转录组测序由深圳华大基因完成。测序使用HiSeqTM 2000测序平台对已构建的密斑刺鲀cDNA文库进行测序,过滤掉低质量的序列,共获得78.4 G的高质量数据,采用Trinity软件进行De novo混合组装后,进一步去冗余拼接和同源转录本聚类,最终获得221 762条Unigene序列,总长度为325 911 793 bp,N50值为2 240 nt,GC含量为46.20 %。
1.3 SSR位点搜索及引物设计
利用MISA软件 (http://pgrc.ipk-gatersleben.de/misa/misa.html) 对221 762条Unigene进行SSR位点搜索,搜索程序为单碱基重复次数≥10,二碱基重复次数≥6,三、四、五、六碱基重复次数≥5,复合微卫星位点之间最大间隔碱基数为100 bp。用Primer 3 (Version 2.4.0) 软件[14]对SSR位点前后的序列进行引物设计,每个SSR位点生成3~5对引物作为备选。
1.4 SSR位点验证及多态性筛选
密斑刺鲀基因组DNA提取方法参考海洋动物组织基因组DNA提取试剂盒(天根生化科技有限公司, DP324-02)。PCR反应体系为20 μL,上下游引物 (10 μmol·L−1) 各0.5 μL,DNA模板1 μL,预混合taq酶及缓冲液10 μL,加 ddH2O补至20 μL。PCR扩增程序为 94 ℃预变性5 min;然后进行20个循环,每个循环包括94 ℃变性30 s、55~60 ℃退火30 s、72 ℃延伸30 s,循环结束后,72 ℃延伸1 min。PCR扩增产物使用8%~10%非变性聚丙烯酰胺凝胶电泳分离条带,简化银染后拍照并记录条带。
1.5 数据分析
使用GelAnalyzer软件 (Version 2010a) 对PAGE凝胶图进行条带读取,并采用人工校正的方式,对每个SSR位点扩增的等位基因条带,从小到大依次标记为A、B、C等,确定每个样品各位点的基因型,建立原始数据矩阵。用PopGene (Version 1.32) 软件统计SSR位点的等位基因数 (Na)、有效等位基因数 (Ne)、观察杂合度 (Ho)、期望杂合度 (He)、等位基因频率等,并根据每个SSR位点的等位基因频率计算多态信息含量 (PIC) [15]。
2. 结果
2.1 密斑刺鲀SSR位点数量及分布
利用MISA软件对密斑刺鲀转录组中221 762条Unigene序列进行搜索,共在62 451条Unigene中找到106 221个符合条件的SSR位点,发生频率 (含有SSR的Unigene数目/总Unigene数目) 为28.16%,其中有10 791个SSR位点为复合型,占总SSR位点的10.16%。SSR位点的覆盖度 (SSR位点数/总Unigene数目) 为47.89%,其中38 808条Unigene序列仅包含单个SSR位点,占比为62.14%,此外有23 643条Unigene序列包含超过1个SSR位点,占比为37.86%。
搜索到的全部SSR位点共有403种类型的碱基组合,其中四碱基重复单元的种类最多 (161种),其次为五碱基重复单元 (109种),再次为三碱基和六碱基重复单元 (分别为60和57种)。6种重复单元类型的SSR位点数量存在明显的差异,单碱基重复单元的SSR位点数量最多 (54 792个),占所有SSR位点数量的51.58%,分布在39 584条Unigene上,发生频率为48.99%,而六碱基重复单元的SSR位点数最少 (仅99个),占比为0.09%,分布在97条Unigene上,发生频率为0.12%。不同类型重复单元的平均距离存在差异,其中单碱基和三碱基重复单元的平均距离差异最大 (分别为2 297和3 029 bp,表1)。
表 1 不同重复单元类型在密斑刺鲀转录组中出现的频率Table 1. Occurrence frequency of different types of repeat units of SSR in transcriptomic sequenceing of D. hystrix重复单元类型
Repeat unit type种类
Species位点数量
Amount of SSR loci比例
Proportion/%对应Unigene条数
Number of mapped Unigene发生频率
Occurrence frequency/%总长度
Total length/bp平均距离
Mean distance/bp单碱基 Mono- 4 54 792 51.58 39 584 48.99 125 847 288 2 297 双碱基 Di- 12 34 265 32.26 26 311 32.57 79 627 971 2 324 三碱基 Tri- 60 14 021 13.20 11 891 14.72 42 469 753 3 029 四碱基 Tetra- 161 2 770 2.61 2 643 3.27 7 675 362 2 771 五碱基 Penta- 109 274 0.26 268 0.33 793 062 2 894 六碱基 Hexa- 57 99 0.09 97 0.12 243 311 2 458 合计 Total 403 106 221 100.00 256 656 747 2.2 密斑刺鲀SSR序列重复次数及重复单元特征
SSR位点重复次数差异是导致SSR位点长度变化的主要原因,也是产生SSR多态性的重要因素。密斑刺鲀SSR位点重复次数分布不均匀,按照分布趋势大致可分为3个区间 (图1),5次重复单独分为第一区间,主要由三和四碱基重复为主,共有8 680个SSR位点,占总位点数的8.17%;6~9次重复为第二区间,主要由二、三和四碱基重复为主,共有28 157个SSR位点,占比为26.51%;第三区间为10次及以上重复,主要由单和二碱基重复为主,其中单碱基重复占主导,共有69 384个SSR位点,占比为65.32%。
在密斑刺鲀SSR序列的403种重复单元中,单碱基重复单元以(A/T)n为主,其SSR位点数为49 085,占总SSR位点数的46.21%;二碱基重复单元以 (AC/GT)n为主,其SSR位点数为23 267,占总SSR位点数的21.90%,在二碱基重复单元中占比为67.90%;三碱基重复单元以 (AGG/CCT)n、(AAT/ATT)n和(AGC/CTG)n为主,分别占三碱基SSR总数的20.46%、17.81%和16.43%;四、五和六碱基重复单元分别以(ATCC/ATGG)n、(AAGAT/ATCTT)n和 (AACCCT/AGGGTT)n为主,其SSR位点数及其在相应重复单元类型中的占比分别为955 (34.48%)、46 (16.79%)和22 (22.22%,图2)。
2.3 密斑刺鲀SSR序列长度分布
统计密斑刺鲀全部SSR位点的序列长度发现,SSR序列长度分布介于10~180 bp,且分布是不连续的,有97 216个SSR位点的序列长度集中在10~24 bp,占全部SSR位点的91.52%,其中序列长度为17和19的SSR位点数量相对较低,分别为1 306和696个 (图3)。序列长度大于等于20 bp的SSR被认为是具有高度多态性的Ⅰ型SSR (Class Ⅰ),Ⅱ型SSR (Class II) 变异性相对较小,序列长度介于12~20 bp[16]。在密斑刺鲀SSR序列长度分布中可以看到 (图3),Ⅰ型SSR的位点有24 373个,占全部SSR位点的22.95%,包含6种类型的重复单元,其中二碱基重复单元的SSR位点为13 510个,占Ⅰ型SSR位点总数的55.43%,其次为单碱基和三碱基重复单元,SSR位点分别为3 893 (15.97%) 和3827 (15.70%),四碱基重复单元的SSR位点为2 770个,占比为11.37%;Ⅱ型SSR的位点数量为36 354个,占全部SSR位点的34.22%,重复单元类型相对简单,仅包含单、二和三碱基重复单元类型,其SSR位点数分别为15 199 (41.81%)、10 961 (30.15%) 和10 194 (28.04%)。
2.4 SSR位点遗传多样性分析
当SSR长度在20 bp及以上时,该位点在不同品种间表现出较高的多态性[17]。选取SSR长度大于等于20 bp的位点,利用Primer 3软件获得17 563个SSR位点的引物,随机挑选了160个位点的引物进行PCR验证,筛选到95对有效扩增引物 (占比59.38%),利用30条密斑刺鲀对这95对引物进行多态性验证,筛选到30个SSR位点的引物表现出稳定、可重复的多态性 (图4),占有效扩增引物的32.63%。具有多态性的30个SSR位点的重复单元长度介于20~50 bp,平均长度为30.63 bp,其中有21个SSR位点是二碱基重复单元 (占比70%),基本都是(AC/GT)n (表2)。
表 2 密斑刺鲀30个简单重复序列位点的引物信息Table 2. Primer information of 30 SSR loci in D. hystrix位点编号
Locus No.前向引物 (5'−3')
Forward primer反向引物 (5'−3')
Reverse primer重复单元
Repeat unit重复单元长度
Size of repeat motif/bp44 GCCTCTGTATAGGGAAGGAGATT CAAAAACAGAACAGCTGAGAACA (T)20 20 53 TCAAAACCAATTTTTAAACCCTT AAGCAAGTCTCACACTACAGGAGTT (TG)20 40 63 CTGCGTAGGTAAACAAAGAAATGA CTTGAAAAATGTTTGGGCTGTTA (GA)25 50 104 CCTTGCTCAAGAATACCGTTTTA CAGATTCCCTTTTCAAAATGTGT (A)27 27 112 GAGTTAGTAATGTGGTAAACGAGTGA GCCAACTAACGGACTAACTCATC (AGTT)11 44 138 TACCCAGAAAGCTGGTTTCATAA GGACTGTTAAAACTGCGTGAAAC (GT)22 44 141 AAGGAAATCAGTACCCAGAAAGC GGACTGTTAAAACTGCGTGAAAC (GT)13 26 176 GTCCCAAAGCTTTTCACTAATCA GATAGGTTGTGTCATTGAGGCTT (TG)14 28 206 TTCAGATGACACTTCTGCTTCAA TAGGATCACATATCAATCGCACA (GT)12 24 207 ACAAACACAAAAACACAACCTGC AAGCAGGAAATCAATCAGAAACA (CA)10 20 216 ACAGATGTCTGCAGTTGAGGTTC TTCAAAGATCAGCAGTGACCTG (TG)17 34 239 TCTGATGGTTCAGGTTAGGGTAA TATGTGCACCTGCTAGAACTGAA (GT)11 22 425 CTACTGGTACTGATCACCGCAAT TTACATATCTGACCGCTTCAACC (TG)21 42 522 CGGCTTTCTTGTTGTTGTTTTT GCTGTGAATTGTTTGGAATTGTT (AC)13 26 524 ACTGCAGTCCTACTGCCAAATAC GTCTCTCTCTGTTTCCCACACTC (GT)16 32 526 CAAATTAGTTGGTGAAAAAGAGCA TTTGATCACTTCCTTGACATTCAT (TTA)10 30 528 AGTCGCTTCCACTCTGAGCTAC TTTTCCTGCTCAATTCAGTTTGT (GTG)7 21 533 TATTTGGGTTCAAGTGATTCTGG TCAGCATGAAGGAATAAAAGGAA (CA)12 24 586 TCAGGGAGATAAATGACCTGTGT AAGCAGGAGGTATTGTCAAAAGA (CA)13 26 622 CTTATGTCAGCCTCCAGTGTCTT CCTGGACTCTCTCACTCTCACTC (CAGA)6 24 646 TTCCAAAGTAAGATGGGTCAAGA AGCAGACTCTTCTGCAAAACAAC (AC)12 24 674 CAGTACCTGACTTTGGACTTGCT GGAGTGTTGATAATCCAGTCAGC (TC)10 20 703 GTGAGCAGTTATCAGGTCCAGTC GAGTCACAGATTGACATGTTGGA (GT)10 20 717 GTTCCATTGCTCCTCTCAGATTA TGAGACAGTACATTAAAAGCCCC (ATT)13 39 727 TTCACAGCACATCTGCAAAATAG GATTCTAATGTCACTGTGGAGGC (GT)12 24 A4 TTCCTTCACCACCTCACACA CGTGAACAGTGTTGGCTGAT (CA)21 42 A6 TTTTGGCCTTTCATTAACGC GTGGACTCAGATTCCTCCCA (GT)21 42 A9 CAGCAACAACTACGCCAAAA TTTCCTCAAATGGTTCCTGC (TAT)14 42 S20 GAGCTGGAGGACTTGTCTGG TGAGGGATGCTCTCCATACC (GATG)5 20 S42 ACGGTGTACTAGGCACGGAG GACCTGTGGGATAATGGTGG (AC)21 42 30对引物共检测到119个等位基因,平均每对引物能检测到约4个等位基因,等位基因频率变化介于0.016 6~0.866 7;观察杂合度介于0.200~0.900,平均值为0.479;期望杂合度介于0.235~0.788,平均值为0.555;香农多样性指数介于0.393~1.664,平均值为0.994,该群体生物多样性较高;多态信息含量介于0.204~0.742,平均值为0.489,包含15个高多态位点 (PIC>0.5),14个中度多态位点 (0.25<PIC<0.5) 和1个低多态位点 (PIC<0.25) [16],这进一步说明该群体属于中度多态性 (表3)。此外,30个SSR位点中有8个位点 (104、206、522、528、646、703、717和S42) 偏离哈迪-温伯格平衡 (卡方检验概率均小于0.05),其中有3个位点 (104、206和S42) 属于高多态性位点 (PIC>0.5,表3)。
表 3 30对简单重复序列引物在密斑刺鲀群体中的遗传多样性参数Table 3. Genetic diversity parameters of 30 SSR primers in D. hystrix population位点编号
Locus No.卡方检验HW平衡概率
Probability of chi-square test for Hardy-Weinberg equilibrium等位基因数
Number of alleles有效等位
基因数 (Ne)
Number of effective alleles观察杂合度 (Ho)
Obsered heterozygosity期望杂合度 (He)
Expected heterozygosityShannon指数 (I)
Shannon's information index多态信息指数 (PIC)
Polymorphic information index44 0.386 2 1.301 0.200 0.235 0.393 0.204 53 0.099 3 2.264 0.379 0.568 0.921 0.480 63 0.971 6 3.641 0.759 0.738 1.481 0.681 104 0.000** 5 2.748 0.433 0.647 1.168 0.571 112 0.608 4 3.190 0.630 0.700 1.212 0.622 138 0.401 6 3.696 0.600 0.742 1.439 0.682 141 0.631 6 2.889 0.633 0.665 1.330 0.616 176 0.961 4 1.826 0.414 0.460 0.826 0.404 206 0.013* 4 2.490 0.533 0.609 1.019 0.515 207 0.454 3 2.711 0.567 0.642 1.044 0.556 216 0.098 3 1.824 0.300 0.459 0.731 0.376 239 0.570 4 3.204 0.690 0.700 1.255 0.633 425 0.368 6 3.350 0.571 0.714 1.431 0.662 522 0.006** 4 1.657 0.310 0.404 0.768 0.364 524 0.262 5 3.811 0.640 0.753 1.448 0.694 526 0.915 4 1.536 0.310 0.355 0.680 0.321 528 0.016* 3 1.744 0.400 0.434 0.765 0.388 533 0.725 2 1.514 0.367 0.345 0.523 0.282 586 0.413 2 1.998 0.433 0.508 0.693 0.375 622 0.280 5 3.093 0.667 0.688 1.298 0.619 646 0.033* 3 1.612 0.250 0.386 0.685 0.343 674 0.951 7 4.434 0.900 0.788 1.664 0.742 703 0.004** 4 1.761 0.286 0.443 0.861 0.406 717 0.041* 3 1.597 0.207 0.381 0.615 0.316 727 0.126 4 3.010 0.567 0.679 1.150 0.598 A4 0.257 2 1.622 0.310 0.390 0.572 0.310 A6 0.159 3 1.852 0.367 0.468 0.802 0.410 A9 0.786 4 2.789 0.724 0.653 1.105 0.568 S20 0.917 3 1.822 0.448 0.459 0.700 0.364 S42 0.001** 5 2.679 0.467 0.637 1.232 0.582 平均 avg. 3.967 2.456 0.479 0.555 0.994 0.489 注:**. 哈迪-温伯格平衡卡方检验P<0.01;*. 哈迪-温伯格平衡卡方检验P<0.05;下表同此 Note: **. Chi-square test for Hardy-Weinberg equilibrium (P<0.01); *. Chi-square test for Hardy-Weinberg equilibrium (P<0.05); the same case in the following table 3. 讨论
高通量RNA-seq测序技术能够提供大量的基于细胞水平应答的功能基因数据[17],这为分析差异基因表达、突变剪接、SSR、SNP以及遗传功能等提供了可能的途径[18]。基于转录组的SSR分子标记广泛应用于无参考基因组的非模式生物中[19],既可避免基因组测序周期长、成本高的缺点,也能够弥补EST-SSR的低数据量问题;同时,基于转录组的SSR分子标记还具有基因内SSR (Genic-SSR) 的优点[20]。随着高通量测序技术的发展,从转录组数据中筛选SSR和SNP多态性位点已经成为开发分子标记的高效手段之一。目前还没有密斑刺鲀及其相近种的基因组序列,Genbank数据库中对该物种的EST序列收录也极为稀少。通过对密斑刺鲀转录组测序数据的分析,共获得106 221个SSR位点,发生频率为28.16%,SSR位点丰度适中,与牙鲆 (27.12%)、翘嘴鳜 (27.51%) 和黄姑鱼 (27.39%) 的发生频率较为接近[10, 12-13],但高于双须骨舌鱼 (6.32%) [21],远低于曼氏无针乌贼 (39.68%) [22]和罗氏沼虾 (38.65%) [23]。由此可见,基于不同物种转录组的SSR位点的发生频率不同,这可能主要与物种差异、SSR位点挖掘工具及搜索条件相关。
在鱼类SSR的二碱基重复单元中,(AC/GT)n型重复单元往往占多数,而(CG/CG)n型重复单元的位点却很少[21, 24-25]。研究中共筛选到19 906个SSR序列长度大于等于20 bp的Ⅰ型SSR位点 (不包含复合型SSR),占全部SSR位点的18.74%,其中二碱基重复单元型SSR位点为10 545个 (52.97%),单和三碱基重复单元型SSR位点分别为3 424 (17.20%) 和3 207个 (16.11%)。在二碱基重复单元中,(AC/GT)n所占比例最高,为筛选到的Ⅰ型SSR位点的43.2%,而(GC/CG)n型重复单元几乎为零,这与东方红鳍鲀[24]、双须骨舌鱼[21]、翘嘴鳜[12]、牙鲆[13]、草鱼[26-27]等发现的结果较为一致。值得注意的是,本研究验证实验中筛选到的30个具有多态性的SSR位点中,有16个是(AC/GT) n型重复单元 (表3),这提示从(AC/GT) n型重复单元中筛选具有多态性SSR位点的概率更高。
研究表明在群体中有效等位基因数越接近测得的等位基因数,就表明该群体的等位基因分布越均匀[28]。但是在实际检验过程中,往往将检测到的条带全部作为主效等位基因进行分析,无效等位基因过剩导致等位基因分布不均[29]。对研究中获得的30个SSR多态性位点进行分析,发现仅有7个位点 (53、112、207、239、533、586、A4) 的等位基因数和有效等位基因数较为接近,其他位点均相差较大,这说明所检测到的SSR多态性位点绝大多数表现为等位基因分布不均匀,这可能和读取银染条带的精准度有关,但也有可能是样本容量不够,导致主效等位基因的缺失。
然而,不同的遗传参数在评估群体遗传多样性时所需的样本容量是不同的。有研究表明用期望杂合度 (He)、Shannon多样性指数 (I)、多态信息含量 (PIC) 等来衡量群体多样性时,样本容量达到27就可以使被评估的样本多样性接近群体总体遗传多样性水平的95%;如果用等位基因数来衡量时,只有当样本容量达到52时,该样本的遗传多样性水平才能接近群体总体水平的95%[30]。用于筛选多态性SSR位点的密斑刺鲀群体的样本容量为30,选用He、I和PIC等遗传参数可能能更好的评估所筛选的SSR位点的多态性。30对引物所表现的平均观察杂合度 (0.479)、平均期望杂合度 (0.555)、平均香农多样性指数 (0.994) 和平均多态信息含量 (0.489) 均说明该群体属于中度多态性 (表3)。PIC是度量等位基因多态性的一个理想指标,该值越接近1,就表明该群体杂合个体的比例越大,多态性越高[15]。研究中筛选到的30个多态性SSR位点,至少有15个位点为高多态性位点 (PIC>0.5),其中有8个位点 (63、104、138、425、524、622、674和S42) 表现出较高的PIC (>0.5) 和较多的等位基因数 (≥5),说明这些位点的遗传变异高,有较大的选择余地,可以利用该位点进行与生产性状相关的标记辅助选择。
哈迪-温伯格平衡 (Hardy-Weinberg equilibrium, HWE) 检验可以反映出群体在随机交配过程中亲本和子代基因频率及基因型频率是否保持平衡[31]。群体容量不够、杂合子过剩或缺失、基因突变或选择、外源基因导入等均有可能引起这种偏离现象,而来自同一个随机交配群体的样本只能以很小的概率偏离HWE[32]。30个多态性SSR位点中有8个位点 (104、206、522、528、646、703、717和S42) 是显著偏离哈迪-温伯格平衡的 (P<0.05),其中有3个位点 (104、206和S42) 属于高多态性位点 (PIC>0.5)。由于所开发的SSR位点来自于雌雄转录组数据,因此,将30条密斑刺鲀按照雌雄分为两组,雄性组和雌性组的个体分别为13和17个,通过重新进行卡方检验哈迪-温伯格平衡,发现除了646号位点外,104和S42号位点在雄性群体中很好的服从了哈迪-温伯格平衡 (P>0.05),而206、522、528、703和717号在雌性群体中服从哈迪-温伯格平衡 (P>0.05),该结果暗示8个偏离哈迪-温伯格平衡的SSR位点可能与性别相关 (表4)。需要说明的是,实验中所选择的雌雄群体的样本容量相对较小,导致实验结果可能存在一定的偏差,为了检验该结果,需要在今后的实验中扩大样本容量。
表 4 8个简单重复序列位点在雌雄群体中的哈迪-温伯格平衡卡方检验概率及Uniprot数据库注释结果Table 4. Probability of chi-square test for hardy-weinberg equilibrium for eight SSR loci in male and female populations and annotations by uniprot database位点编号
Locus No.卡方检验HW平衡概率
Probability of chi-square test for Hardy-Weinberg equilibriumUniprot数据库注释
Annotation by Uniprot database来源
Organism sourceE值
E-value雄 Male (n=13) 雌 Female (n=17) 104 0.429 0.000** Lysosome-associated membrane glycoprotein 2 Gallus gallus 1.60E-62 206 0.000** 0.064 Sodium-coupled neutral amino acid transporter 4 Pongo abelii 2.10E-174 522 0.000** 0.088 NA NA NA 528 0.000** 0.812 SRSF protein kinase 3 Mus musculus 4.20E-102 646 0.381 0.069 Voltage-dependent L-type calcium channel subunit alpha-1D Mus musculus 1.80E-84 703 0.024* 0.984 Protein Mpv17 Danio rerio 8.80E-86 717 0.023* 0.252 Small ubiquitin-related modifier 3-like Danio rerio 9.80E-47 S42 0.568 0.008** Wilms tumor protein Sminthopsis macroura 5.80E-93 注:NA. 无注释结果 Note: NA. Unannotated result 4. 结论
本研究首次通过密斑刺鲀转录组数据获得大量的SSR位点,并且对密斑刺鲀SSR的分布规律和特性进行了分析归纳,同时还利用密斑刺鲀群体随机筛选出30对稳定的多态性SSR位点,其中有15个位点表现出较高的多态性,这些结果为密斑刺鲀的基因克隆、遗传结构分析、超高密度遗传连锁图谱构建、QTL定位及其他遗传学研究奠定了一定的基础。
-
表 1 不同重复单元类型在密斑刺鲀转录组中出现的频率
Table 1 Occurrence frequency of different types of repeat units of SSR in transcriptomic sequenceing of D. hystrix
重复单元类型
Repeat unit type种类
Species位点数量
Amount of SSR loci比例
Proportion/%对应Unigene条数
Number of mapped Unigene发生频率
Occurrence frequency/%总长度
Total length/bp平均距离
Mean distance/bp单碱基 Mono- 4 54 792 51.58 39 584 48.99 125 847 288 2 297 双碱基 Di- 12 34 265 32.26 26 311 32.57 79 627 971 2 324 三碱基 Tri- 60 14 021 13.20 11 891 14.72 42 469 753 3 029 四碱基 Tetra- 161 2 770 2.61 2 643 3.27 7 675 362 2 771 五碱基 Penta- 109 274 0.26 268 0.33 793 062 2 894 六碱基 Hexa- 57 99 0.09 97 0.12 243 311 2 458 合计 Total 403 106 221 100.00 256 656 747 表 2 密斑刺鲀30个简单重复序列位点的引物信息
Table 2 Primer information of 30 SSR loci in D. hystrix
位点编号
Locus No.前向引物 (5'−3')
Forward primer反向引物 (5'−3')
Reverse primer重复单元
Repeat unit重复单元长度
Size of repeat motif/bp44 GCCTCTGTATAGGGAAGGAGATT CAAAAACAGAACAGCTGAGAACA (T)20 20 53 TCAAAACCAATTTTTAAACCCTT AAGCAAGTCTCACACTACAGGAGTT (TG)20 40 63 CTGCGTAGGTAAACAAAGAAATGA CTTGAAAAATGTTTGGGCTGTTA (GA)25 50 104 CCTTGCTCAAGAATACCGTTTTA CAGATTCCCTTTTCAAAATGTGT (A)27 27 112 GAGTTAGTAATGTGGTAAACGAGTGA GCCAACTAACGGACTAACTCATC (AGTT)11 44 138 TACCCAGAAAGCTGGTTTCATAA GGACTGTTAAAACTGCGTGAAAC (GT)22 44 141 AAGGAAATCAGTACCCAGAAAGC GGACTGTTAAAACTGCGTGAAAC (GT)13 26 176 GTCCCAAAGCTTTTCACTAATCA GATAGGTTGTGTCATTGAGGCTT (TG)14 28 206 TTCAGATGACACTTCTGCTTCAA TAGGATCACATATCAATCGCACA (GT)12 24 207 ACAAACACAAAAACACAACCTGC AAGCAGGAAATCAATCAGAAACA (CA)10 20 216 ACAGATGTCTGCAGTTGAGGTTC TTCAAAGATCAGCAGTGACCTG (TG)17 34 239 TCTGATGGTTCAGGTTAGGGTAA TATGTGCACCTGCTAGAACTGAA (GT)11 22 425 CTACTGGTACTGATCACCGCAAT TTACATATCTGACCGCTTCAACC (TG)21 42 522 CGGCTTTCTTGTTGTTGTTTTT GCTGTGAATTGTTTGGAATTGTT (AC)13 26 524 ACTGCAGTCCTACTGCCAAATAC GTCTCTCTCTGTTTCCCACACTC (GT)16 32 526 CAAATTAGTTGGTGAAAAAGAGCA TTTGATCACTTCCTTGACATTCAT (TTA)10 30 528 AGTCGCTTCCACTCTGAGCTAC TTTTCCTGCTCAATTCAGTTTGT (GTG)7 21 533 TATTTGGGTTCAAGTGATTCTGG TCAGCATGAAGGAATAAAAGGAA (CA)12 24 586 TCAGGGAGATAAATGACCTGTGT AAGCAGGAGGTATTGTCAAAAGA (CA)13 26 622 CTTATGTCAGCCTCCAGTGTCTT CCTGGACTCTCTCACTCTCACTC (CAGA)6 24 646 TTCCAAAGTAAGATGGGTCAAGA AGCAGACTCTTCTGCAAAACAAC (AC)12 24 674 CAGTACCTGACTTTGGACTTGCT GGAGTGTTGATAATCCAGTCAGC (TC)10 20 703 GTGAGCAGTTATCAGGTCCAGTC GAGTCACAGATTGACATGTTGGA (GT)10 20 717 GTTCCATTGCTCCTCTCAGATTA TGAGACAGTACATTAAAAGCCCC (ATT)13 39 727 TTCACAGCACATCTGCAAAATAG GATTCTAATGTCACTGTGGAGGC (GT)12 24 A4 TTCCTTCACCACCTCACACA CGTGAACAGTGTTGGCTGAT (CA)21 42 A6 TTTTGGCCTTTCATTAACGC GTGGACTCAGATTCCTCCCA (GT)21 42 A9 CAGCAACAACTACGCCAAAA TTTCCTCAAATGGTTCCTGC (TAT)14 42 S20 GAGCTGGAGGACTTGTCTGG TGAGGGATGCTCTCCATACC (GATG)5 20 S42 ACGGTGTACTAGGCACGGAG GACCTGTGGGATAATGGTGG (AC)21 42 表 3 30对简单重复序列引物在密斑刺鲀群体中的遗传多样性参数
Table 3 Genetic diversity parameters of 30 SSR primers in D. hystrix population
位点编号
Locus No.卡方检验HW平衡概率
Probability of chi-square test for Hardy-Weinberg equilibrium等位基因数
Number of alleles有效等位
基因数 (Ne)
Number of effective alleles观察杂合度 (Ho)
Obsered heterozygosity期望杂合度 (He)
Expected heterozygosityShannon指数 (I)
Shannon's information index多态信息指数 (PIC)
Polymorphic information index44 0.386 2 1.301 0.200 0.235 0.393 0.204 53 0.099 3 2.264 0.379 0.568 0.921 0.480 63 0.971 6 3.641 0.759 0.738 1.481 0.681 104 0.000** 5 2.748 0.433 0.647 1.168 0.571 112 0.608 4 3.190 0.630 0.700 1.212 0.622 138 0.401 6 3.696 0.600 0.742 1.439 0.682 141 0.631 6 2.889 0.633 0.665 1.330 0.616 176 0.961 4 1.826 0.414 0.460 0.826 0.404 206 0.013* 4 2.490 0.533 0.609 1.019 0.515 207 0.454 3 2.711 0.567 0.642 1.044 0.556 216 0.098 3 1.824 0.300 0.459 0.731 0.376 239 0.570 4 3.204 0.690 0.700 1.255 0.633 425 0.368 6 3.350 0.571 0.714 1.431 0.662 522 0.006** 4 1.657 0.310 0.404 0.768 0.364 524 0.262 5 3.811 0.640 0.753 1.448 0.694 526 0.915 4 1.536 0.310 0.355 0.680 0.321 528 0.016* 3 1.744 0.400 0.434 0.765 0.388 533 0.725 2 1.514 0.367 0.345 0.523 0.282 586 0.413 2 1.998 0.433 0.508 0.693 0.375 622 0.280 5 3.093 0.667 0.688 1.298 0.619 646 0.033* 3 1.612 0.250 0.386 0.685 0.343 674 0.951 7 4.434 0.900 0.788 1.664 0.742 703 0.004** 4 1.761 0.286 0.443 0.861 0.406 717 0.041* 3 1.597 0.207 0.381 0.615 0.316 727 0.126 4 3.010 0.567 0.679 1.150 0.598 A4 0.257 2 1.622 0.310 0.390 0.572 0.310 A6 0.159 3 1.852 0.367 0.468 0.802 0.410 A9 0.786 4 2.789 0.724 0.653 1.105 0.568 S20 0.917 3 1.822 0.448 0.459 0.700 0.364 S42 0.001** 5 2.679 0.467 0.637 1.232 0.582 平均 avg. 3.967 2.456 0.479 0.555 0.994 0.489 注:**. 哈迪-温伯格平衡卡方检验P<0.01;*. 哈迪-温伯格平衡卡方检验P<0.05;下表同此 Note: **. Chi-square test for Hardy-Weinberg equilibrium (P<0.01); *. Chi-square test for Hardy-Weinberg equilibrium (P<0.05); the same case in the following table 表 4 8个简单重复序列位点在雌雄群体中的哈迪-温伯格平衡卡方检验概率及Uniprot数据库注释结果
Table 4 Probability of chi-square test for hardy-weinberg equilibrium for eight SSR loci in male and female populations and annotations by uniprot database
位点编号
Locus No.卡方检验HW平衡概率
Probability of chi-square test for Hardy-Weinberg equilibriumUniprot数据库注释
Annotation by Uniprot database来源
Organism sourceE值
E-value雄 Male (n=13) 雌 Female (n=17) 104 0.429 0.000** Lysosome-associated membrane glycoprotein 2 Gallus gallus 1.60E-62 206 0.000** 0.064 Sodium-coupled neutral amino acid transporter 4 Pongo abelii 2.10E-174 522 0.000** 0.088 NA NA NA 528 0.000** 0.812 SRSF protein kinase 3 Mus musculus 4.20E-102 646 0.381 0.069 Voltage-dependent L-type calcium channel subunit alpha-1D Mus musculus 1.80E-84 703 0.024* 0.984 Protein Mpv17 Danio rerio 8.80E-86 717 0.023* 0.252 Small ubiquitin-related modifier 3-like Danio rerio 9.80E-47 S42 0.568 0.008** Wilms tumor protein Sminthopsis macroura 5.80E-93 注:NA. 无注释结果 Note: NA. Unannotated result -
[1] LEIS J M. Systematics and zoogeography of the porcupinefishes (Diodon, Diodontidae, Tetraodontiformes), with comments on egg and larval development[J]. Fish Bull, 1978, 76(3): 535-567.
[2] LEIS J M. Nomenclature and distribution of the species of the porcupinefish family Diodontidae (Pisces, Teleostei)[J]. Mem Natl Mus Victoria, 2006, 63(1): 77-90. doi: 10.24199/j.mmv.2006.63.10
[3] TREVETT A J, MAVO B, WARRELL D A. Tetrodotoxic poisoning from ingestion of a porcupine fish (Diodon hystrix) in Papua New Guinea: nerve conduction studies[J]. Am J Trop Med Hyg, 1997, 56(1): 30-32. doi: 10.4269/ajtmh.1997.56.30
[4] BANDYOPADHYAY S A. On the record of a spot-fin porcupine fish, Diodon hystrix (Linnaeus, 1758) from Mandarmani, Bay of Bengal Coast of West Bengal, India[J]. Proc Zool Soc, 2014, 67(2): 175-177. doi: 10.1007/s12595-013-0087-y
[5] LIU J, ZAPFE G, SHAO K T, et al. Diodon hystrix (errata version published in 2016)[EB/OL]. [2019-05-06]. https://www.iucnredlist.org/species/193668/97664783.
[6] DIETHARD T. Hypervariabflity of simple sequences as a general source for polymorphic DNA markers[J]. Nucleic Acids Res, 1989, 17(16): 6463-6471. doi: 10.1093/nar/17.16.6463
[7] 何平. 真核生物中的微卫星及其应用[J]. 遗传, 1998, 20(4): 42-47. [8] DONG Z G, ZHANG D D, LI X Y, et al. Twenty-nine SNP markers developed from the transcriptomics of rainbow clam Moerella iridescens and their application in population genetics[J]. Conservation Genet Resour, 2018, 10(3): 277-279. doi: 10.1007/s12686-017-0801-6
[9] DU M, LI N, NIU B Z, et al. De novo transcriptome analysis of Bagarius yarrelli (Siluriformes: Sisoridae) and the search for potential SSR markers using RNA-Seq[J]. PLoS One, 2018, 13(2): 1-11.
[10] 龚诗琦, 王志勇, 肖世俊, 等. 黄姑鱼转录组SSR的开发与验证[J]. 集美大学学报(自然科学版), 2016, 21(4): 241-246. doi: 10.3969/j.issn.1007-7405.2016.04.001 [11] CHEN X, MEI J, WU J J, et al. A comprehensive transcriptome provides candidate genes for sex determination/differentiation and SSR/SNP markers in yellow catfish[J]. Mar Biotechnol, 2015, 17(2): 190-198. doi: 10.1007/s10126-014-9607-7
[12] 袁文成, 黄鹤忠, 李文龙, 等. 翘嘴鳜 (Siniperca chuatsi) 转录组EST-SSR位点的信息分析及其多态性检测[J]. 海洋与湖沼, 2015, 46(2): 403-409. doi: 10.11693/hyhz20140900248 [13] 李超, 侯吉伦, 王桂兴, 等. 基于牙鲆RNA-seq数据中SSR标记的信息分析[J]. 海洋渔业, 2015, 37(2): 122-127. doi: 10.3969/j.issn.1004-2490.2015.02.004 [14] ROZEN S, SKALETSKY H. Primer3 on the WWW for general users and for biologist programmers[J]. Methods Mol Biol, 2000, 132(3): 365-386.
[15] BOTSTEIN D, WHITE R L, SKOLNICK M, et al. Construction of a genetic linkage map in man using restriction fragment length polymorphisms[J]. Am J Hum Genet, 1980, 32(3): 314-331.
[16] TEMNYKH S, DECLERCK G, LUKASHOVA A, et al. Computational and experimental analysis of microsatellites in rice (Oryza sativa L.) : frequency, length variation, transposon associations, and genetic marker potential[J]. Genome Res, 2001, 11(8): 1441-1452. doi: 10.1101/gr.184001
[17] GERSTEIN M, JANSEN R. The current excitement in bioinformatics: analysis of whole-genome expression data: how does it relate to protein structure and function?[J]. Curr Opin Struct Biol, 2000, 10(5): 574-584. doi: 10.1016/S0959-440X(00)00134-2
[18] HYTEN D L, CANNON S B, SONG J Q, et al. High-throughput SNP discovery through deep resequencing of a reduced representation library to anchor and orient scaffolds in the soybean whole genome sequence[J]. Bmc Genomics, 2010, 11(1): 38-45. doi: 10.1186/1471-2164-11-38
[19] OLENA M, MARTIN H, MARCO M. Applications of new sequencing technologies for transcriptome analysis[J]. Annu Rev Genomics Hum Genet, 2009, 10(1): 135-151. doi: 10.1146/annurev-genom-082908-145957
[20] 李小白, 向林, 罗洁, 等. 转录组测序 (RNA-seq) 策略及其数据在分子标记开发上的应用[J]. 中国细胞生物学学报, 2013(5): 720-726. doi: 10.11844/j.issn:1674-7666.2013.05.024 [21] 王且鲁, 刘奕, 宋红梅, 等. 双须骨舌鱼转录组EST-SSR标记开发与引物筛选[J]. 淡水渔业, 2016, 46(6): 8-13. doi: 10.3969/j.issn.1000-6907.2016.06.002 [22] 管奥, 毋玉婷, 陈宇, 等. 曼氏无针乌贼转录组微卫星特征分析[J]. 渔业科学进展, 2018, 39(3): 144-151. [23] 王传聪, 唐修阳, 项杰, 等. 罗氏沼虾转录组SSR标记信息分析[J]. 江苏农业科学, 2018, 46(22): 64-67. [24] 崔建洲, 申雪艳, 杨官品, 等. 红鳍东方鲀基因组微卫星特征分析[J]. 中国海洋大学学报 (自然科学版), 2006, 36(2): 249-254. [25] SCHORDERET D F, GARTLER S M. Analysis of CpG suppression in methylated and nonmethylated species[J]. Proc Natl Acad Sci, 1992, 89(3): 957-961. doi: 10.1073/pnas.89.3.957
[26] 李偲, 刘航, 黄容, 等. 草鱼Ⅰ型微卫星标记的发掘及其多态性检测[J]. 水生生物学报, 2011, 35(4): 681-687. [27] WANG D, LIAO X, CHENG L, et al. Development of novel EST-SSR markers in common carp by data mining from public EST sequences[J]. Aquaculture, 2007, 271(1/2/3/4): 558-574.
[28] HEARNE C M, Ghosh S, Todd J A. Microsatellite for linkage analysis of genetic traits[J]. Trends Genet, 1992, 8(8): 288-294. doi: 10.1016/0168-9525(92)90256-4
[29] 李腾云, 李思发. 尼罗罗非鱼与萨罗罗非鱼回交子代遗传变异的微卫星分析[J]. 上海海洋大学学报, 2008, 17(4): 396-401. [30] 朱维岳, 周桃英, 钟明, 等. 基于遗传多样性和空间遗传结构的野生大豆居群采样策略[J]. 复旦学报(自然科学版), 2006, 45(3): 321-327. doi: 10.3969/j.issn.0427-7104.2006.03.009 [31] LOUISE H, SHEENA L, KAREN L, et al. Detection of genotyping errors by Hardy-Weinberg equilibrium testing[J]. Eur J Hum Genet, 2004, 12(5): 395-399. doi: 10.1038/sj.ejhg.5201164
[32] RODRIGUEZ S, GAUNT T R, DAY I N M. Hardy-Weinberg equilibrium testing of biological ascertainment for Mendelian randomization studies[J]. Am J Epidemiol, 2009, 169(4): 505-514. doi: 10.1093/aje/kwn359
-
期刊类型引用(8)
1. 韦小凯,周康奇,邹欣汐,林勇,叶华,罗辉,覃俊奇,陈忠,黄姻,杜雪松,张彩群,潘贤辉. 基于全长转录组数据的中国圆田螺微卫星特征分析与标记筛选. 水生态学杂志. 2025(02): 235-242 . 百度学术
2. 陈欣雨,朱守玟,江转转. 李属植物线粒体基因组特征与系统发育分析. 福建农林大学学报(自然科学版). 2024(04): 491-500 . 百度学术
3. 杨尉,司圆圆,许瑞雯,陈兴汉. 基于基因组survey数据的疣吻沙蚕微卫星特征分析及多态标记开发. 南方水产科学. 2023(05): 123-133 . 本站查看
4. 徐慧敏,巨丹丹,龚兵,肖明松. 基于Illumina HiSeq平台的翘嘴红鲌转录组测序分析. 安徽科技学院学报. 2023(06): 49-56 . 百度学术
5. 杨尉,司圆圆,许瑞雯,陈兴汉. 疣吻沙蚕转录组SSR位点鉴定及特征分析. 南方农业学报. 2023(09): 2593-2603 . 百度学术
6. 陈丽梅,李莉,石栩蔚,秦艺铭,刘利华,郭永军. 基于转录组数据的毛蚶SSR分子标记开发与评价. 渔业科学进展. 2022(03): 129-137 . 百度学术
7. 陈华谱,黄春仁,何睿祺,戴明姝,张明真,李智渊,黄海,李广丽. 密斑刺鲀(Diodon hystrix)gnrh基因的克隆及表达分析. 海洋与湖沼. 2021(04): 994-1006 . 百度学术
8. 刘倩倩,谭宇尘,姚宝辉,康宇坤,苏军虎. 基于转录组测序的高原鼢鼠多态性微卫星标记筛选. 草业科学. 2021(12): 2481-2489 . 百度学术
其他类型引用(2)