Preliminary study on distribution characteristics and positioning of microsatellites in whole genome of Pelteobagrus vachelli
-
摘要: 文章探究了瓦氏黄颡鱼 (Pelteobagrus vachelli) 全基因组微卫星的分布特征及其规律,旨在为相关功能性微卫星分子标记的筛选提供依据。利用MISA (MIcroSAtellite identification tool) 软件对其全基因组微卫星进行筛查和分析,并对外显子中含有微卫星的基因进行了GO (Gene Ontology) 注释和KEGG (Kyoto Encyclopedia of Genes and Genomes) 富集分析。在瓦氏黄颡鱼全基因组 (约663.53 Mb) 中筛查到6种完整型微卫星共417 724个,相对丰度为630 个·Mb−1,在全基因组总长度中占比1.48%。其中二碱基重复类型的微卫星个数最多,占微卫星总数的43.36%,其他依次分别是单碱基 (39.02%)、四碱基 (9.05%)、三碱基 (7.34%)、五碱基 (1.12%)和六碱基 (0.12%)。对筛选得到的完整型微卫星进行初步定位,发现其中10 924个微卫星分布在外显子区,共定位到5 788个基因上。GO分析表明注释到生物过程的基因数量最多,GO富集较为显著的条目为结合活性和细胞大分子代谢过程。KEGG富集表明这些基因共富集到273条通路,其中黄酮与黄酮醇生物合成等通路最为显著 (P=0)。联合分析预测瓦氏黄颡鱼定位到外显子上的微卫星和其体内的生物代谢过程密切相关。Abstract: In this study, MISA (MIcroSAtellite identification tool) was used to screen and analyze the distribution characteristics of microsatellites in the whole genome of Pelteobagrus vachelli, aiming to provide a basis for the selection of functional microsatellite markers. The genes containing microsatellites in the exon regions were subjected to GO annotation and KEGG enrichment. In the whole genome of P. vachelli (Approximately 663.53 Mb), 417 724 perfect microsatellites were identified, accounting for 1.48% of the total length. The relative abundance of microsatellites in P. vachelli was 630 pcs·Mb−1. Among the six repeat types, dinucleotides were the most frequent, accounting for 43.36% of the total microsatellites, followed by mononucleotides (39.02%), tetranucleotides (9.05%), trinucleotides (7.34%), pentanucleotides (1.12%) and hexanucleotides (0.12%). By investigating the locations of microsatellites in the genome, we found that 10 924 microsatellites which belonged to 5 788 genes were located in the exons. The GO annotation shows that the number of genes annotated to biological process was the largest, mainly associated with binding activity and cellular macromolecular metabolism. KEGG enrichment analysis shows that these genes were enriched in 273 pathways, among which, flavonoids and flavonol biosynthesis (P=0) were the most significantly enriched pathways. Integrated analysis indicates that the microsatellites located in the exons of genes in P. vachelli were closely related to the biological metabolism processes.
-
Keywords:
- Pelteobagrus vachelli /
- Genome /
- Microsatellite /
- Distribution characteristics
-
微卫星 (Microsatellite) 又称简单重复序列 (Simple sequence repeats, SSRs),是指以少数几个核苷酸 (1~6个) 为基本单位串联重复的DNA序列。在真核生物和原核生物基因组中均有分布[1-3],甚至在病毒基因组中也有发现[4]。利用微卫星核心序列的差异性以及侧翼序列的保守性设计特异性引物,通过PCR扩增出多态性微卫星片段,可筛选出功能分子标记或探究种间以及种内不同群体的遗传多样性[5]。微卫星在群体中通常表现出高多态性、呈共显性遗传及杂合率高等特点,目前在遗传图谱的构建[6]、亲缘关系的鉴定[7]、遗传多样性分析以及标记辅助育种[8]等研究中得到广泛应用。
瓦氏黄颡鱼 (Pelteobagrus vachelli) 隶属于鲇形目、鲿科、黄颡鱼属,又名江黄颡鱼,主要生活在我国长江水系及与其干流相通的附属湖泊、河流中,具有生长速度显著快于普通黄颡鱼、体型大、肉质鲜嫩、无肌间刺等优点,深受养殖者和消费者的喜爱[9-11]。国内外关于黄颡鱼属的微卫星相关研究主要集中在微卫星标记的开发及其遗传连锁图谱的构建[12]、不同地理群体的遗传多样性和亲缘关系分析[13]等。在瓦氏黄颡鱼中主要集中在线粒体基因组分析[14]、群体遗传多样性分析[15]等。随着二代测序技术的发展,越来越多的在物种全基因组基础上的微卫星研究相继被报道[16-18]。微卫星筛选搜索软件MISA (MIcroSAtellite identification tool) 作为近年来使用较为快捷和高效的工具,具有指令简单、运行时间短、无需联网等优点,目前已在多种水生生物中得到广泛应用[19-21]。本文通过MISA软件在全基因组水平上对瓦氏黄颡鱼中的微卫星序列进行筛选、分析,探索了各碱基重复类型的丰度及其规律,并且对外显子区含有微卫星的基因进行了GO注释和KEGG富集,进一步探究了微卫星在瓦氏黄颡鱼全基因组中的潜在功能,为今后黄颡鱼属群体的微卫星筛选、遗传多样性分析等研究积累参考资料。
1. 材料与方法
1.1 基因组序列
基于本实验室前期瓦氏黄颡鱼基因组测序和组装,确定其基因组大小为663.53 Mb,Contig N50为14.02 Mb,scaffold N50为26.78 Mb,contig长度锚定率为99.79%,定位到染色体上,基因组组装质量较好。
1.2 SSR搜索方法
本文利用微卫星搜索软件MISA (http://pgrc.ipk-gatersleben.de/misa/),在瓦氏黄颡鱼全基因组中筛选1~6碱基重复完整型微卫星序列。设置采用MISA默认参数,即1~6种碱基重复次数最少为10、6、5、5、5和5。本文在统计过程中将所有可循环的序列以及碱基互补序列归为一类。如ACG重复拷贝类别,与其归为同一类的重复拷贝类别是TGC、GCT、CTG、CGA和GCA。
1.3 微卫星所在外显子上的基因GO注释和KEGG富集分析
利用瓦氏黄颡鱼全基因组GFF注释文件和MISA软件得到的微卫星位置信息 (misa文件),对全基因组中所有微卫星进行定位。GO注释采用实验室编写的Python脚本结合Blast2 GO软件[22]进行,以瓦氏黄颡鱼全基因组的功能注释基因作为背景基因集,利用KOBAS 2.0在线软件进行GO富集和KEGG富集分析[23]。
2. 结果
2.1 瓦氏黄颡鱼各微卫星分布特征
瓦氏黄颡鱼全基因组大小为663 534 018 bp,6种完整型微卫星总数为417 724个,相对丰度为630 个·Mb−1,微卫星长度共计9 826 125 bp,占瓦氏黄颡鱼全基因组序列的1.48%,相对密度为14 809 bp·Mb−1。在6种重复类型中,二碱基类型的微卫星个数最多,有181 107个,占微卫星总数的43.36%,其次是单碱基、四碱基、三碱基、五碱基和六碱基类型微卫星。其中六碱基类型微卫星出现频率最低,为微卫星总数的0.12% (表1)。
表 1 瓦氏黄颡鱼基因组中不同类型微卫星统计Table 1. Summary of different types of microsatellite in genome of P. vachelli重复类型
Repeat type数量
Total
number/个占比
Proportion/%总长度
Total
length/bp占比
Proportion/%平均长度
Average
length/bp频率
Frequency/
(个·Mb−1)密度
Density/
(bp·Mb−1)单核苷酸 Mononucleotide 162 987 39.02 2 137 066 21.75 13.11 245.63 3 220.73 二核苷酸 Dinucleotide 181 107 43.36 5 291 784 53.85 29.22 272.94 7 975.15 三核苷酸 Trinucleotide 30 661 7.34 956 385 9.73 31.19 46.21 1 441.35 四核苷酸 Tetranucleotide 37 787 9.05 1 228 528 12.50 32.51 56.95 1 851.49 五核苷酸 Pentanucleotide 4 689 1.12 188 890 1.92 40.28 7.07 284.67 六核苷酸 Hexanucleotide 493 0.12 23 472 0.24 47.61 0.74 35.37 2.2 瓦氏黄颡鱼微卫星核心序列拷贝数变化分析
瓦氏黄颡鱼基因组中不同类型微卫星核心序列拷贝数变化趋势较为一致,但不同碱基类型微卫星核心序列拷贝数的优势范围有很大区别。在6种碱基类型拷贝数上,单碱基微卫星拷贝数以10次为最多,二碱基微卫星以6次为最多,三碱基、四碱基、五碱基和六碱基微卫星均以5次为最多。在微卫星核心序列拷贝数的变化范围上,单碱基和二碱基核心序列拷贝数分别主要集中在10~31次和6~41次;四碱基和五碱基核心序列拷贝数均集中在5~20次;三碱基核心序列拷贝数集中在5~25次;六碱基核心序列拷贝数集中在5~10次。1~6碱基类型在主要集中范围内的微卫星数量分别占该种类型微卫星总数的99.2%、99.12%、99.48%、98.22%、98.29%和95.74% (图1)。
2.3 瓦氏黄颡鱼微卫星各重复类别特征分析
瓦氏黄颡鱼全基因组中不仅不同微卫星碱基类型的数量存在明显差异,同种碱基类型不同类别的数量也存在较大差别,其中出现频率最高的前10种微卫星重复类别见表2。
表 2 次数排名前10的重复碱基类别Table 2. Top ten types of SSRs with most repeated copy numbersSSR类别
SSR typeSSR出现次数
SSR occurrence占各碱基类型比例
Proportion of each base type/%A 158 915 97.50 AC 130 224 71.90 AG 31 118 17.18 AT 19 593 10.82 AAT 17 101 55.77 AAAT 9 490 25.11 AATG 9 210 24.37 ATC 4 106 13.39 AGAT 3 755 9.94 AAAG 2 865 7.58 单碱基类型中,以A类别 (A/T) 最为丰富,共计158 915个,占单碱基总数目的97.50%;C、G碱基微卫星重复数目则相对较少,共计4 072个,占该类型的2.50%。
二碱基类型中,AC类别最为丰富,共计130 224个,占二碱基总数目的71.90%;其次是AG类别和AT类别,分别占比20.19%和13.82%;最少的是CG类别,有172个,占比0.09%。
三碱基、四碱基、五碱基类型中呈现出典型的A/T碱基优势,三碱基类型中AAT类别最为丰富,占该类型的55.77%,其次是ATC、AAC类别;四碱基类型中AAAT类别最为丰富,占该类型的25.11%,其次是AATG、AGAT类别;五碱基类型中AATCT类别最为丰富,占该类型的7.78%,其次是AAAGA和AAAAT类别。
六碱基类型在整个基因组中所占比例较低,其中GGGTTA类别较为丰富,共计111个,占六碱基类型的22.5%,其余碱基重复类别较少 (表3)。
表 3 瓦氏黄颡鱼基因组中排名前3的微卫星重复拷贝类别Table 3. Top three dominant base classes in each base repeat type in P. vachelli genome单碱基
Mononucleotide二碱基
Dinucleotide三碱基
Trinucleotide四碱基
Tetranucleotide五碱基
Pentanucleotide六碱基
HexanucleotideA
158 915a
97.50%bAC
13 002a
71.90%bAAT
17 101a
55.77%bAAAT
9 490a
25.11%bAATCT
365a
7.78%bGGGTTA
111a
22.5%bC
4 072a
2.50%bAG
31 118a
17.18%bATC
4 106a
13.39%bAATG
9 210a
24.37%bAAAGA
305a
6.50%bCTAACC
73a
14.8%bAT
19 593a
10.82%bAAG
3 060a
9.98%bAGAT
3 755a
9.94%bAAAAT
210a
4.48%bTGTAAA
54a
10.95%b注:a. 微卫星的个数;b. 该种微卫星占其碱基类型的比例。 Note: a. Number of microsatellites; b. Proportion of the microsatellites in the base type. 2.4 GO功能注释和KEGG富集特征
对微卫星定位,定位在外显子上的微卫星有10 924个,共分布在5 788个基因中。对相关编码基因进行GO注释,共得到1 588个GO条目。涉及生物过程 (Biological process) 的条目最多,共986个,在总条目中占比62.09%,主要参与细胞过程 (GO: 009987) 和代谢过程 (GO: 0008152) 等;其次是细胞成分 (Cellular component),共384个条目,占比24.18%,主要参与细胞和细胞部分 (GO: 0005623、GO: 00044464);分子功能 (Molecular function) 注释条目最少,共218个条目,占比13.73%,主要参与连接和催化活性 (GO: 0005488、GO: 0003824)(图2)。GO功能富集较为显著的前10个条目主要参与结合、代谢、转录合成等过程,其中结合活性 (P=7.20×10−17)、细胞大分子代谢过程 (P=1.49×10−14) 和核过程 (P=3.38×10−14) 最为显著 (图2,表4)。
图 2 瓦氏黄颡鱼微卫星分布于外显子的基因GO功能注释1. 结合;2. 催化活性;3. 转运活性;4. 核酸结合转录因子活性;5. 分子传感器活性;6. 信号传感器活性;7. 分子功能调节剂;8. 结构分子活性;9. 转录因子活性、蛋白质结合;10. 翻译调节活性;11. 细胞;12. 细胞部分;13. 膜;14. 细胞器;15. 膜组分;16. 高分子复合物;17. 细胞器部分;18. 胞外区;19. 膜封闭腔;20. 膜外区部分;21. 细胞过程;22. 代谢过程;23. 单生物过程;24. 生物调节;25. 生物过程调节;26. 刺激应答;27. 信号;28. 定位;29. 细胞成分组织或生物发生;30. 多细胞生物过程;31. 发展过程;32. 生物过程的负调控;33. 生物过程的正调控;34. 生物黏附;35. 运动活性。Figure 2. GO function annotation of genes with microsatellites in exons in P. vachelli1. Binding; 2. Catalytic activity; 3. Transporter activity; 4. Nucleic acid binding transcription factor activity; 5. Molecular transducer activity; 6. Signal transducer activity; 7. Molecular function regulator; 8. Structural molecule activity; 9. Transcription factor activity, protein binding; 10. Translation regulator activity; 11. Cell; 12. Cell part; 13. Membrane; 14. Organelle; 15. Membrane part; 16. Macromolecular complex;17. Organelle part; 18. Extracellular region; 19. Membrane-enclosed lumen; 20. Extracellular region part; 21. Cellular process;22. Metabolic process; 23. single-organism process; 24. Biological regulation; 25. Regulation of biological process; 26. Response to stimulus; 27. Signaling; 28. Localization; 29. Cellular component organizationor biogenesis; 30. Multicellular organismal process; 31. Developmental process; 32. Negative regulation of biological process; 33. Positive regulation of biological process; 34. Biological adhesion; 35. Locomotion.表 4 瓦氏黄颡鱼微卫星分布于外显子的基因GO富集Table 4. GO enrichment of genes with microsatellites located in exons in P. vachelli条目
TermGO码
GO ID输入数
Input number/个背景数
Background number/个P 结合 Binding 0005488 2 660 8 375 7.20×10−17 细胞大分子代谢过程 Cellular macromolecule Metabolic process 0044260 976 2 782 1.49×10−14 核 Nucleus 0005634 371 920 3.38×10−14 大分子代谢过程 Macromolecule metabolic process 0043170 1 095 3 196 3.70×10−13 细胞膜结合细胞器 Intracellular membrane-bounded organelle 0043231 475 1 263 5.81×10−12 细胞代谢过程 Cellular metabolic process 0044237 1 134 3 353 6.36×10−12 膜结合细胞器 Membrane-bounded organelle 0043227 486 1 306 2.13×10−11 基因表达调控 Regulation of gene expression 0010468 364 939 3.10×10−11 RNA生物合成过程 RNA biosynthetic process 0032774 375 972 3.13×10−11 转录、DNA模板化 Transcription, DNA-templated 0006351 374 970 3.65×10−11 对瓦氏黄颡鱼外显子中含有微卫星的基因进行KEGG富集分析,共富集到273条通路中,其中黄酮与黄酮醇生物合成通路最为显著 (P=0),但只有1个基因;细胞的内吞作用通路上富集基因最多,有135个 (P=1.86×10−5)。这些通路可以分为有机体系统、代谢、遗传信息处理、环境信息处理和细胞过程5大类,其中有机体系统类别富集的通路条数最多 (80条,表5)。
表 5 瓦氏黄颡鱼微卫星分布于外显子的基因KEGG富集Table 5. KEGG enrichment of genes with microsatellites in exons in P. vachelli功能分类
Functional classification通路
Pathway输入数
Input number/个背景数
Background number/个P 机体系统
Organismal system甲状腺激素信号通路
Thyroid hormone signaling pathway66 147 1.45×10−5 胰岛素信号通路
Insulin signaling pathway73 173 7.57×10−5 神经营养因子信号通路
Neurotrophin signaling pathway64 156 4.83×10−4 昼夜节律
Circadian rhythm22 46 2.18×10−3 背腹轴形成
Dorso-ventral axis formation16 32 3.61×10−3 细胞过程
Cellular process黏合连接
Adherens junction59 115 1.51×10−7 内吞作用
Endocytosis135 345 1.86×10−5 黏着
Focal adhesion104 280 1.29×10−3 凋亡-果蝇
Apoptosis-fly29 63 1.37×10−3 自噬-酵母
Autophagy-yeast32 75 4.08×10−3 环境信息处理
Environmental information processingErbB信号通路
ErbB signaling pathway54 115 1.52×10−5 Hedgehog 信号通路-果蝇
Hedgehog signaling pathway-fly21 34 1.70×10−5 Hippo信号通路
Hippo signaling pathway84 200 3.07×10−5 FoxO信号通路
FoxO signaling pathway76 179 4.34×10−5 Notch信号通路
Notch signaling pathway35 69 4.48×10−5 代谢
Metabolism黄酮与黄酮醇生物合成
Flavone and flavonol biosynthesis1 1 0.00 单巴坦生物合成
Monobactam biosynthesis2 2 0.00 角质的生物合成
Cutin,suberine and wax biosynthesis1 1 0.00 安莎霉素的生物合成
Biosynthesis of ansamycins2 2 0.00 香叶醇降解
Geraniol degradation2 2 0.00 遗传信息处理
Genetic information processingmRNA监控通路
mRNA surveillance pathway42 96 7.33×10−4 基础转录因子
Basal transcription factors19 38 1.90×10−3 剪接体
Spliceosome49 124 4.54×10−3 RNA转运
RNA transport63 168 6.96×10−3 真核生物核糖体的生物合成
Ribosome biogenesisin eukaryotes30 74 1.22×10−2 3. 讨论
3.1 瓦氏黄颡鱼全基因组微卫星总体特征分析
基于瓦氏黄颡鱼的全基因组数据,利用生物信息学软件对瓦氏黄颡鱼基因组中的完整型微卫星进行搜索统计。在663.53 Mb全基因组数据中筛选得到417 724个完整型微卫星,总长度约9.83 Mb,占全基因组总长度的1.48%,相对丰度为629.54 个·Mb−1。与人类 (Homo sapiens, 3%)[24]、小鼠 (Mus musculus, 2.85%)[25]、牛 (Bos taurus, 4.7%) 和绵羊 (Ovis aries, 4.8%)[26]等哺乳动物相比微卫星含量在基因组中占比较小;与其他水生生物如红鳍东方鲀 (Takifugu rubripes, 0.77%)、黑青斑河鲀 (Tetraodon nigroviridis, 1.06%)[27]以及美丽硬仆骨舌鱼 (Scleropages formosus, 0.79%)[19]等相比,微卫星含量所占比例较高,和其近缘物种黄颡鱼(Pelteobagrus fulvidraco, 1.8%)[28]相比含量比例相近。一方面支持了亲缘关系越近,物种基因组微卫星特征越相似的观点[29],另一方面造成这种微卫星含量存在差异的原因可能是由于不同物种之间基因组内部碱基组成和排列方式不同。
与大菱鲆 (Scophthalmus maximus)[30]、金钱鱼 (Scatophagus argus)[20]等鱼类相似,瓦氏黄颡鱼基因组中二碱基类型微卫星含量最高,占微卫星总数的43.36%,其次是单碱基类型,占39.02%。在鸟类中,如红原鸡 (Gallus gallus)[31]、绿尾红雉 (Lophophorus lhuysii)[32]和鸬鹚 (Phalacrocorax carbo)[33]等全基因组中单碱基占据核心地位,且倾向于第二优势微卫星类型为四碱基类型;但在哺乳动物,如牛和绵羊[26]、猪 (Sus scrofa) 和马 (Equus caballus)[29]的基因组中均是单碱基类型占据核心地位,倾向于第二优势微卫星类型为二碱基类型。不同物种中的优势微卫星类型存在差异,推测可能与不同物种的进化程度有关。
3.2 瓦氏黄颡鱼中6种微卫星类型特征分析
在瓦氏黄颡鱼全基因组单碱基重复类型中,A/T类型占据绝对优势,C/G类型则分布较少,这种现象同样出现在已发布的人、秀丽隐杆线虫 (Caenorhabditis elegans) 和拟南芥 (Arabidopsis thaliana) 等物种中[34]。
二碱基重复类型的前3类别为AC、AG、AT类别,和其他水生生物如金钱鱼、4种河鲀[27]、斑鳢 (Channa maculata)[35]以及其近缘物种黄颡鱼[28]相同;比例最少的GC类别 (0.09%) 在其他的水生生物二碱基类别比例中同样也很低,如美丽硬仆骨舌鱼 (0.86%)[19]、黄颡鱼 (0.17%)[28]、中华绒螯蟹 (Eriocheir sinensis, 0.39%)[18]、鲤 (Cyprinus carpio, 0.17%)[21]等。Schorderet和Gartler[36]对该现象的解释是,甲基化的C较易脱氨基转化为T,而GC又是维持DNA热力学稳定所必须的,导致GC比例不断缩小,相对应的TG比例则逐渐增加,瓦氏黄颡鱼中的二碱基重复类型中的AC类别较多则支持该观点。另一方面DNA序列发生滑动复制被普遍认为是微卫星的产生方式[4],进而推测可能是CG之间功能键相比于AT之间的更难断裂,导致了在GC含量高的序列段不容易发生滑动,所以GC类别在不同物种中含量均较低。
瓦氏黄颡鱼全基因组三碱基重复的10种类别中以AAT类别最多,ATC、AAG次之,和人类[24]基因组三碱基微卫星含量排序相同。作为所有微卫星重复类型中最为特殊的一类,三碱基重复微卫星可以通过复杂的环-折叠结构来形成各种各样稳定的DNA结构,如发卡结构和二重三叶草结构[37],这种稳定的结构更有利于转录过程中的解旋和蛋白质识别。另外,三碱基微卫星总体上的不稳定性也和一些遗传病的发生有关[38]。因此推测三碱基微卫星在瓦氏黄颡鱼的生长发育过程中起到重要作用,对其进一步的挖掘分析有利于瓦氏黄颡鱼早期遗传疾病的预防和诊断。
四碱基、五碱基、六碱基重复类型中,AAAT、AATG、AAAG、AATCT等类别微卫星占据优势,表明微卫星的存在形式在A和T碱基中较为丰富。四碱基重复类型中的AAAX (X代表除A以外的任何碱基)类别微卫星在灵长类中较为丰富[38],在瓦氏黄颡鱼中也有同样的现象。其中AATCT微卫星在黄颡鱼基因组中占比较多[28],而在其他水生生物中则分布较少,推测这可能是黄颡鱼属进化过程中特有的现象。关于五碱基类型微卫星的生物学意义相关报道较少,有发现可能与物种特异性相关[39],与三碱基类型微卫星进行联合分析可能对瓦氏黄颡鱼相关疾病发生机制的研究有着更深层次的意义。
3.3 瓦氏黄颡鱼6种微卫星核心序列拷贝数特征分析
经统计分析得到,6种完整型微卫星重复类型中,除二碱基和三碱基类型微卫星有轻微波动以外,所有微卫星类型核心序列拷贝数的变化趋势总体上是随着核心拷贝数的增加,微卫星数量逐渐递减;这与人[24]、鲤[21]等全基因组中微卫星的核心序列拷贝数的变化规律相同。Ellegren[40]研究认为,在基因座上,长等位基因趋向于变短,阻碍微卫星无限延伸,一定程度上解释了该种现象产生的原因。另外,微卫星的突变率和其重复次数相关,重复次数越多,突变率就越高[41],因此长微卫星序列和数目就倾向于减少,进而微卫星核心序列拷贝数出现了不同程度的波动。
3.4 瓦氏黄颡鱼微卫星相关基因GO注释和KEGG富集分析
外显子是重要的基因表达区域,本文对瓦氏黄颡鱼基因组外显子上含有微卫星的基因进行GO功能注释和KEGG富集分析,GO功能注释结果显示,注释到生物学过程中的相关基因主要定位在细胞和代谢进程;注释到细胞组分的相关基因主要参与细胞、细胞组分和膜组分;定位到分子功能的相关基因主要集中在结合和催化活动。GO富集最为显著的是结合活性和细胞大分子代谢。KEGG富集分析得到代谢类别富集的通路数最多,其中前5条通路在所有的通路中富集最为显著。GO注释和KEGG富集联合分析表明,瓦氏黄颡鱼微卫星定位到基因编码区域的微卫星可能和其体内的生物代谢过程密切相关,为以后研究瓦氏黄颡鱼与生长代谢相关的基因及相关通路等提供了数据支持。本研究通过对瓦氏黄颡鱼全基因组中完整型微卫星信息、外显子上含有微卫星基因的GO注释以及KEGG富集进行了联合统计分析,为后续黄颡鱼属鱼类的微卫星标记开发、遗传多样性分析工作等提供了基础数据。
-
图 2 瓦氏黄颡鱼微卫星分布于外显子的基因GO功能注释
1. 结合;2. 催化活性;3. 转运活性;4. 核酸结合转录因子活性;5. 分子传感器活性;6. 信号传感器活性;7. 分子功能调节剂;8. 结构分子活性;9. 转录因子活性、蛋白质结合;10. 翻译调节活性;11. 细胞;12. 细胞部分;13. 膜;14. 细胞器;15. 膜组分;16. 高分子复合物;17. 细胞器部分;18. 胞外区;19. 膜封闭腔;20. 膜外区部分;21. 细胞过程;22. 代谢过程;23. 单生物过程;24. 生物调节;25. 生物过程调节;26. 刺激应答;27. 信号;28. 定位;29. 细胞成分组织或生物发生;30. 多细胞生物过程;31. 发展过程;32. 生物过程的负调控;33. 生物过程的正调控;34. 生物黏附;35. 运动活性。
Figure 2. GO function annotation of genes with microsatellites in exons in P. vachelli
1. Binding; 2. Catalytic activity; 3. Transporter activity; 4. Nucleic acid binding transcription factor activity; 5. Molecular transducer activity; 6. Signal transducer activity; 7. Molecular function regulator; 8. Structural molecule activity; 9. Transcription factor activity, protein binding; 10. Translation regulator activity; 11. Cell; 12. Cell part; 13. Membrane; 14. Organelle; 15. Membrane part; 16. Macromolecular complex;17. Organelle part; 18. Extracellular region; 19. Membrane-enclosed lumen; 20. Extracellular region part; 21. Cellular process;22. Metabolic process; 23. single-organism process; 24. Biological regulation; 25. Regulation of biological process; 26. Response to stimulus; 27. Signaling; 28. Localization; 29. Cellular component organizationor biogenesis; 30. Multicellular organismal process; 31. Developmental process; 32. Negative regulation of biological process; 33. Positive regulation of biological process; 34. Biological adhesion; 35. Locomotion.
表 1 瓦氏黄颡鱼基因组中不同类型微卫星统计
Table 1 Summary of different types of microsatellite in genome of P. vachelli
重复类型
Repeat type数量
Total
number/个占比
Proportion/%总长度
Total
length/bp占比
Proportion/%平均长度
Average
length/bp频率
Frequency/
(个·Mb−1)密度
Density/
(bp·Mb−1)单核苷酸 Mononucleotide 162 987 39.02 2 137 066 21.75 13.11 245.63 3 220.73 二核苷酸 Dinucleotide 181 107 43.36 5 291 784 53.85 29.22 272.94 7 975.15 三核苷酸 Trinucleotide 30 661 7.34 956 385 9.73 31.19 46.21 1 441.35 四核苷酸 Tetranucleotide 37 787 9.05 1 228 528 12.50 32.51 56.95 1 851.49 五核苷酸 Pentanucleotide 4 689 1.12 188 890 1.92 40.28 7.07 284.67 六核苷酸 Hexanucleotide 493 0.12 23 472 0.24 47.61 0.74 35.37 表 2 次数排名前10的重复碱基类别
Table 2 Top ten types of SSRs with most repeated copy numbers
SSR类别
SSR typeSSR出现次数
SSR occurrence占各碱基类型比例
Proportion of each base type/%A 158 915 97.50 AC 130 224 71.90 AG 31 118 17.18 AT 19 593 10.82 AAT 17 101 55.77 AAAT 9 490 25.11 AATG 9 210 24.37 ATC 4 106 13.39 AGAT 3 755 9.94 AAAG 2 865 7.58 表 3 瓦氏黄颡鱼基因组中排名前3的微卫星重复拷贝类别
Table 3 Top three dominant base classes in each base repeat type in P. vachelli genome
单碱基
Mononucleotide二碱基
Dinucleotide三碱基
Trinucleotide四碱基
Tetranucleotide五碱基
Pentanucleotide六碱基
HexanucleotideA
158 915a
97.50%bAC
13 002a
71.90%bAAT
17 101a
55.77%bAAAT
9 490a
25.11%bAATCT
365a
7.78%bGGGTTA
111a
22.5%bC
4 072a
2.50%bAG
31 118a
17.18%bATC
4 106a
13.39%bAATG
9 210a
24.37%bAAAGA
305a
6.50%bCTAACC
73a
14.8%bAT
19 593a
10.82%bAAG
3 060a
9.98%bAGAT
3 755a
9.94%bAAAAT
210a
4.48%bTGTAAA
54a
10.95%b注:a. 微卫星的个数;b. 该种微卫星占其碱基类型的比例。 Note: a. Number of microsatellites; b. Proportion of the microsatellites in the base type. 表 4 瓦氏黄颡鱼微卫星分布于外显子的基因GO富集
Table 4 GO enrichment of genes with microsatellites located in exons in P. vachelli
条目
TermGO码
GO ID输入数
Input number/个背景数
Background number/个P 结合 Binding 0005488 2 660 8 375 7.20×10−17 细胞大分子代谢过程 Cellular macromolecule Metabolic process 0044260 976 2 782 1.49×10−14 核 Nucleus 0005634 371 920 3.38×10−14 大分子代谢过程 Macromolecule metabolic process 0043170 1 095 3 196 3.70×10−13 细胞膜结合细胞器 Intracellular membrane-bounded organelle 0043231 475 1 263 5.81×10−12 细胞代谢过程 Cellular metabolic process 0044237 1 134 3 353 6.36×10−12 膜结合细胞器 Membrane-bounded organelle 0043227 486 1 306 2.13×10−11 基因表达调控 Regulation of gene expression 0010468 364 939 3.10×10−11 RNA生物合成过程 RNA biosynthetic process 0032774 375 972 3.13×10−11 转录、DNA模板化 Transcription, DNA-templated 0006351 374 970 3.65×10−11 表 5 瓦氏黄颡鱼微卫星分布于外显子的基因KEGG富集
Table 5 KEGG enrichment of genes with microsatellites in exons in P. vachelli
功能分类
Functional classification通路
Pathway输入数
Input number/个背景数
Background number/个P 机体系统
Organismal system甲状腺激素信号通路
Thyroid hormone signaling pathway66 147 1.45×10−5 胰岛素信号通路
Insulin signaling pathway73 173 7.57×10−5 神经营养因子信号通路
Neurotrophin signaling pathway64 156 4.83×10−4 昼夜节律
Circadian rhythm22 46 2.18×10−3 背腹轴形成
Dorso-ventral axis formation16 32 3.61×10−3 细胞过程
Cellular process黏合连接
Adherens junction59 115 1.51×10−7 内吞作用
Endocytosis135 345 1.86×10−5 黏着
Focal adhesion104 280 1.29×10−3 凋亡-果蝇
Apoptosis-fly29 63 1.37×10−3 自噬-酵母
Autophagy-yeast32 75 4.08×10−3 环境信息处理
Environmental information processingErbB信号通路
ErbB signaling pathway54 115 1.52×10−5 Hedgehog 信号通路-果蝇
Hedgehog signaling pathway-fly21 34 1.70×10−5 Hippo信号通路
Hippo signaling pathway84 200 3.07×10−5 FoxO信号通路
FoxO signaling pathway76 179 4.34×10−5 Notch信号通路
Notch signaling pathway35 69 4.48×10−5 代谢
Metabolism黄酮与黄酮醇生物合成
Flavone and flavonol biosynthesis1 1 0.00 单巴坦生物合成
Monobactam biosynthesis2 2 0.00 角质的生物合成
Cutin,suberine and wax biosynthesis1 1 0.00 安莎霉素的生物合成
Biosynthesis of ansamycins2 2 0.00 香叶醇降解
Geraniol degradation2 2 0.00 遗传信息处理
Genetic information processingmRNA监控通路
mRNA surveillance pathway42 96 7.33×10−4 基础转录因子
Basal transcription factors19 38 1.90×10−3 剪接体
Spliceosome49 124 4.54×10−3 RNA转运
RNA transport63 168 6.96×10−3 真核生物核糖体的生物合成
Ribosome biogenesisin eukaryotes30 74 1.22×10−2 -
[1] TAUTZ D, RENZ M. Simple sequences are ubiquitous repetitive components of eukaryotic genomes[J]. Nucleic Acids Res, 1984, 12(10): 4127-4138. doi: 10.1093/nar/12.10.4127
[2] 何平. 真核生物中的微卫星及其应用[J]. 遗传, 1998, 20(4): 44-49. [3] 罗文永, 胡骏, 李晓方. 微卫星序列及其应用[J]. 遗传, 2003, 25(5): 615-619. doi: 10.3321/j.issn:0253-9772.2003.05.027 [4] ZHAO X Y, TAN Z Y, FENG H P, et al. Microsatellites in different Potyvirus genomes: survey and analysis[J]. Gene, 2011, 488(1/2): 52-56.
[5] 张增翠, 侯喜林. SSR分子标记开发策略及评价[J]. 遗传, 2004(5): 763-768. doi: 10.3321/j.issn:0253-9772.2004.05.037 [6] WU X P, FENG Y W, JIANG H L, et al. A preliminary genetic linkage map of Sinonovacula constricta (Lamarck, 1818) based on microsatellites derived from RAD sequencing[J]. J Ocean U China, 2018, 17(4): 947-956. doi: 10.1007/s11802-018-3543-5
[7] 赵娜, 常剑波, 陶江平, 等. 基于微卫星标记的中华鲟亲子关系判别及案例分析[J/OL]. 水生态学杂志. [2021-01-15]. http://kns.cnki.net/kcms/detail/42.1785.X.20200915.1323.002.html. [8] 苏胜彦, 张林兵, 李海洋, 等. 基于微卫星标记的大口黑鲈 (Micropterus salmoides) 原种和养殖群体遗传多样性和结构分析[J]. 浙江大学学报 (农业与生命科学版), 2020, 46(6): 687-698. [9] 蔡焰值, 蔡烨强, 何长仁. 瓦氏黄颡鱼生物学的初步研究[J]. 北京水产, 2003(6): 24-29. [10] 李明锋. 瓦氏黄颡鱼研究进展及前景展望[J]. 现代渔业信息, 2011, 26(1): 5-12. [11] 巩高瑞, 张晋, 丹成, 等. 应用DNA分子标记鉴定黄颡鱼、瓦氏黄颡鱼及其杂交种的研究[J]. 水生生物学报, 2017, 41(2): 321-325. doi: 10.7541/2017.39 [12] 葛学亮, 尹洪滨, 毕冰, 等. 黄颡鱼遗传图谱构建及生长相关性状的QTL定位[J]. 水产学报, 2010, 34(2): 185-193. [13] 李大宇, 殷倩茜, 侯宁, 等. 黄颡鱼 (Pelteobagrus fulvidraco) 不同生态地理分布群体遗传多样性的微卫星分析[J]. 海洋与湖沼, 2009, 40(4): 460-469. doi: 10.3321/j.issn:0029-814X.2009.04.011 [14] 李林, 梁宏伟, 李忠, 等. 瓦氏黄颡鱼线粒体全基因组序列分析及系统进化[J]. 遗传, 2011, 33(6): 627-635. [15] 郑翔, 徐杰杰, 张佳佳, 等. 4个瓦氏黄颡鱼群体遗传多样性的微卫星分析[J]. 水产科学, 2020, 39(5): 657-668. [16] 何晶晶, 黄建华, 牛红艳, 等. 猪蛔虫全基因组微卫星分子标记开发与特征分析[J]. 中国兽医杂志, 2020, 56(9): 11-14, 19. [17] 张雪莲, 王红梅, 王磊, 等. 草地贪夜蛾基因组微卫星的分布规律[J]. 应用昆虫学报, 2020, 57(6): 1287-1298. [18] 徐杰杰, 毕宜慧, 程景颢, 等. 中华绒螯蟹 (Eriocheir sinensis) 全基因组微卫星分布特征研究[J/OL]. 基因组学与应用生物学. [2021-03-21]. http://61.175.198.136:8083/rwt/CNKI/http/NNYHGLUDN3WXTLUPMW4A/kcms/detail/45.1369.Q.20210118.1225.006.html. [19] 段永楠, 刘奕, 胡隐昌, 等. 美丽硬仆骨舌鱼全基因组微卫星分布规律特征[J]. 中国农学通报, 2019, 35(23): 152-158. doi: 10.11924/j.issn.1000-6850.casb18030101 [20] 王耀嵘, 杨尉, 任席林, 等. 金钱鱼基因组微卫星分布特征分析及多态性标记开发[J]. 广东海洋大学学报, 2020, 40(4): 7-14. doi: 10.3969/j.issn.1673-9159.2020.04.002 [21] 梁霞, 王慧琪, 马宇璇, 等. 鲤鱼 (Cyprinus carpio) 全基因组微卫星分布特征研究[J]. 南京师范大学学报(自然科学版), 2021, 44(3): 103-111. [22] CONESA A, GÖTZ S, GARCÍA-GÓMEZ J M, et al. Blast2GO: a universal tool for annotation, visualization and analysis in functional genomics research[J]. Bioinformatics, 2005, 21(18): 3674-3676. doi: 10.1093/bioinformatics/bti610
[23] XIE C, MAO X, HUANG J, et al. KOBAS 2.0: a web server for annotation and identification of enriched pathways and diseases[J]. Nucleic Acids Res, 2011, 39(Suppl2): W316-W322. doi: 10.1093/nar/gkr483
[24] SUBRAMANIAN S, MISHRA R K, SINGH L. Genome-wide analysis of microsatellite repeats in humans: their abundance and density in specific genomic regions[J]. Genome Biol, 2003, 4(2): 1-10. doi: 10.1186/gb-2003-4-2-p1
[25] TONG X L, DAI F Y, LI B, et al. Microsatellite repeats in mouse: abundance, distribution and density[J]. 动物学报, 2006, 52(1): 138-152. [26] 戚文华, 蒋雪梅, 肖国生, 等. 牛和绵羊全基因组微卫星序列的搜索及其生物信息学分析[J]. 畜牧兽医学报, 2013, 44(11): 1724-1733. [27] 徐杰杰, 郑翔, 张鑫宇, 等. 4种河鲀全基因组微卫星分布特征分析研究[J/OL]. 基因组学与应用生物学. [2021-01-25]. http://kns.cnki.net/kcms/detail/45.1369.q.20191126.1019.002.html. [28] 徐杰杰, 郑翔, 李杰, 等. 黄颡鱼 (Pelteobagrus fulvidraco) 全基因组微卫星分布特征分析[J]. 基因组学与应用生物学, 2020, 39(12): 5488-5498. [29] 王月月, 刘雪雪, 董坤哲, 等. 7种家养动物全基因组微卫星分布的差异研究[J]. 中国畜牧兽医, 2015, 42(9): 2418-2426. [30] 阮晓红. 大菱鲆(Turbot)微卫星标记的筛选与应用[D]. 青岛: 中国海洋大学, 2009: 53-54. [31] 黄杰, 杜联明, 李玉芝, 等. 红原鸡全基因组中微卫星分布规律研究[J]. 四川动物, 2012, 31(3): 358-363. [32] 崔凯, 岳碧松. 绿尾虹雉全基因组微卫星分布规律研究[J]. 四川动物, 2018, 37(5): 533-540. doi: 10.11984/j.issn.1000-7083.20180096 [33] 黄杰, 刘磊, 杨波, 等. 普通鸬鹚基因组微卫星分布规律研究[J]. 野生动物学报, 2020, 41(1): 108-114. doi: 10.3969/j.issn.1000-0127.2020.01.015 [34] TÓTH G, GÁSPÁRI Z, JURKA J. Microsatellites in different eukaryotic genomes: survey and analysis[J]. Genome Res, 2000, 10(7): 967-981. doi: 10.1101/gr.10.7.967
[35] 上官清, 陈昆慈, 刘海洋, 等. 斑鳢基因组中微卫星分布特征及野生种群遗传结构分析[J]. 南方水产科学, 2020, 16(3): 47-60. [36] SCHORDERET D F, GARTLER S M. Analysis of CpG suppression in methylated and nonmethylated species[J]. P Natl Acad Sci USA, 1992, 89(3): 957-961. doi: 10.1073/pnas.89.3.957
[37] PEARSON C E, SINDEN R R. Alternative structures in duplex DNA formed within the trinucleotide repeats of the myotonic dystrophy and fragile X loci[J]. Biochemistry-US, 1996, 35(15): 5041-5053. doi: 10.1021/bi9601013
[38] XU Y, LI W, HU Z, et al. Genome-wide mining of perfect microsatellites and tetranucleotide orthologous microsatellites estimates in six primate species[J]. Gene, 2018, 643: 124-132. doi: 10.1016/j.gene.2017.12.008
[39] XIAO T W, YU J Z, LIAO Q, et al. Comparative analyses of simple sequence repeats (SSRs) in 23 mosquito species genomes: identification, characterization and distribution (Diptera: Culicidae)[J]. Insect Sci, 2019, 26: 607-619. doi: 10.1111/1744-7917.12577
[40] ELLEGREN H. Heterogeneous mutation processes in human microsatellite DNA sequences[J]. Nature Genet, 2000, 24(4): 400-402. doi: 10.1038/74249
[41] WIERDL M, DOMINSKA M, PETES T D. Microsatellite instability in yeast: dependence on the length of the microsatellite[J]. Genetics, 1997, 146(3): 769-779. doi: 10.1093/genetics/146.3.769
-
期刊类型引用(9)
1. 曾志锋,邵伟伟,马力,陶宇慧,韦力. 棘皮动物海星(Patiria miniata)全基因组微卫星分布特征. 丽水学院学报. 2024(02): 31-39 . 百度学术
2. 周全,王家琪,于贵杰,吴建开,王德忠,熊阳,郭稳杰,张茂森,唐琴,梅洁. 精液添加精氨酸和亮氨酸对杂交黄颡鱼受精和孵化的影响. 水生生物学报. 2023(10): 1585-1594 . 百度学术
3. 范嗣刚,黄皓,王鹏飞,赵超,闫路路,邱丽华. 基于微卫星标记的花鲈亲子鉴定技术. 广东海洋大学学报. 2023(05): 26-33 . 百度学术
4. 杨尉,司圆圆,许瑞雯,陈兴汉. 基于基因组survey数据的疣吻沙蚕微卫星特征分析及多态标记开发. 南方水产科学. 2023(05): 123-133 . 本站查看
5. 刘士力,刘一诺,李飞,郑建波,程顺,蒋文枰,迟美丽,赵金良. 3种鲌亚科鱼类全基因组微卫星分布特征分析. 上海海洋大学学报. 2023(06): 1176-1183 . 百度学术
6. 葛健辉,关文志,任晋东,牛宝龙,胡金春,王伟,翁旭东,楼宝,于瑾,许晓军. 马口鱼全基因组简单重复序列特征分析与多态性标记开发. 浙江农业学报. 2023(11): 2584-2593 . 百度学术
7. 吴晓雲,陈叶雨,龚全,刘亚,宋明江,李飞扬,李鹏程,邹巧林,欧军,赖见生. 基于三代全长转录组测序的极边扁咽齿鱼SSR分子标记开发. 南方农业学报. 2023(09): 2525-2532 . 百度学术
8. 全德润,王李宝,黎慧,史文军,朱健强,顾舒文,顾晨,任乾,万夕和. 虾肝肠胞虫全基因组SSR位点分布及比较分析. 中国水产科学. 2023(11): 1398-1408 . 百度学术
9. 卢凯妹,王天骄,董世武,邢秀梅,苏伟林. 梅花鹿基因组微卫星分布特征研究. 特产研究. 2022(06): 8-15+23 . 百度学术
其他类型引用(1)