大噪鹛多组织转录组测序组装和基因注释
李仁明秀,刘乙,兰月,耿炀,杨楠,岳碧松*
(1.四川大学生命科学学院,生物资源与生态环境教育部重点实验室,成都 610065;2.四川省生态环境科学研究院,成都 610041;3.西南民族大学青藏高原研究院,成都 610041)
大噪鹛隶属于雀形目passeriformes噪鹛科leiothrichdae噪鹛属,为该科体型最大的物种之一(cheng,1987;rasmussen&anderton,2005),主要分布在四川、重庆、湖北、甘肃南部、西藏东南部以及云南西北部,我国特有种(郑光美,2017),国家二级重点保护野生动物(国家林业和草原局,农业农村部,2021),其垂直分布范围跨度较大(海拔2 135~4 115 m),甚至在海拔4 200 m以上地区也能生存(张强等,2010),栖息环境主要包括亚高山、高山深林灌丛及其周围的林缘地带(del hoyo,2007)。
随着高通量测序技术的飞速发展,利用转录组测序分析技术研究基因的表达调控的差异越来越广泛(bai,2016;zhang,2016;wang,2017;zhao,2018)。目前通过高通量测序分析,对于高海拔低氧环境的绿尾红雉(qu,2013)、藏猪(ai,2014)、褐 背 拟 地 鸦(wang,2015)、藏鸡(cui,2019)等已有相关适应性的研究。大噪鹛分子遗传信息匮乏,目前仅有关于甘肃莲花山大噪鹛的繁殖习性研究(wang,2010)。本研究通过二代测序技术对采自四川省甘孜藏族自治州帕姆岭和察青松多白唇鹿国家级自然保护区的8只大噪鹛的39个组织样本进行转录组测序,通过组装、注释,获得了第一个组装质量较高的大噪鹛转录组,为进一步研究其遗传学和濒危机制提供基础数据,通过不同组织间的差异表达分析大噪鹛高海拔生存适应机制。
1 材料与方法1.1 材料大噪鹛样品共8只(均为多年鸟类监测过程中,撞网受伤而无法救治的个体):5只采自四川省甘孜藏族自治州雅江县八角楼乡帕姆岭(101°18′e,30°10′n,海拔4 147 m),编号分别为pa、pb、pc、pd、pe,取心脏、肝脏、胃、肺脏、肾脏和肌肉6种组织,编号分别为1~6;3只采自四川省甘孜藏族自治州白玉县察青松多白唇鹿国家级自然保护区(99°20′e,30°59′n,海拔3 800 m),编号分别为ca、cb、cc,取心脏、肺脏、肌肉3种组织,编号分别为1~3;共计39个组织样本,液氮保存。由于察青松多采集的心脏与肺脏组织样本未明确标记,为避免混淆,组装过程采用39个组织样本以获得更完整的转录本,后续分析过程中仅采用帕姆岭地区的组织样本。
1.2 转录组测序使 用invitrogen的trizol试 剂 盒(promega,usa)进行总rna提取,操作流程按照说明书进行,提取后交付北京诺禾致源科技股份有限公司建库,并在illumina hiseq2000高通量测序平台进行双末端测序,测序片段长约200 bp。
1.3 转录组组装在trinity 2.4.0(grabherr,2011)中 以把39个组织合并组装成共同的无参转录本(geng,2017),只保留片段长度在300 bp以上的contig序列(haas,2013)。组装参数:trinitymax_memory 200g-cpu 80-min_contig_length 300。组装完成后再通过evidentialgene的tr2aacds(http://arthropods.eugenes.org/evidentialgene/about/evidentialgene_trassembly_pipe.html)去 除 片 段 化的、低编码潜力的以及序列高度相似的转录本。组装完成后,选取最长的转录本作为unigene。
1.4 功能注释使用blast(altschul,2012)将组装完成的转录本与swiss-prot、pfam、eggnog数据库进行比对,e值设置为1e-5。将swiss-port数据库的注释结果导入blast2go(conesa,2005)进行go注释,通过wego 2.0(ye,2018)进行可视化展示。以真核生物为背景基因集,使用kegg automatic annotation server(kaas)(yuki,2007)对转录本进行kegg通路分析。
1.5 基因差异表达分析通过salmon(patro,2017)计算转录本表达量得到每千个碱基的转录每百万映射读取的转录本数(tran s per kilo of exon model per million mapped reads,tpm),对帕姆岭的30个样本进行重复性对比和主成分分析,通过trinity的edger包(smyth,2010)进行基因差异表达分析。差异表达基因的筛选标准为|log(fold change)|≥2且<0.05。使用clusterprofile(yu,2012)对差异表达基因进行go功能注释和kegg通路富集分析。
2 结果2.1 测序结果共得到原始reads 914 244 993条(约274 gb),过滤后得到的高质量reads共896 246 793条(约269 gb),有效reads的比例高于96.3%,质量在q20以上的reads超过95%,质量在q30以上的reads超过88%(表1)。证明本次大噪鹛转录组样品测序质量与过滤结果较好,可用于后续分析。
表1 各样品测序结果汇总table 1 summary of sequencing results of each sample
2.2 转录组组装结果通过trinity拼接组装共获得848 451条转录本(表2),拼接的总长度为1 165 234 924 bp,平均长度为1 373.37 bp,n50为4 474 bp。通过tr2aacds去除冗余片段后,共获得308 343条转录本,总长度为406 642 215 bp,平均长度为1 318.80 bp,n50为2 748 bp。
表2 大噪鹛的转录组组装table 2 tran ome assembly of garrulax maximus
2.3 转录本注释将组装好的转录本与5个数据库进行同源性比对和功能注释,共获得有注释信息的83 379条转录本:swiss-port数据库75 138条、kegg数据库59 118条、go数 据 库66 742条、pfam数 据 库39 738条、eggnog数据库55 604条。同时在5个数据库中有注释信息的转录本共31 019条(图1)。
图1 大噪鹛转录本功能注释fig.1 function annotation of garrulax maximus tran s
按照细胞过程和信号传递、信息储存与处理、新陈代谢以及无特征基因将注释到的转录本分为4大类25小类:无显著特征的转录本15 830条(46.9%),其次为信号传导机制(8 373条)、翻译后修饰转运(5 911条)和细胞内运输(3 590条)(图2)。
图2 大噪鹛转录本的eggnog功能分类fig.2 eggnog analysis of garrulax maximus tran s
将转录本分为生物学过程、细胞组分和分子功能,其中,细胞组分中注释到的转录本最多,共60 651条,占90.8%;生物学过程中注释到的转录本最少,只有1 380条,占2.1%(图3)。
图3 大噪鹛转录本的go功能分类fig.3 go analysis of garrulax maximus tran s
注释到转录本最多的前5条通路分别为:碳水化合物代谢(ko01200)、核糖体(ko03010)、氨基酸生物合成(ko01230)、嘌 呤 代 谢(ko00230)和 癌 症 通 路(ko05200),分别注释到1 345条、1 268条、1 103条、1 045条和1 004条。
2.4 样本重复性分析帕姆岭样本中,pc4、pc6和pe6为离群样本,剔除后构建相关性矩阵,可分为6组,依次为心脏、肌肉、胃、肝脏、肾脏和肺脏,各组的样本重复性均较好。
主成分分析结果显示,27个组织样本可被清楚分为5个聚类簇,其中,心脏、肌肉和胃有一定的重叠,彼此显示出较近的聚类关系;其余3种组织分别聚类在不同方位(图4)。
图4 帕姆岭地区大噪鹛6种组织样本主成分分析结果fig.4 principle component analysis of 6 tissue samples from garrulax maximus in pamuling area
2.5 差异表达基因分析共得到36 059个差异表达基因(表3):肺脏与肝脏的差异表达基因数量最多(12 442个),肌肉与心脏的最少(4 005个)。
表3 大噪鹛6种组织间差异表达基因数table 3 number of differentially expressed genes among 6 tissues of garrulax maximus
心脏的差异表达基因共富集在228条go条目上,主要是与心脏形态结构发育相关的条目,如心房肌细胞发育(go:0055014)、心肌组织形态发生(go:0055008)、胚胎心管形态发生(go:0003143)、房间隔形态发生(go:0060413)及心肌纤维发育(go:0048739)等;还显著富集到心脏收缩调节的相关条目,如心肌收缩(go:0060048)、肌肉收缩(go:0006936)、肌肉收缩调节(go:0006937)及通过调节游离钙离子的释放来调节心肌收缩(go:0010881)等;此外,还富集到呼吸链上能量传递的许多通路,如呼吸链复合物Ⅳ(go:0045277)、氧化磷酸化(go:0006119)、线粒体呼吸链复合体Ⅰ(go:0005747)等。心脏一共富集到了18条kegg通路,除了心脏收缩功能相关的通路,还富集到了与体液渗透压调节相关的肾素分泌(ko04924)、醛固酮合成与分泌(ko04925),并且心钠肽差异表达基因(natriuretic peptide precursor a,nppa)富集在心脏的多条通路上。
肺脏一共富集到了43条go条目,其中有21条富集结果与免疫反应相关,如:单核细胞趋化性(go:0002548)、抗菌肽介导的抗菌体液免疫应答(go:0061844)、淋 巴 细 胞 趋 化 性(go:0048247)、趋化因子活性(go:0008009)、炎症反应(go:0006954)、炎 症 反 应 的 正 调 控(go:0050729)、趋化因子介导的信号通路(go:0070098)、细胞因子介导的信号通路(go:0019221)、整合素介导的细胞粘附负调控(go:0033629)、巨噬细胞趋化性(go:0048246)、中性粒细胞趋化性(go:0030593)、中性粒细胞活化(go:0042119)、脂多糖结合(go:0001530)、细胞对脂多糖的反应(go:0071222)和细胞对白细胞介素-1的反应(go:0071347)等。此外,还富集到与氧气运输、血管生成、造血相关的通路。肺脏富集到了21条kegg通路,其中大部分也是免疫与疾病相关的通路,包括toll样受体信号通路(ko04620)、趋化 因 子 信 号 通 路(ko04062)、il-17信 号 通 路(ko04657)、jak-stat信号通路(ko04630)等。差异表达基因il8、nfkb1、il3rb等被富集在kegg通路中。
肝脏一共富集到了298条go条目和44条kegg通路。go富集结果分为以下三大类,一是维生素a代谢相关通路,如对维生素a的反应(go:0033189)、视 黄 醇 代 谢 过 程(go:0042572)和维甲酸代谢过程(go:0042573)等;二是脂类代谢的相关通路,如脂肪酸结合(go:0005504)、高 密 度 脂 蛋 白 颗 粒(go:0034364)、胆固醇代谢过程(go:0008203)等;三是发挥解毒功能的相关通路,如有毒物质结合(go:0015643)、药物结合(go:0008144)、细胞葡萄糖醛酸化(go:0052695)、葡萄糖醛酸转移酶活性的负调节(go:1904224)等。kegg富集结果主要也是与物质合成代谢相关的通路,以及解毒功能相关的细胞色素p450对外源物质的代谢(ko00980)、药物代谢-细胞色素p450(ko00982)。
3 讨论本研究利用illumina测序技术首次对8只大噪鹛的肝脏、心脏、肌肉、胃、肺脏以及肾脏等6个组织进行了转录组测序、组装以及功能注释。在差异表达基因的功能富集结果中,肺脏组织中富集到大量与免疫相关的toll样受体,toll样受体可以识别革兰氏阳性菌细胞壁的肽多糖、革兰氏阴性菌细胞壁的脂多糖以及病毒的遗传物质双链rna等相对保守的结构序列(aderem & ulevitch,2000),属于机体的固有免疫(akira & takeda,2004),可以快速激活细胞内信号级联反应过程中的一系列催化蛋白及信号因子,使机体快速产生促炎性细胞因子、趋化因子等,从而调控免疫细胞的功能并清除病原体。由此说明了长期生活在高海拔地区的大噪鹛可能通过增强先天免疫以抵御呼吸过程中外界病原体的侵袭。
长期生活在高海拔地区,体内血液的分布也会发生变化,心血管系统的血流分布会相对增多,而肾脏的血流会相对减少,刺激肾素-血管紧张素-醛固酮系统(hurtado-arestegui,2018),导致血压升高。大噪鹛心脏组织中发现了肾素分泌、醛固酮合成与分泌通路,并发现nppa富集在多条通路上。nppa基因编码心钠肽(atrial natriuretic peptide,anp)的前体,在高血容量以及高血压情况下,心肌细胞释放anp到血液循环中,anp的主要作用是促进肾脏利钠利尿,放松血管平滑肌,从而调节血容量和血压(song,2015)。此外,anp还能抑制醛固酮的产生(maack,1984)。大噪鹛通过肾素、醛固酮相关通路以及anp协同调节血压,减少低氧刺激导致的功能紊乱的影响,这可能也是大噪鹛在高海拔生存时的机体优化策略之一。
在肝脏的差异表达分析中,筛选到了大量上调的谷胱甘肽转移酶(gst)基因。gst是谷胱甘肽过氧化物酶家族的成员,主要在清除自由基系列反应的前期催化氧自由基与谷胱甘肽结合(hayes,2005)。氧自由基不及时清除会引起细胞破坏、蛋白质破坏、dna破坏,最终导致氧化应激。长期的高原生活还可能因为慢性缺氧而引起缺氧性肝细胞损伤,其临床病理表现为肝细胞肿胀和脂肪变性(万平新等,2016)。缺氧情况下机体会产生更多的活性氧(dawson,1993)。因此,虽然氧化应激反应在低氧环境下难以避免,大噪鹛肝脏组织通过上调谷胱甘肽过氧化物酶家族的相关基因,可以尽可能降低氧化应激反应所带来的伤害。
综上所述,本研究基于大噪鹛心脏、肝脏、胃、肺脏、肾脏、肌肉6种组织转录组表达量的差异,对各个组织的差异表达基因进行了富集分析,结果发现心脏、肝脏、肺脏3种组织中有许多组织特异性的差异表达基因,并且表达量差异显著,表明这些组织在大噪鹛低氧习服的过程中发挥着重要作用。但受限于保护物种,本次研究的样品数量较少,后续还可以进行多地非损伤性采样,为大噪鹛的保护提供更多的线索与数据。
大噪鹛多组织转录组测序组装和基因注释
本文2022-11-09 22:15:05发表“农林鱼水论文”栏目。
本文链接:https://www.wenmi123.com/article/429839.html
- 座谈会发言:体系抓好思政课教育做好贯彻落实下篇文章(02-19).docx
- 组织部机关支部书记2024年度抓基层党建工作述职报告(02-19).docx
- 在县委理论中心组暨2024年度民主生活会学习研讨会上的发言(02-19).docx
- 在2025年市人代会分组讨论会上的发言(02-19).docx
- 医院党委选人用人工作自查报告(02-19).docx
- 宣传部2024年民主生活会个人对照检查发言(02-19).docx
- 行政服务中心民族团结进步创建工作经验材料(02-19).docx
- 校长在中学2025春季开学典礼上的讲话:撷一抹祈望春风掬一程锦绣花开(02-19).docx
- 乡镇领导班子2024年民主生活会对照检查发言材料(五个带头+典型案例)(02-19).docx
- 乡2024年度基层党建工作总结(02-19).docx