查看原文
其他

lncRNA鉴定专题-样本和测序要求

梅零落 生信菜鸟团 2022-06-07

lncRNA测序采用 Illumina HiSeq 平台进行测序,针对有参考基因组样本开展准确的 lncRNA 鉴定和 lncRNA 靶基因预测,同时提供针对测序数据中 mRNA 的分析,结果更全面,广泛应用于医学、农学研究领域。

技术路线

样本要求

lncRNA鉴定

1.文件准备

  • 下载参考基因组及gtf文件,或者自己组装的也可以使用

  • 准备cDNA或mRNA序列,如有lncRNA序列也可直接使用

2.比对基因组

  • 软件:RWA,Tophat,Hisat2

  • 每个样本的测序数据mapping到基因组

3.转录本组装

  • 这里可以选择cufflink或者Stringtie,重点推荐Stringtie。Stringtie能够拼接处更完整、更准确的基因,并且Stringtie采用拼接和定量同步运行,相对于其他方法,其定量结果更准确

  • 根据评测,对于从人类血液中获得的reads,Stringtie正确组装了10,990个转录本,而Cufflinks只组装了7,187个。对于模拟的数据集,Stringtie正确组装了7,559个转录本,比Cufflinks的6,310个提高了20%。此外,它的运行速度也比其他组装软件更快

4.转录本合并

  • 方法:可使用cuffmerge,Stringtie merge,TACO三个软件合并所有gtf文件。而当样本数目急剧增加时,合并得到的转录本数目会增加,假阳性率也会随之升高。这里推荐NATmethods最新发表的软件TACO来进行大样本gtf文件的整合

  • 说明:当样本较少的时候,三种软件整合出的基因亚型相差不大。如果样本数目大于50时,cuffmerge和Stringtie在固定的区域 会整合出长的假的嵌合体和较多的亚型,而TACO结果则保持一致的基因亚型

5.lncRNA过滤

a.可选步骤

  • 根据blast结果过滤与已知lncRNA大于0.9相似的转录本

  • Nr,Pfam,Dfam,animal/plant nc database都可以进行blast比对来进一步过滤

  • ORF长度预测,一般过滤大于50AA的转录本

b.软件特有步骤

  • Cufflink结果中可选择class-code为“i,j,u,o”的转录本作为保留

  • Stringtie和TACO结果根据位置关系过滤掉与已知转录本位置和方向重合的转录本,保留反义转录本

c.必备步骤

  • 过滤exon小于2,长度小于200bp,FPKM小于1的转录本

  • 分别用CPC,CNCI,PfamScan三个软件来对进行编码潜能预测,保留非编码转录本

d.三大主流网站

PfamScan:http://pfam.xfam.org/

CPC:http://cpc.cbi.pku.edu.cn/

CNC:https://github.com/www-bioinfo-org/CNCI

鉴定标准:

CPC_threshold = 0,大于0的转录本为mRNA,小于0的为lncRNA;

CNCI_threshold = 0,大于0的转录本为mRNA,小于0的为lncRNA;

PfamScan:比对上Pfam蛋白数据库的为mRNA,没有比对上的为lncRNA;

注意:cpc和PfamScan需要先建立蛋白参考数据库,cpc可以下载Uniprot/swissprot蛋白序列;PfamScan输入的是蛋白序列,可以由cpc的预测结果得出。


【福利】微信后台回复10,即可获得lncRNA课程学习资源。

参考资料

基因帮:lncRNA研究思路与方法

猜你喜欢

生信基础知识100讲

还有更多文章,请移步公众号阅读

如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。

如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存