查看原文
其他

R txdb创建与读取

tiansaisai 生信菜鸟团 2022-06-07

txdb初识

谈到txdb,我们不得不提两个包,"GenomicFeatures"和“Txdb.Hsapiens.UCSC.hg38.knownGene”,这两个包都是用来创建Txdb对象。当然有的人用的是hg19,我这里采用最新的hg38,操作函数都是一样的,只是所包含的信息更多。


使用R加载两个包

首先,我们先把这两个包安装起来,接下来一步步来看Txdb究竟是什么东西

source("https://bioconductor.org/biocLite.R") biocLite("GenomicFeatures")
source("https://bioconductor.org/biocLite.R") biocLite("TxDb.Hsapiens.UCSC.hg38.knownGene")

1.第一步,查看GenomicFeatures所包含的txdb对象,实际上只是下面一个包的子集,
查看所有的信息,我们需要加载第二个包

library('GenomicFeatures')
samplefile<- system.file("extdata",
"hg19_knownGene_sample.sqlite", package="GenomicFeatures")
txdb<- loadDb(samplefile)


可以看到其只包含178个转录本,620个外显子,信息是很少的

2.接下来我们要加载hg38全部基因组信息

library(TxDb.Hsapiens.UCSC.hg38.knownGene)

txdb <- TxDb.Hsapiens.UCSC.hg38.knownGene 
txdb

可以看到无论是外显子,转录本还是编码区都是最多的,因为这是hg38整理好的全部基因组信息

这里面有几个最常见的函数:

genes(txdb)

exons(txdb)

transcripts(txdb)

cds(txdb)

可以看到genes函数,提取24183个基因信息,

exons(txdb)

而用exons函数可以提取这个txdb对象的exons信息,共289969个exon

transcripts(txdb) 

可以提取转录本信息,共197782个转录本

还有cds函数等来提取到cds的信息

这里的图片我就不一一展示了,感兴趣的同学,可以自己试一下,其他函数

注意一点:无论什么函数返回的对象都是一个Granges对象

如何创建txdb对象

1. 创建TXdb对象


这里我使用了makeTxDbFromUCSC函数

函数 makeTxDbFromUCSC用来下载UCSC Genome Bioinformatics 转录本信息

mm9KG_txdb <- makeTxDbFromUCSC(genome="mm9", tablename="knownGene")

saveDb(mm9KG_txdb, file="fileName.sqlite")

这样我们就创建了一个小鼠的txdb对象


如何加载txdb对象

mm9KG_txdb <- loadDb("fileName.sqlite")

这样一条命令就可以了。

猜你喜欢

生信基础知识100讲

生信菜鸟团-专题学习目录(5)

生信菜鸟团-专题学习目录(6)

还有更多文章,请移步公众号阅读

▼ 如果你生信基本技能已经入门,需要提高自己,请关注下面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。

▼ 如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存