小心!!!权威杂志的GEO数据出错了
生信草堂
将会与更多的优秀微信公众号合作,把更优秀的微信推文呈现给大家,希望可以帮助读者更多的了解生信技术,培养和提高读者的生信分析能力!
号外,号外,号外
你想和生信分析大神做好朋友么?
你想认识更多爱好生信分析的小伙伴么?
你想让自己的生信分析走上快车道么?
那就赶快加入我们的生信交流微信群吧!
正确加入我们的模式是:
添加我们的微信bioinformatics88为好友
标注“加入生信草堂交流群”
在群里请大家注明自己本名,单位,研究领域
便于小编管理
这篇文章名为《Identification of differentially expressed genes in longissimus muscle of pigs with high and low intramuscular fat content using RNA sequencing》,于2016年年初发表在ANIMAL GENETICS上,该杂志影响因子1.815,但是在动物领域该杂志还是很权威的。文章思路比较简单,就是针对猪的肌内脂肪含量的高低做了两组三重复共6个样的RNA-seq,然后分析了差异基因和通路并且用荧光定量验证了下,技术路线是tophat+edgeR。这篇文章看上去很简单,理论上也不该有什么问题是不?而且一般人也不会闲着没事去检验这种文章的GEO数据是不?可是老牛在学习技术的时候偏偏就碰巧找了这篇文章做技术练习,然后着实领教了韩国人的“写作技巧”。
文章有六个样本:
GSM2293304:L10_RNAseq
GSM2293305:L12_RNAseq
GSM2293306:L16_RNAseq
GSM2293307:H02_RNAseq
GSM2293308:H03_RNAseq
GSM2293309:H06_RNAseq
三个L代表低肌内脂肪含量的猪,三个H代表高肌内脂肪含量的猪。每个样品的原始数据都是双端100bp的raw data,通过FASTQC质控老牛发现,6个样本的GC含量有些区别,具体如下:
我们可以看到,L12、L16和H06的Per sequence GC content图都为双峰,这种情况多见于测序样品有外源物种污染的情况。
然后老牛使用和文章中一样的tophat2对6个样本进行了mapping,mapping值越高代表测序的raw data中越多的reads能比对到猪的参考基因组上。老牛的结果如下图所示,其中L12、L16和H06三个样的比对率均不到5%,说明这三个样的reads中有95%以上没有比对到猪基因组上。
但是文章中可是说六个样本比对率都有70%多,如下图所示:
那么问题到底出在哪里?老牛在确定自己下载GEO数据过程中没有错误后,直接暴力的将随机抽取的reads比对到NCBI,结果发现:
H06_1_trimmed.fq :
以H06为例,抽取的reads在NCBI里的比对结果都是菌类,同样的情况也发生在L12和L16两个样本中,但是比对率正常的L10、H02、H03都完好的比对到猪基因组上,所以很明显L12、L16和H06在测序过程中被菌类污染了。
那么作者这篇文章是怎么写出来的?
那么作者这篇文章是怎么写出来的?
那么作者这篇文章是怎么写出来的?
老牛深深地折服韩国人的“写作技巧”,毕竟韩国人能把世界都说成是韩国的,其优秀的品质必定在其他领域也有所展现。
这事在生信草堂的老牛跟老马汇报后,经过讨论,联系到ANIMAL GENETICS的主编并说明这篇文章的问题,主编后来联系了作者。作者的反馈是:首先承认数据确实有问题,说明原因是上传错了数据,后续会上传正确的数据。
老牛似乎看到了经费在燃烧。。。
后续这个事情老牛会继续跟进,做事要有头有尾。当然老牛希望作者是真的上传错了数据,不然那些科研猪可就白白牺牲了
本 期 推 荐