查看原文
其他

小心!!!权威杂志的GEO数据出错了

老牛 生信草堂 2022-06-15

生信草堂

将会与更多的优秀微信公众号合作,把更优秀的微信推文呈现给大家,希望可以帮助读者更多的了解生信技术,培养和提高读者的生信分析能力!

号外,号外,号外

你想和生信分析大神做好朋友么?

你想认识更多爱好生信分析的小伙伴么?

你想让自己的生信分析走上快车道么?

那就赶快加入我们的生信交流微信群吧!

正确加入我们的模式是:

添加我们的微信bioinformatics88为好友

标注“加入生信草堂交流群

在群里请大家注明自己本名,单位,研究领域

便于小编管理

只看题目读者也许一脸迷茫,其实本期概要是,就是老牛发现一篇韩国人发表在ANIMAL GENETICS上的文章中, 6个猪样本的RNA-seq raw data中的3个受到了菌类严重污染不能使用,但是作者在文章里却说六个样本比对率都在70%以上,并且内容分析的津津有道,结果讲的振振有词,老牛的心灵受到了深深地震撼,这**也可以?有兴趣的同学可以陪老牛一起看看详细的情况。


这篇文章名为Identification of differentially expressed genes in longissimus muscle of pigs with high and low intramuscular fat content using RNA sequencing,于2016年年初发表在ANIMAL GENETICS上,该杂志影响因子1.815,但是在动物领域该杂志还是很权威的。文章思路比较简单,就是针对猪的肌内脂肪含量的高低做了两组三重复共6个样的RNA-seq,然后分析了差异基因和通路并且用荧光定量验证了下,技术路线是tophat+edgeR。这篇文章看上去很简单,理论上也不该有什么问题是不?而且一般人也不会闲着没事去检验这种文章的GEO数据是不?可是老牛在学习技术的时候偏偏就碰巧找了这篇文章做技术练习,然后着实领教了韩国人的“写作技巧”。

文章有六个样本:

GSM2293304:L10_RNAseq

GSM2293305:L12_RNAseq

GSM2293306:L16_RNAseq

GSM2293307:H02_RNAseq

GSM2293308:H03_RNAseq

GSM2293309:H06_RNAseq


三个L代表低肌内脂肪含量的猪,三个H代表高肌内脂肪含量的猪。每个样品的原始数据都是双端100bpraw data,通过FASTQC质控老牛发现,6个样本的GC含量有些区别,具体如下:


我们可以看到,L12L16H06Per sequence GC content图都为双峰,这种情况多见于测序样品有外源物种污染的情况。


然后老牛使用和文章中一样的tophat26个样本进行了mappingmapping值越高代表测序的raw data中越多的reads能比对到猪的参考基因组上。老牛的结果如下图所示,其中L12L16H06三个样的比对率均不到5%说明这三个样的reads中有95%以上没有比对到猪基因组上。


但是文章中可是说六个样本比对率都有70%多,如下图所示:


那么问题到底出在哪里?老牛在确定自己下载GEO数据过程中没有错误后,直接暴力的将随机抽取的reads比对到NCBI,结果发现:

H06_1_trimmed.fq :

1.TGTAGGTTTCACCGTCTTTAGCGTCGTAATGAACTTCGACCGCATTTAGTTTAATCGTAATTCCACGTTCACGTTCTAAATCCATTGTATCCAGTAATTG


2.TCAGAAACAGCAAGGCATTGATACGTTTCCCGATTTCCATCCTGATCCCTGACATTTCCTGTGTAAAAAAGATAGAGCCGATCGTCTTTCGTGACAGCGCT


3.CGAGCTGACCACCGAGGACTGCTTCGGCGGCAAGGTGCGCGGCACCGGCGACCTGCCCAGCCGGGTCTGCGTCTTCCCGTACCTCAACCCCGTCACCGGCC


H06为例,抽取的readsNCBI里的比对结果都是菌类,同样的情况也发生在L12L16两个样本中,但是比对率正常的L10H02H03都完好的比对到猪基因组上,所以很明显L12L16H06在测序过程中被菌类污染了。


那么作者这篇文章是怎么写出来的?

那么作者这篇文章是怎么写出来的?

那么作者这篇文章是怎么写出来的?

老牛深深地折服韩国人的“写作技巧”,毕竟韩国人能把世界都说成是韩国的,其优秀的品质必定在其他领域也有所展现。


这事在生信草堂的老牛跟老马汇报后,经过讨论,联系到ANIMAL GENETICS的主编并说明这篇文章的问题,主编后来联系了作者。作者的反馈是:首先承认数据确实有问题,说明原因是上传错了数据,后续会上传正确的数据。


老牛似乎看到了经费在燃烧。。。


后续这个事情老牛会继续跟进,做事要有头有尾。当然老牛希望作者是真的上传错了数据,不然那些科研猪可就白白牺牲了

本 期 推 荐

“LinkedOmics” TCGA第三方软件中的战斗机!

功能基因组学研究利器——Hi-C

如何复原一篇高分SCI论文???







您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存