小心！！！权威杂志的GEO数据出错了

Original 老牛生信草堂 2022-06-15

“

生信草堂

将会与更多的优秀微信公众号合作，把更优秀的微信推文呈现给大家，希望可以帮助读者更多的了解生信技术，培养和提高读者的生信分析能力！

号外，号外，号外

你想和生信分析大神做好朋友么？

你想认识更多爱好生信分析的小伙伴么？

你想让自己的生信分析走上快车道么？

那就赶快加入我们的生信交流微信群吧！

正确加入我们的模式是：

添加我们的微信bioinformatics88为好友

标注“加入生信草堂交流群”

在群里请大家注明自己本名，单位，研究领域

便于小编管理

只看题目读者也许一脸迷茫，其实本期概要是，就是老牛发现一篇韩国人发表在ANIMAL GENETICS上的文章中， 6个猪样本的RNA-seq raw data中的3个受到了菌类严重污染不能使用，但是作者在文章里却说六个样本比对率都在70%以上，并且内容分析的津津有道，结果讲的振振有词，老牛的心灵受到了深深地震撼，这**也可以？有兴趣的同学可以陪老牛一起看看详细的情况。

这篇文章名为《Identification of differentially expressed genes in longissimus muscle of pigs with high and low intramuscular fat content using RNA sequencing》，于2016年年初发表在ANIMAL GENETICS上，该杂志影响因子1.815，但是在动物领域该杂志还是很权威的。文章思路比较简单，就是针对猪的肌内脂肪含量的高低做了两组三重复共6个样的RNA-seq，然后分析了差异基因和通路并且用荧光定量验证了下，技术路线是tophat+edgeR。这篇文章看上去很简单，理论上也不该有什么问题是不？而且一般人也不会闲着没事去检验这种文章的GEO数据是不？可是老牛在学习技术的时候偏偏就碰巧找了这篇文章做技术练习，然后着实领教了韩国人的“写作技巧”。

文章有六个样本：

GSM2293304：L10_RNAseq

GSM2293305：L12_RNAseq

GSM2293306：L16_RNAseq

GSM2293307：H02_RNAseq

GSM2293308：H03_RNAseq

GSM2293309：H06_RNAseq

三个L代表低肌内脂肪含量的猪，三个H代表高肌内脂肪含量的猪。每个样品的原始数据都是双端100bp的raw data，通过FASTQC质控老牛发现，6个样本的GC含量有些区别，具体如下：

我们可以看到，L12、L16和H06的Per sequence GC content图都为双峰，这种情况多见于测序样品有外源物种污染的情况。

然后老牛使用和文章中一样的tophat2对6个样本进行了mapping，mapping值越高代表测序的raw data中越多的reads能比对到猪的参考基因组上。老牛的结果如下图所示，其中L12、L16和H06三个样的比对率均不到5%，说明这三个样的reads中有95%以上没有比对到猪基因组上。

但是文章中可是说六个样本比对率都有70%多，如下图所示：

那么问题到底出在哪里？老牛在确定自己下载GEO数据过程中没有错误后，直接暴力的将随机抽取的reads比对到NCBI，结果发现：

H06_1_trimmed.fq :

1.TGTAGGTTTCACCGTCTTTAGCGTCGTAATGAACTTCGACCGCATTTAGTTTAATCGTAATTCCACGTTCACGTTCTAAATCCATTGTATCCAGTAATTG

2.TCAGAAACAGCAAGGCATTGATACGTTTCCCGATTTCCATCCTGATCCCTGACATTTCCTGTGTAAAAAAGATAGAGCCGATCGTCTTTCGTGACAGCGCT

3.CGAGCTGACCACCGAGGACTGCTTCGGCGGCAAGGTGCGCGGCACCGGCGACCTGCCCAGCCGGGTCTGCGTCTTCCCGTACCTCAACCCCGTCACCGGCC

以H06为例，抽取的reads在NCBI里的比对结果都是菌类，同样的情况也发生在L12和L16两个样本中，但是比对率正常的L10、H02、H03都完好的比对到猪基因组上，所以很明显L12、L16和H06在测序过程中被菌类污染了。

那么作者这篇文章是怎么写出来的？

老牛深深地折服韩国人的“写作技巧”，毕竟韩国人能把世界都说成是韩国的，其优秀的品质必定在其他领域也有所展现。

这事在生信草堂的老牛跟老马汇报后，经过讨论，联系到ANIMAL GENETICS的主编并说明这篇文章的问题，主编后来联系了作者。作者的反馈是：首先承认数据确实有问题，说明原因是上传错了数据，后续会上传正确的数据。

老牛似乎看到了经费在燃烧。。。

后续这个事情老牛会继续跟进，做事要有头有尾。当然老牛希望作者是真的上传错了数据，不然那些科研猪可就白白牺牲了。

本期推荐

“LinkedOmics” TCGA第三方软件中的战斗机！

功能基因组学研究利器——Hi-C

如何复原一篇高分SCI论文？？？

张庆方律师拟被吊销律师证的处罚告知书

张庆方律师拟被吊销律师执业证：本人回应“自我选择，欣然接受”

我们能为死去的孩子做点什么？｜二湘空间

失去孩子的小山纯平先生的一封信

国产光刻机进展太慢？重点不是这个

小心！！！权威杂志的GEO数据出错了

您可能也对以下帖子感兴趣

张庆方律师拟被吊销律师证的处罚告知书

张庆方律师拟被吊销律师执业证：本人回应“自我选择，欣然接受”

我们能为死去的孩子做点什么？｜二湘空间

失去孩子的小山纯平先生的一封信

国产光刻机进展太慢？重点不是这个

生成图片，分享到微信朋友圈

小心！！！权威杂志的GEO数据出错了

您可能也对以下帖子感兴趣