用ChatGPT做生信?只不过是帮助懒人查官方文档

最近我们的各种生物信息学交流群都是ChatGPT的话题,好不热闹。有分享简单试用体验的,也有贩卖焦虑分析行业甚至国家大事的,流量至上嘛,很容易理解,我也相信本文阅读量应该是还会不错。

我看了看朋友们秀出来的跟ChatGPT的生物信息学相关对话,起初还以为是很高大上。比如:

构建一个R语言里面的S4对象(高级数据结构)

首先ChatGPT能理解我们的提问确实是很厉害,而且它首先回答了关于S4对象(高级数据结构)的具体解释,然后给出来了示例;

ChatGPT能理解我们的提问确实是很厉害

但是如果你懂查看这个对象的帮助文档,就是help函数,就可以很清楚的看到关于这个对象的全部介绍,而且也有示例代码 :

# create an instance of ExpressionSet

ExpressionSet()

ExpressionSet(assayData=matrix(runif(1000), nrow=100, ncol=10

))

# update an existing ExpressionSet

data(sample.ExpressionSet)

updateObject(sample.ExpressionSet)

# information about assay and sample datafeatureNames(sample.ExpressionSet)[1:10

]

sampleNames(sample.ExpressionSet)[1:5

]

experimentData(sample.ExpressionSet)

# subset: first 10 genes, samples 2, 4, and 10expressionSet <- sample.ExpressionSet[1:10,c(2,4,10

)]

# named features and their expression levelssubset <- expressionSet[c(“AFFX-BioC-3_at”,“AFFX-BioDn-5_at”

),]

exprs(subset)

# samples with above-average score in phenoData

highScores <- expressionSet$score > mean(expressionSet$score)

expressionSet[,highScores]

# (automatically) coerce to data.frame

lm(score~AFFX.BioDn.5_at + AFFX.BioC.3_at, data=subset)

当然了,ChatGPT如何把枯燥无味的官方文档以对话的形式给读者确实是技术活,目前我还不确定它是不是从其它地方复制粘贴过来的。

差异分析

基于表达量矩阵的差异分析过程可以看我8年前的芯片教程,推文在:

解读GEO数据存放规律及下载,一文就够解读SRA数据库规律一文就够从GEO数据库下载得到表达矩阵 一文就够GSEA分析一文就够(单机版+R语言版)根据分组信息做差异分析- 这个一文不够的差异分析得到的结果注释一文就够

针对不同表达量矩阵格式,里面有大量的包可以选择,如果是表达量芯片我们默认的是limma,而如果是转录组测序的counts矩阵格式,我们会使用DESeq2,edgeR等等,那么让我们看看ChatGPT的回答:

关于差异fix,ChatGPT的回答

实际上,就是把这个包的文档给你了,很简单的看文档:

library(DESeq2)

vignette(DESeq2

)

当然了,包的官方文档确实是又臭又长,所以ChatGPT做了一个精简,让初学者可以一目了然使用起来,但是忽略了大量的背后的参数和原理,以及其它案例,大概率上还是需要去读文档。。。

大概率上还是需要去读文档

单细胞基础流程

就是拿到了单细胞转录组表达量矩阵文件之后,走单细胞转录组流程即可, 可以做harmony或者CCA的整合,然后降维聚类分群,如果你对单细胞数据分析还没有基础认知,可以看基础10讲:

01. 上游分析流程02.课题多少个样品,测序数据量如何03. 过滤不合格细胞和基因(数据质控很重要)04. 过滤线粒体核糖体基因05. 去除细胞效应和基因效应06.单细胞转录组数据的降维聚类分群07.单细胞转录组数据处理之细胞亚群注释08.把拿到的亚群进行更细致的分群09.单细胞转录组数据处理之细胞亚群比例比较

事实上无论是Seurat自己的官方文档,还是我们公众号的介绍,相关基础代码都是足够丰富了,而ChatGPT无非就是代替你查文档罢了。

ChatGPT无非就是代替你查文档

其实还不如直接搜索指定公众号(生信技能树)推文

我一直强调,【先搜索后提问】,我把大概1.3万篇笔记都分享在公众号里面了!告诉你如何去搜索我们生信技能树公众号教程,自行点学会在技能树公众号历史教程里面根据关键词查询,基本上初学者问题都有解决方案!你学会搜索,然后尝试着先搜索你的问题。并且强调大家【搜索完毕告诉我你的关键词,以及微信发给我你搜索的最佳结果推文】

如果是在你的手机里面的微信,下面的三个步骤即可:

要搜索自己关注的某个公众号(生信技能树)的文章,需要先点击进入该公众号,然后点击右上角的三个点按钮。(设置为星标)其实右上角的三个点按钮按钮旁边就是一个迷你版本的放大镜,就是可以点击的搜索框,输入需要搜索的关键词后点击输入法上的【搜索】按钮,就会出现带有该关键词的结果,这些文章都是这个公众号曾经发布的内容。

如果是使用电脑,那么打开浏览器到搜狗微信搜索:https://weixin.sogou.com/

然后输入不同关键词即可:

差异分析 “生信技能树”甲基化 “生信技能树”单细胞 “生信技能树”文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

生物信息学马拉松授课(买一得五) ,你的生物信息学入门课144线程640Gb内存服务器共享一年仍然是仅需800千呼万唤始出来的独享生物信息学云服务器

Leave a Reply