inferCNV安装与了解

如题所述

第1个回答  2022-06-14

inferCNV:inferCNV用与探索肿瘤单细胞RNA-seq数据,分析其中的体细胞大规模染色体拷贝数变化(copy number alterations, CNA), 例如整条染色体或大片段染色体的增加或丢失(gain or deletions)。工作原理是,以一组"正常"细胞作为参考,分析肿瘤基因组上各个位置的基因表达量强度变化. 通过热图的形式展示每条染色体上的基因相对表达量,相对于正常细胞,肿瘤基因组总会过表达或者低表达。

inferCNV常用用途是区分上皮细胞是良性还是恶行,以及肿瘤细胞的恶性程度。

流程:

参考( https://github.com/broadinstitute/inferCNV/wiki )
首先安装 JAGS
Linux环境下安装: conda install -c conda-forge jags
(注意:inferCNV十分吃资源,建议在服务器上运行,因此只列出Linux环境)

然后安装相应R包:

需要准备3个输入数据:
1.单细胞RNA-seq表达量的原始矩阵
2.注释文件,记录肿瘤和正常细胞
3.基因或染色体位置文件

第一个是 Genes x Cells的表达矩阵(matrix) ,行名是基因,列名是细胞编号。

第三个是基因位置信息文件,命名为 geneOrderingFile.txt 。一共四列,第一列对应第一个文件的行名,其余三列则是基因的位置,没有标题。注:基因名不能有重复

由于笔者数据集太大,无法保存count矩阵,因此选择先抽取十分之一细胞进行cnv检测

这一步的一个关键参数是 , 用于设置参考组。假如你并不知道哪个组是正常,哪个组不正常,那么设置为ref_group_name=NULL, 那么inferCNV会以所有细胞的平均表达作为参照,这适用于有足够细胞存在差异的情况。

第二步的关键参数是 ,用于筛选哪些基因会用于分析,即所有细胞平均表达量的最小阈值。官方教程建议10X设置为1,Smart-seq2设置为1。 则用于声明是否根据细胞注释文件的分组对肿瘤细胞进行分群。 参数选择为T则会对图片进行去噪,以便更直观地判断CNV。为了给读者进行一个区分比较,笔者放denoise为T和F两种情况图片以供参考(以下两张图片非上步骤实际运行结果)

最终会输出很多文件在 目录下,实际有用的是下面几个:

上述步骤只是为了确定哪些亚群中可能存在恶性细胞,不建议直接以上述抽样结果为最终结论。还需对抽样时显示为恶性细胞亚群进行细分后再进行infercnv

行:两个热图的行均对应于细胞
列:两个热图的列均对应于基因,按照染色体位置排序。
提取信息:inferCNV会输出一个 map_metadata_from_infercnv .txt 文件用于记录每个细胞的元信息,所有信息都可以从该文件中进行提取。或者使用 infercnv::add_to_seurat 将信息直接增加到原来的seurat对象中。

参考:

相似回答
大家正在搜