AUCell | 识别单细胞对“基因集”的响应
AUCell可以识别sc-RNA数据中具有活跃基因集或基因模块的细胞,即可以将某个通路的富集情况展现在聚类的细胞上,从而可以鉴定具有特定基因特征的细胞群。 AUCell使用“Area Under the Curve”(AUC)来计算输入基因集的关键子集是否在每个细胞内富集。AUC分数在所有细胞中的分布允许探索基因的相对表达。由于计分方法是基于排名的,因此AUCell不受基因表达单位和标准化程序的影响。此外,由于对细胞进行了单独评估,因此可以轻松地将其应用于更大的数据集,并可以根据需要对表达式矩阵进行分组。
AUCell的工作流基于三个步骤:
1.Build the rankings 2.Calculate the Area Under the Curve (AUC) 3.Set the assignment thresholds
运行AUCell
准备输入的数据以及富集的基因集。
1.输入的数据为单细胞的表达矩阵 2.基因集可以从BROAD下载GSEA基因集: MSigDB 如下载h.all.v7.1.symbols.gmt文件
运行AUCell
library(AUCell)
#Build gene expression rankings for each cell
CellRank<- AUCell_buildRankings(as.matrix(seurat.object@assays$RNA@data))
#load gene set, e.g. GSEA lists from BROAD
h <- read.gmt("data/h.all.v7.1.symbols.gmt") ##
head(h)
因为数据集的基因是人的,而我的表达矩阵的基因是小鼠的,所以通过转化大小写来讲人的基因转化成小鼠的。
library(Hmisc)
h$gene<-capitalize(tolower(h$gene))
head(h)
#将基因集改成通路对应相应基因的list格式
geneSets<-lapply(unique(h$ont),function(x){h$gene[h$ont==x]})
names(geneSets) <- unique(h$ont)
#Calculates the 'AUC' for each gene-set in each cell.
cells_AUC <- AUCell_calcAUC(geneSets, CellRank,nCores = 5, aucMaxRank=nrow(CellRank)*0.05)
#要测试的基因集
geneSet <- "HALLMARK_TNFA_SIGNALING_VIA_NFKB"
aucs <- as.numeric(getAUC(cells_AUC)[geneSet, ])
#将AUC的结果添加到seurat.object的meta.data中,并画图
seurat.object$AUC<-aucs
df<- data.frame(seurat.object@meta.data, seurat.object@reductions$umap@cell.embeddings)
library(dplyr)
class_avg <- df %>%
group_by(cell_type) %>%
summarise(
UMAP_1 = median(UMAP_1),
UMAP_2 = median(UMAP_2)
ggplot(df, aes(UMAP_1, UMAP_2)) +
geom_point(aes(colour = AUC)) + viridis::scale_color_viridis(option="A") +
ggrepel::geom_label_repel(aes(label = cell_type),
data = class_avg,