比较不同的对单细胞转录组数据聚类的方法

purplesoul
紫色灵魂 10月12日 字数 919

https://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247485770&idx=1&sn=5414b225439306bb2d0f8bc9fb5b392c&chksm=9b4849f1ac3fc0e7ff3e9e8f28c70d512aab863d3d79124b667f30c7754f1518ad11712b3366&scene=21#wechat_redirect

比较不同的对单细胞转录组数据聚类的方法

原创: jimmy  生信技能树  2018-01-19

背景介绍

聚类之前必须要对表达矩阵进行normalization,而且要去除一些批次效应等外部因素。通过对表达矩阵的聚类,可以把细胞群体分成不同的状态,解释为什么会有不同的群体。不过从计算的角度来说,聚类还是蛮复杂的,各个细胞并没有预先标记好,而且也没办法事先知道可以聚多少类。尤其是在单细胞转录组数据里面有很高的噪音,基因非常多,意味着的维度很高。

对这样的高维数据,需要首先进行降维,可以选择PCA或者t-SNE方法。聚类的话,一般都是无监督聚类方法,比如:hierarchical clustering, k-means clustering and graph-based clustering。算法略微有一点复杂,略过吧。

这里主要比较6个常见的单细胞转录组数据的聚类包:

SINCERA

pcaReduce

SC3

tSNE + k-means

SEURAT

SNN-Cliq