自从大约年前罗伯特·胡克(RobertHooke)发现细胞以来,识别多细胞生物中的细胞类型并了解它们之间的关系一直是生物学研究的一个主要目标。历史上,用来定义、发现细胞类型的方法有:通过显微镜观察来定义、根据细胞在生物体内的位置定义、根据细胞在体内或体外的功能定义、根据细胞发育和进化史来定义,以及根据表达在细胞表面少量分子标记物来定义。
单细胞RNA转录组测序(scRNA-seq)已经产生了丰富的测序数据,是一个用于发现和推定新细胞类型并完善现有细胞分类的高维度信息来源。尽管已有许多可用的计算分析工具,但根据scRNA-seq数据对细胞类型(或细胞状态)的注释在很大程度上仍然取决于人工识别细胞聚类中的标记基因。而人工对于单细胞数据的注释既费力又费时,已经成为以人类细胞图谱计划(TheHumanCellAtlas)为代表的高通量单细胞测序项目的一个主要瓶颈。
能否让计算机来帮助定义细胞类型并且注释数据?如果一个机器学习模型可以学习细胞类型在单细胞测序数据中的生物学特征(例如,标记基因),机器学习是不是能够比人工分析在定义大规模数据集的细胞类型方面做得更好?如果是这样,机器学习模型应该要学到在转录组层面区分不同细胞类型的本质特征。当相同类型的细胞被聚类算法分成了多个簇(cluster),机器学习因为学习不到区分这些细胞簇的特征,而在区分这些簇的时候发生“混淆”,机器学习的准确率就会比较低。那么,就可以认为这些计算机也无法区分的细胞簇应该属于“相同细胞类型”。
如何利用机器学习在很少的人工干预的情况下将每种细胞类型聚类到一起呢?可以从一个过度聚类的状态(任意一个细胞簇都只属于一个细胞类型,但两个细胞簇可能属于同一个细胞类型)开始,利用机器学习的”混淆”来合并属于相同细胞类型的细胞簇。
年5月18日,英国威康桑格研究所(Well