Co-differential Gene Selection and Clustering Based on Graph Multi-view NMF: History Edit

癌症基因组数据包含来自不同来源的视图,提供有关遗传活动的补充信息。这为癌症研究提供了新的途径。特征选择和多视图聚类是生物信息学中的热门话题,它们可以充分利用补充信息来提高效果。在本文中,我们设计了一种新的集成模型,称为多视图非负矩阵分解(MvNMF),以执行常见差异基因(共差异基因)和多视图聚类的选择。为了对多视图基因组数据中的几何信息进行编码,我们通过在目标函数中应用图正则化约束来进一步提出图正则化MvNMF(GMvNMF)。GMvNMF不仅可以获得潜在的共享特征结构和共享集群组结构,而且还捕获多视图数据的流形结构。我们测试了所提出的GMvNMF方法对四种多视图基因组数据的有效性。实验结果表明,GMvNMF方法比其他有代表性的方法具有更好的性能。

  • 非负矩阵分解
  • 综合模型
  • 图正则化
  • 常见的差异基因选择
  • 多视图聚类

我们提出了一种名为MvNMF的新方法,它可以同时有效地进行共差分基因的选择和多视图聚类。具体地,我们通过将系数矩阵分解为子空间变换矩阵和共享系数矩阵的乘积来改进jNMF。共享基础矩阵包含不同视图之间的潜在组结构。共享系数矩阵不仅具有低秩特征,而且具有用于具有不同源的视图的共享特征模式。为了增强MvNMF对包含流形结构的数据的鲁棒性,我们进一步提出了GMvNMF方法。也就是说,可以通过将数据的固有几何信息添加到MvNMF方法来获得。

本文的主要贡献如下:

  1. 为了有效地聚类和选择多视图数据的特征,提出了一种新的集成模型MvNMF。在MvNMF框架中,共享基础矩阵可以重建潜在的群集组结构,这有助于提高群集性能。可以执行共差分基因的选择,因为共享系数矩阵可以从不同视图恢复共同特征模式。
  2. 将图正则化应用于目标函数以形成GMvNMF方法,其确保GMvNMF可以捕获多视图数据的流形结构。这对于集成模型的性能改进是有意义的。
  3. 针对癌症基因组数据设计了科学合理的实验,说明了GMvNMF方法的有效性,取得了满意的效果。