癌症基因组数据包含来自不同来源的视图,提供有关遗传活动的补充信息。这为癌症研究提供了新的途径。特征选择和多视图聚类是生物信息学中的热门话题,它们可以充分利用补充信息来提高效果。在本文中,我们设计了一种新的集成模型,称为多视图非负矩阵分解(MvNMF),以执行常见差异基因(共差异基因)和多视图聚类的选择。为了对多视图基因组数据中的几何信息进行编码,我们通过在目标函数中应用图正则化约束来进一步提出图正则化MvNMF(GMvNMF)。GMvNMF不仅可以获得潜在的共享特征结构和共享集群组结构,而且还捕获多视图数据的流形结构。我们测试了所提出的GMvNMF方法对四种多视图基因组数据的有效性。实验结果表明,GMvNMF方法比其他有代表性的方法具有更好的性能。
我们提出了一种名为MvNMF的新方法,它可以同时有效地进行共差分基因的选择和多视图聚类。具体地,我们通过将系数矩阵分解为子空间变换矩阵和共享系数矩阵的乘积来改进jNMF。共享基础矩阵包含不同视图之间的潜在组结构。共享系数矩阵不仅具有低秩特征,而且具有用于具有不同源的视图的共享特征模式。为了增强MvNMF对包含流形结构的数据的鲁棒性,我们进一步提出了GMvNMF方法。也就是说,可以通过将数据的固有几何信息添加到MvNMF方法来获得。
本文的主要贡献如下: