一、movielens
MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。
这个数据集经常用来做推荐系统,机器学习算法的测试数据集。尤其在推荐系统领域,很多著名论文都是基于这个数据集的。(PS: 它是某次具有历史意义的推荐系统竞赛所用的数据集)。
二、NMF
非负矩阵分解 —— Non-negative Matrix Factorization (NMF)。NMF是指通过将非负的数据矩阵,分解成两个小的矩阵的乘积,从而减少运算量。
X ≈ B×W(这里还需要注意的是,B和W矩阵并不是唯一的)。
其中,X是数据集矩阵,是一个n×p的矩阵,每一列表示一个特征,共有p个特征;X是一个n×k的矩阵,理解为k个基;W是k×p的矩阵,每列均为数据集X投影到B上得到的向量。
总的来说,PCA处理的人脸没有区分具体哪个特征对应哪些部位,而是统一地把所有的特征体现在一张照片上;NMF是一种“可加”的思想,不同的特征对应不同的脸部细节,将这些细节叠加形成一张脸。
参考文献
https://www.jianshu.com/p/58b1087f12b3
https://www.jianshu.com/p/e90900a3d03a