• 1
  • 2
  • 3
  • 4
  • 5
  • 6

SVD、cosine、msd、pearson、Jaccard similarity学习笔记

一、SVD

SVD(Singular Value Decomposition),中文名奇异值分解,是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。

  1. 优点:简化数据,去除噪声点,提高算法的结果;
  2. 缺点:数据的转换可能难以理解;
  3. 适用于数据类型:数值型。

 

通过SVD对数据的处理,我们可以使用小得多的数据集来表示原始数据集,这样做实际上是去除了噪声和冗余信息,以此达到了优化数据、提高结果的目的。

隐形语义索引:最早的SVD应用之一就是信息检索,我们称利用SVD的方法为隐性语义检索(LSI)或隐形语义分析(LSA)

推荐系统:SVD的另一个应用就是推荐系统,较为先进的推荐系统先利用SVD从数据中构建一个主题空间,然后再在该空间下计算相似度,以此提高推荐的效果。

SVD与PCA不同,PCA是对数据的协方差矩阵进行矩阵的分解,而SVD是直接在原始矩阵上进行的矩阵分解。并且能对非方阵矩阵分解,得到左奇异矩阵U、sigma矩阵Σ、右奇异矩阵VT。

二、cosine

夹角余弦(Cosine)。

几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中借用这一概念来衡量样本向量之间的差异。
(1)在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式:

(2) 两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夹角余弦。类似的,对于两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n),可以使用类似于夹角余弦的概念来衡量它们间的相似程度。

三、mse

MSE全称Mean Squared Error(均方误差),也可以称为Mean Squared Deviation (MSD)。

四、pearson

pearson相似度与欧式距离相似度的最大区别在于它比欧式距离更重视数据集的整体性;因为pearson相似度计算的是相对距离,欧式距离计算的是绝对距离。

如图,Mick Lasalle为<<Superman>>评了3分,而GeneSeyour则评了5分,所以该影片被定位中图中的(3,5)处。在图中还可以看到一条直线。其绘制原则是尽可能地靠近图上的所有坐标点,被称为最佳拟合线。如果两位评论者对所有影片的评分情况都相同,那么这条直线将成为对角线,并且会与图上所有的坐标点都相交,从而得到一个结果为1的理想相关度评价。

五、Jaccard similarity

jaccard index又称为jaccard similarity coefficient用于比较有限样本集之间的相似性和差异性

定义:给定两个集合A,B jaccard 系数定义为A与B交集的大小与并集大小的比值,,jaccard值越大说明相似度越高

当A和B都为空时,jaccard(A,B)=1;

Jaccard相似度适用于什么场景呢?假设某个业务场景的文本包含了很多重复性的词汇,而这些重复是否与我们想做的任务关系不大,那么在分析文本相似度时,使用Jaccard计算相似度即可,因为对于Jaccard相似度来说,重复不会产生影响;假设这种重复对我们想做的任务影响很大,那么就要使用cosine相似度。

 

参考文献

https://blog.csdn.net/qq_28887735/article/details/52180736

https://blog.csdn.net/zz_dd_yy/article/details/51924661

https://zhuanlan.zhihu.com/p/60723017

点赞

发表评论

电子邮件地址不会被公开。必填项已用 * 标注