Skip to content

距离函数

主成分:找方差最大的平面作为分布

X=[x1,x2,,xn],Y=[y1,y2,,yn]\displaystyle{ X = \left[ x _{ 1 } , x _{ 2 } , \ldots , x _{ n } \right] ^{ \top } , Y = \left[ y _{ 1 } , y _{ 2 } , \ldots , y _{ n } \right] ^{ \top } }

(XY)(XY)=[x1y1,xnyn][x1y1,xnyn]=i=1n(xiyi)2\displaystyle{ \begin{aligned}\left( X - Y \right) ^{ \top } \left( X - Y \right) & = \left[ x _{ 1 } - y _{ 1 } , \ldots x _{ n } - y _{ n } \right] \left[ x _{ 1 } - y _{ 1 } , \ldots x _{ n } - y _{ n } \right] ^{ \top } \\ & = \sum _{ i = 1 } ^{ n } \left( x _{ i } - y _{ i } \right) ^{ 2 }\end{aligned} } Σ=[σ(x1,x1)σ(x1,xd)σ(xd,x1)σ(xd,xd)]Rd×d\displaystyle{ \Sigma = \left[ \begin{array}{ccc} \sigma \left( x _{ 1 } , x _{ 1 } \right) & \cdots & \sigma \left( x _{ 1 } , x _{ d } \right) \\ \vdots & \ddots & \vdots \\ \sigma \left( x _{ d } , x _{ 1 } \right) & \cdots & \sigma \left( x _{ d } , x _{ d } \right) \end{array} \right] \in \mathbb{R} ^{ d \times d } }

如果协方差矩阵是单位阵,则只有 σ(xi,xi)\displaystyle{ \sigma \left( x _{ i } , x _{ i } \right) } 为 1,其他为 0

余弦相似度

cosθ=ABAB\displaystyle{ \begin{aligned}\cos \theta & = \frac{ A \cdot B }{ \left\Vert A \right\Vert \left\Vert B \right\Vert }\end{aligned} }

归一化后的向量,余弦相似度和欧氏距离的关系

看二维情况,单位圆上有两个点 A(x1,y1),B(x2,y2)\displaystyle{ A \left( x _{ 1 } , y _{ 1 } \right) , B \left( x _{ 2 } , y _{ 2 } \right) }

d=(x1x2)2+(y1y2)2=x12+y12+x22+y222x1x22y1y2=22cosθcosθ=x1x2+y1y2\displaystyle{ \begin{aligned}d & = \sqrt{ \left( x _{ 1 } - x _{ 2 } \right) ^{ 2 } + \left( y _{ 1 } - y _{ 2 } \right) ^{ 2 } } \\ & = \sqrt{ x _{ 1 } ^{ 2 } + y _{ 1 } ^{ 2 } + x _{ 2 } ^{ 2 } + y _{ 2 } ^{ 2 } - 2 x _{ 1 } x _{ 2 } - 2 y _{ 1 } y _{ 2 } } \\ & = \sqrt{ 2 - 2 \cos \theta } \\ \cos \theta & = x _{ 1 } x _{ 2 } + y _{ 1 } y _{ 2 }\end{aligned} }