Johnson-Lindenstrauss 引理
Johnson-Lindenstrauss 引理
对于N个d维向量构成的集合A={x1,x2,⋯,xN∈Rd},∀ε∈(0,1),∃f:Rd→Rk,满足
(1−ε)∥xi−xj∥2≤∥f(xi)−f(xj)∥2≤(1+ε)∥xi−xj∥2
其中
k≥3ε2−2ε324logN≃O(ε2logN)
Proof:
随机矩阵
证明主要基于Cramér-Chernoff方法
取 u∈Rd, Rij∼i.i.dN(0,1), 随机投影向量 v=k1R⋅u
根据随机矩阵期望保距
E[∥v∥2]=∥u∥2
取 X=∥u∥kv=∥u∥1R⋅u, x=∑i=1kxi2=∥u∥2k∥v∥2∼χ2(k)
E[eλxi2]=∫−∞+∞eλxi22π1e−2xi2dxi=1−2λ1
一方面
P[∥v∥2≥(1+ε)∥u∥2]=P[x≥(1+ε)k]=P[eλx≥eλ(1+ε)k]≤λ≥0infeλ(1+ε)kE[eλx]=λ≥0infeλ(1+ε)k∏i=1kE[eλxi2]=λ≥0inf(1−2λeλ(1+ε)1)k=[(1+ε)e−ε]2k=exp(2k(−ε+log(1+ε)))≤exp(2k(−2ε2+3ε3))
当 2k(−2ε2+3ε3)<−2logN, 即 k>3ε2−2ε324logN 时,满足
P[∥v∥2≥(1+ε)∥u∥2]≤N−2
因此
P[∥v2∥≤(1+ε)∥u∥2]≥1−N−2
另一方面
P[∥v∥2≤(1−ε)∥u∥2]=P[x≤(1−ε)k]=P[e−λx≥e−λ(1−ε)k]≤λ≥0infe−λ(1−ε)kE[e−λx]=λ≥0infe−λ(1−ε)k∏i=1kE[e−λxi2]=λ≥0inf(1+2λe−λ(1−ε)1)k=[(1−ε)eε]2k=exp(2k(ε+log(1−ε)))≤exp(−4kε2)
当−4kε2≤−2logN时,即k≥ε28logN
P[∥v∥2≤(1−ε)∥u∥2]≤N−2
即
P[∥v∥2≥(1−ε)∥u∥2]≥1−N−2
当
k∈{k≥3ε2−2ε324logN}∩{k≥ε28logN}={k≥3ε2−2ε324logN}
满足
P[∥v∥2∈[(1−ε)∥u∥2,(1+ε)∥u∥2]]≤N22
进一步
∀xi,xj∈A,P[∥f(xi)−f(xj)∥2∈[(1−ε)∥xi−xj∥2,(1+ε)∥xi−xj∥2]]≤N22
由Boole不等式,遍历集合A的二元向量组
P(∪Ei)≤∑P(Ei)≤2N(N−1)N22=1−N1
由此可以得出,当 k≥3ε2−2ε324logN时,将整个 A 几乎保距映入低维空间的映射f存在的概率不为0
Fast Johnson-Linderstrauss Transform