相関係数

\(n\)個のデータ\(x_1,x_2,\cdots,x_n\),\(y_1,y_2,\cdots,y_n\)(それぞれ平均を\(\mu,\lambda\)とする)の相関係数\(\rho(x,y)\)がなぜ$$-1\leq\rho(x,y)\leq1$$なのか,質問を受けたので,このブログでの数式表示の練習も兼ねて書いてみようと思います.

(証明)
天下り的ではあるが,まず,2つのベクトル$$\vec{u}=(x_1-\mu,x_2-\mu,\cdots,x_n-\mu),~\vec{v}=(y_1-\lambda,y_2-\lambda,\cdots,y_n-\lambda)$$を用意し,これらの内積を考える.すると,
$$
\begin{align}
\vec{u}\cdot\vec{v}&=(x_1-\mu)(y_1-\lambda)\cdots(x_n-\mu)(y_n-\lambda)\\
&=\sum_{k=0}^{n}(x_k-\mu)(y_k-\lambda)\\
\end{align}
$$
となる.他方,\(\vec{u}\cdot\vec{v}\)は,内積の公式(高校教科書では「定義」)より

$$
\begin{align}
\vec{u}\cdot\vec{v}&=\sqrt{(x_1-\mu)^2+(x_2-\mu)^2+\cdots+(x_n-\mu)^2}\sqrt{(y_1-\lambda)^2+(y_2-\lambda)^2+\cdots+(y_n-\lambda)^2}\cos\theta\\
&=\sqrt{\sum_{k=0}^{n}(x_k-\mu)^2}\sqrt{\sum_{k=0}^{n}(y_k-\lambda)^2}\cos\theta\\
\end{align}
$$

ゆえに,
$$\cos\theta=\frac{\vec{u}\cdot\vec{v}}{\sqrt{\sum_{k=0}^{n}(x_k-\mu)^2}\sqrt{\sum_{k=0}^{n}(y_k-\lambda)^2}}$$
を得る.\(-1\leq\cos\theta\leq1\)であるから,上式は
$$-1\leq\frac{\vec{u}\cdot\vec{v}}{\sqrt{\sum_{k=0}^{n}(x_k-\mu)^2}\sqrt{\sum_{k=0}^{n}(y_k-\lambda)^2}}\leq1$$
である.前半に得た式をこの不等式に代入すれば,
$$-1\leq\frac{\sum_{k=0}^{n}(x_k-\mu)(y_k-\lambda)}{\sqrt{\sum_{k=0}^{n}(x_k-\mu)^2}\sqrt{\sum_{k=0}^{n}(y_k-\lambda)^2}}\leq1$$
分母分子を\(\frac{1}{n}\)で割って,
$$-1\leq\frac{\frac{1}{n}\sum_{k=0}^{n}(x_k-\mu)(y_k-\lambda)}{\frac{1}{n}\sqrt{\sum_{k=0}^{n}(x_k-\mu)^2}\sqrt{\sum_{k=0}^{n}(y_k-\lambda)^2}}\leq1\\
-1\leq\frac{\frac{1}{n}\sum_{k=0}^{n}(x_k-\mu)(y_k-\lambda)}{\sqrt{\frac{1}{n}\sum_{k=0}^{n}(x_k-\mu)^2}\sqrt{\frac{1}{n}\sum_{k=0}^{n}(y_k-\lambda)^2}}\leq1$$
すなわち
$$-1\leq\frac{Cov(x,y)}{\sigma(x)\sigma(y)}\leq1$$
よって,$$-1\leq\rho(x,y)\leq1$$を得る.(証明終)

結構疲れます^^;
ベクトルを使って統計の性質を証明するなんて,面白いです.