相関係数の求め方のアイデアのよさ

1 相関の向きと強さを表す指標

相関関係の向きと強さを数量的に表す指標として相関係数があります。相関係数の定義は以下のとおりです。

相関係数の意味や計算の仕方は,別稿「相関の強さを表す相関係数の定義と求め方」で述べている。

(1)相関係数の定義

n個の変量の組を(xi,yi)(i=1,2,…,n)とするとき,
を変量XとYの間の相関係数といいます。大阪書籍「新数学事典」1979,P637R

(2)その他の定義

上記の式の他に,次のような式表現で定義している文献があります。①〜④の式は,式変形をすれば同じです。soukankeisuu-siki①と②の式は,「XとYの共分散」を,「Xの標準偏差」と「Yの標準偏差」の積で除した意味を表した式です。
したがって,相関係数は,共分散と標準偏差から求められます。
③と④の式は,式を整理したものです。

2 相関係数の求め方のアイデア

(1)相関の違いを比べたい

10人の生徒に対し,数学科と理科,国語科と社会科のテストを実施して,次のようなデータを得たとします。
Calculation of correlation coefficient-1「数学科と理科」,「国語科と社会科」の相関に違いがあるか調べてみましょう。
まず,「数学科と理科」及び「国語科と社会科」の表をもとに相関図を作成します。
Calculation of correlation coefficient-2【相関図から分かること】
・ 相関図(1)では,右上がりの傾向があるので,数学科と理科の得点には,正の相関がみられる
・ 相関図(2)では,特徴的な散らばりの傾向がみられないので,国語科と社会科の得点は,無相関とみられる

相関図(1)では,散らばりの範囲は,左上に偏っています。広がり具合は,右上がりの方向に偏りがみられます。
また,相関図(2)では,散らばりの範囲は,右上に偏っています。広がり具合は,狭い範囲ではありますが,全体に広がりがみられます。
このように,相関図(1)と(2)は,散らばりの範囲が異なっています。そのため,2つの相関図の散らばり具合は比較しにくくなっています。

相関図(1)と(2)の違いを,もっと明確に比べられないでしょうか。

(2)点の集まりの全体を位置を揃える

2つの相関図は,点の集まりが異なる位置に偏っているため,特徴の違いが分かりづらくなっています。
そこで,それぞれの点の位置関係を変えずに,点の集まり全体を相関図の中心に移動します。
図の中心に移動できれば,点の散らばり具合の比較が容易になります。

では,移動先の中心は,どこにするとよいのでしょう。
【アイデア1】比較しやすい適当な位置に,点の集まり全体を位置関係を変えずに平行移動する
【アイデア2】平均値が原点となるように点の集まり全体を平行移動する(平均値の組を原点とする座標系に点の集まり全体を平行移動)

そこで,それぞれの値について「x-平均値」を求めます。
平均値は,それぞれ数学科 32.8 点,理科 63.6 点,国語科 62.1 点,社会科 68.6 点です。
数学科と理科の相関図
まずX軸数学科の全数値について x-32.8 とします。これにより,X軸の原点が数学科の平均値と一致します。
次にY軸理科の全数値について y-63.6 とします。これにより,Y軸の原点が理科の平均値と一致します。
国語科と社会科の相関図
まずX軸国語科の全数値について x-62.1 とします。これにより,X軸の原点が国語科の平均値と一致します。
次にY軸社会科の全数値について y-68.6 とします。これにより,Y軸の原点が社会科の平均値と一致します。
これらの平行移動により,平均値を原点とする座標系で構成できます。そして,相関図の中心を原点とすると,相関図上の点の偏りが解消します。
Calculation of correlation coefficient-4

(3)座標を偏差で表す

① 偏差を求める

「x-平均値」は「偏差」といいます。個々の値と平均値との差のことです。
一般には,偏差(deviation)とは,母集団に属する要素1つ1つの数値と,母集団の基準値(平均や中央値など)との差をいいます。
偏差は,一つの値が平均値から正負のどちらの向きにどの程度離れているかを表します。
偏差は,次の式で求めます。
hensa-def実際の例で偏差を求めると次のようになります。
x-hensaこの相関図では,xの平均値は 49.0 (点) です。xの値 64 (点) の偏差は,

64 - 49 = 15

+15 です。平均値より正の向きに 15 (点) 離れています。
x の値 40 (点) の偏差は,

40 - 49 = -9

となり,-9 です。平均値より負の向きに 9 (点) 離れています。
xの平均値より大きいxの値は正の数(赤線の右側),小さい値は負の数(赤線の左側)となります。
y-hensa一方,
yの平均値は 51.0 (点) です。yの値 65 (点) の偏差は,

65 – 51 = 14

+14 です。平均値より正の向きに 14 (点) 離れています。
yの値 36 (点) の偏差は,

36 – 51 = -15

-15 です。平均値より負の向きに 15(点) 離れています。
yの平均値より大きいyの値は正の数(赤線の上側),小さい値は負の数(赤線の下側)です。
このように,偏差は,平均値を 0 として,正負の符号をもった数です。すべてのxの偏差の相加平均は,0 になります。
以上のように生のデータの偏差を求めて相関図を作成すると,散らばり具合を比較しやすくなります。

② 平均値を原点とする相関図

ア 増えれば増える・増えれば減る関係を正負の符号で表す

平均値の組を原点とすると,個々の偏差の組(x,y)は,x軸y軸を含め第一象限から第四象限のいずれかに位置します。
偏差の組(x,y)は,座標平面の第一象限は(+,+),第二象限は(-,+),第三象限は(-,-),第四象限は(+,-)と
符号付きでデータを位置付けられます。
第一象限:x軸とy軸で構成される座標平面において,xもyも共に正の値を取る領域
また,増えれば増える関係を+(プラス),増えれば減る関係-(マイナス)というように,正負の符号で表すと判別しやすくなります。
そこで,偏差の組(x,y)のそれぞれについて,x×y(偏差積)とします。
すると第一象限に位置する偏差の組の符号は(+)×(+)=(+),第二象限は(-)×(+)=(-),第三象限は(-)×(-)=(+),第四象限は(+)×(-)=(-)となります。
偏差の組(x,y)の偏差積x×yの和(偏差積和)を求めると,増えれば増える関係が強いと「+(プラス)」,増えれば減る関係が強いと「-(マイナス)」の数値が大きくなります。また,偏差積和を個数で割る,すなわち偏差積の平均を求めると個数に依存しない偏差積を表せます。
このように偏差積を求めると,一次関数の傾きと同様に増えれば増える関係を「正」,増えれば減る関係を「負」と説明できるようになります。

【アイデア3】偏差積和や偏差積の平均を求めると,増えれば増える・増えれば減る関係を正負の符号で表せる

イ 平均値を原点とする座標系の相関図から分かること

数学科と理科の得点は,強い正の相関がみられる。相関図では,点が第1・3象限に位置し右上がりの傾向がある。
国語科と社会科の得点は,無相関とみられる。相関図では,点が各象限に散らばっている。

Calculation of correlation coefficient-4

なお,平均値の組を原点とすると相関図において,「相関がある」といえるのは,
第1・3象限(++・--)または第2・4象限(-+・+-)に,点がより多く広がっているときのみです。
X・Y軸と平行に点が広がっているときは,一方の値がいずれの値をとっても他方の値は一定であることから,2つの量には相関がないといえます。

(4)平均値からの離れ具合を表す標準偏差

① 2教科の得点について,平均値からの散らばり具合を比べたい

国語科と数学科の値ついて,平均値(赤線)からの散らばり具合,離れ具合を比べてみましょう。

x-hensa y-hensa
国語科得点:64,54,45,40,42
国語科偏差:+15,+5,-4,-9,-7
数学科得点:65,64,55,36,35
数学科偏差:+14,+13,+4,-15,-16

国語科と数学科の偏差を比べると,数学科の方が国語科より,平均値からの散らばり具合が大きいように見えます。
すなわち国語科(+15,+5,-4,-9,-7)に対し,数学科(+14,+13,+4,-15,-16)となり,数学科の偏差の方が大きい値が多いようです。
この離れ具合を国語科と数学科のそれぞれを代表する値として表すことはできないでしょうか。

② 各教科の得点の散らばり具合を表す数値

国語科や数学科の得点について,平均値からの散らばり具合を実際に比べてみましょう。
国語科(+15,+5,-4,-9,-7)です。
平均からの離れ具合は,正負の向きを考慮しなくて良いように平方します。負の符号を消すためです。
国語科(225,25,16,81,49)となります。
これらの平均値は,(225+25+16+81+49)÷5=79.2 です。これは平方した数値なので,元の数値の次元に戻します。平方根を求め,約 8.9 とします。
これに対し,数学科(+14,+13,+4,-15,-16)です。
同様に平方して
数学科(196,169,16,225,256)となります。
これらの平均値は,(196+169+16+225+256)÷5=172.4 です。その平方根は,約 13.1 となります。
国語科の 8.9 や数学科の 13.1 は,それぞれの平均値からの離れ具合を代表する値です。国語科の方が数学科より散らばり具合が小さいといえます。
このように国語科や数学科の得点について,平均値からの散らばり具合を代表する値を標準偏差といいます。

【アイデア4】平均値からの距離の平均を平方と平方根を使って正の数として標準偏差を表す

③ 標準偏差とは

標準偏差(standard deviation)は,一般に次のように定義できます。
n 個のデータ x1x2, …, xn からなる母集団を考える。その母集団の平均(または母平均)μ は,次の通りに定義される:

このとき,母平均 μ を使って次式で得られる量 σ2 を分散(または母分散)と定義する。

この分散の非負の平方根 σ を,母集団の標準偏差と定義する。
出典: ウィキペディア「標準偏差」[ONLINE]https://ja.wikipedia.org/wiki/%E6%A8%99%E6%BA%96%E5%81%8F%E5%B7%AE(cf.2020.6.5)

標準偏差に対する偏差の割合

生徒5人について,国語科と数学科の得点とその偏差は以下のようでした。

生徒A 生徒B 生徒C 生徒D 生徒E 平均
国語科得点 64 54 45 40 42 49
国語科偏差 +15 +5 -4 -9 -7
数学科得点 65 64 55 36 35 51
数学科偏差 +14 +13 +4 -15 -16
偏差積 210 65 -16 135 112 110.6

生徒Aの国語科は64点,生徒Bの数学科も64点。同じ得点です。どちらの64点がより獲得が難しいと考えられるでしょうか。
得点は同じでも国語科と数学科では,得点の散らばり具合が異なります。
散らばり具合が 8.9 と小さい標準偏差の国語科に対し,数学科は 13.1 と大きくなっています。
この場合,散らばり具合が小さい国語科の中にあって64点を獲得することの方が難しいと考えられます。
そのことを数値で表すには,標準偏差に対する偏差の割合で表します。標準偏差を1に揃えたときの偏差の値です。(偏差÷標準偏差)で求めます。
そのことにより属性や値の大小による影響をなくせます。

生徒・教科 得点 偏差 標準偏差 偏差/標準偏差
生徒A国語 64 +15 8.9 1.69
生徒B数学 64 +13 13.1 0.99

生徒A国語科の偏差の割合: 1.69 ,生徒B数学科の偏差の割合: 0.99 ,1.69 > 0.99 となり,国語科が平均より,より離れていることになります。すなわち国語科で64点を獲得することの方が難しいといえます。

【アイデア5】(偏差÷標準偏差)で標準偏差を1に揃えたときの偏差の値(割合)を使って属性や値の大小による影響をなくす

3 相関係数を求める式の意味

これまで述べてきたことを参考に,相関係数を求める式の意味を考えてみましょう。
Pearson's correlation coefficient

  1. ①は,国語科と数学科のそれぞれの平均です。
  2. ②は,散らばり具合を表す標準偏差です。国語科と数学科のそれぞれで求めます。
  3. ③は,偏差です。個々の値が平均値からどれだけ離れているかを表します。国語科と数学科のそれぞれで偏差を求めます。
  4. ④は,偏差積です。国語科と数学科のそれぞれの偏差の積を求めます。これにより,増えれば増える関係であれば「正」などの傾向が分かりやすくなります。
  5. ⑤は,偏差積の和を平均します。すなわち[(国語科の偏差×数学科の偏差)の平均]であり,共分散(covariance)といいます。これにより,個数による影響を取り除きます。
  6. ⑥は,相関係数です。偏差積の和の平均を国語科と数学科のそれぞれの標準偏差で除します。これにより,国語科と数学科のそれぞれの標準偏差が1のときの国語科と数学科の散らばり具合を正負の符号を伴って数値で表すことができます。

このように相関係数を用いて散らばりの傾向を数値化できれば,コンパクトで正確,客観性のある説明ができます。

実際に,「数学科と理科」,「国語科と社会科」の相関の違いを調べてみましょう。

数学科と理科の相関係数は 0.78 で強い相関が見られます。一方,国語科と社会科の相関係数は -0.07 で無相関です。