2021 年度「データサイエンス基礎」 2021-06-01

クォーター末試験の週ということもあり,きょうは短めにしました。 課題の期限は 6 月 9 日正午とします。

授業アンケートにご協力ください。

§4.1 共分散と相関係数(続き)

前回の §3.4 の続きである。 前回作った 210525c.xlsx をコピーして 210601a.xlsx を作り, 以下をおこなえ。

共分散,相関係数や散布図は残したまま,A 列と B 列とを削除し, 新規に,A1 に「=norm.inv(rand(),0,1)」, B1 に「=a1」と打ち込み, それを 1000 行に増やしてみよ。 相関係数,散布図はどうなったか?

A1 はそのままとし,B1 には「=-a1」と打ち込んで同じことをしたらどうなるだろう?

ファイルはそのまま。次の節に進む。

§4.2 相関係数の実験

A 列は,第 1 行から第 1000 行までが標準正規分布に従う乱数で埋まっているであろう。 B1 に「=norm.inv(rand(),0,1)+a1」と打ち込み,それを B1000 まで増やし, 散布図,相関係数を見てみよ。 B 列も標準正規分布に従う乱数を含むが,「+a1」があるので, A 列との関連が生じ,相関係数は正になる。

では,A 列は上と同じとし,B1 に「=norm.inv(rand(),0,1)-a1」としたら, どうなるだろう?

§4.3 相関係数が 0 でも,明らかに何かがある分布

相関係数は一つの実数値なので,それで分布のすべてがわかるわけではない。 その例を一つ示す。

新規ファイル 210601b.xlsx を作って,以下をおこなえ。

A1, B1 にそれぞれ「=2*rand()-1」と打ち込む。 この二つのセルを範囲指定して,1000 行に増やす。 A 列と B 列との散布図を書くとどうなるか? 想像どおりになっただろうか?  この散布図は残しておく。

C1 に「=a1-b1」と,D1 に「=a1+b1」と打ち込み, この二つのセルを範囲指定して,1000 行に増やす。 そして,C 列と D 列との散布図を書かせて, 何度か F9 キーを押しながら,上で書かせた A 列と B 列との散布図と見比べてみよ。

これは, 「アカデミックスキル」または「プレゼン・ディベート論」の時間に, 数学系の先生の担当で読むテキストと関連している。考えてみよ。

明らかに何かある分布になるが,相関係数を計算すると 0 に近い。

(この分布図は,ウィキペディア「相関係数」の項にあったものを参考にした。 対応する英文版にも同じものが載っている。)

§4.4 最小二乗法

データ (x1, y1), (x2, y2), (x3, y3), ..., (xN, yN) に対し, それらの間に y = ax + b なる一次式の関係がありそうで, それからのずれは誤差だとしたら, 誤差が最も小さくなる a と b の値は? という問題を解くのが最小二乗法である。 (一次関数以外の関係を想定する場合もある。)

ここでは,誤差を | yi - (axi + b) |2 の和と定義し,それを最小にするよう a, b を定めるものとする。 この問題は,未知数 a, b に関する平方完成をおこなうことで解ける。

sxy を §3.4 で出てきた共分散, sx, sy を x, y の標準偏差, mx, my を x, y の平均とするとき, a = sxy / sx2, b = my - amx となることが知られている。 sxy/(sxsy) が相関係数だったから, a は「相関係数 * (sy/sx)」とも書ける。 こう書くと,そうかなと思えるであろう。 b は,直線 y = ax + b が (mx, my) を通るように決まる。

新規ファイル 210601.xlsx を作って,以下をおこなえ。

A1 から A1000 を,平均 0, 標準偏差 1 なる標準正規分布に従う乱数で埋める。 B1 から B1000 も同様とせよ。 A 列と B 列との散布図を出せ。 適当なセルに「=slope(b1:b1000,a1:a1000)」と打ち込むと a の値が, 「=intercept(b1:b1000,a1:a1000)」と打ち込むと b の値がはいる。 いまの場合,a も b も 0 に近い値になる。 (英単語 intercept の意味はここでは「切片」である。)

B1 に「=norm.inv(rand(),0,1)+a1*2+0.7」と打ち, それを B1000 まで広げよ。 すると,こんどは a が 2, b が 0.7 に近い値になるであろう。

上の「=norm.inv(rand(),0,1)+a1*2+0.7」の 「*2」「+0.7」を別の数値に変えたものを保存して LMS から提出せよ。

(最小二乗法については,GS 科目「論理学と数学の基礎(数学的発想法)」でもとりあげるそうである。)


岩瀬順一