広さ比べ。縦×横を知らなかったら?前回クイズの答え。
サーチマン佐藤です。
こんにちは。
前回、こんなクイズを出しました。
「機械学習、単回帰分析の直線。3点だったら?」
https://twitter.com/sato_searchman/status/1092186064985350144
多くの回答頂きました。
ありがとうございます。
で、ズバリ答えを言いますが、
答えは、「オレンジ」です。
回答としては、
「グリーン」が多かったですが、残念。
ただし、「オレンジ」と答えた人でも、
その理由まで含めて正しい人は、
1名のみ。
・・・・う~ん、
なんとも(苦笑)。
でね、何故、間違うのか?
まず、その話です。
例えば、
縦横11mの正方形と、
縦1m・横100mの長方形、
どっちが広いですか?と問えば、
答えは、もちろん前者ですね。
そう。当然ながら、アナタは、
「縦×横」で比較すればいいと、
知っているから、正解が出せる。
しかし、それを知らない人や、
小学校低学年だったら、
どうでしょうか?
はるか100m先まであれば、
直感で、後者のほうが、
広い気がするかもしれない。
また、ある人は、
周囲の長さを求めて、
前者:44m
後者:202m
ある人は、
1辺の平均を出して、
前者:11m
後者:50.5m
自分の知っている知識を駆使し、
その数字を比べて、
後者のほうが広いと言う。
しかし、
知っている人からすれば、
「そんな、馬鹿なー!」
ですよね(笑)
それと同じ現象が、
今回のクイズでもおきた。
理由をあげた99%の人が、
「誤差」や「距離」をあげている。
例えば、こんな感じです。
【誤差をあげた読者】
=====================
グリーンのほうが、
トータルで誤差が少ない
|25度|27度|29度|誤差
――――+――+――+――+――
オレンジ|+ 5 |- 1 |+ 5 |+ 9
グリーン|+ 7 |- 3 |- 1 |+ 3
=====================
【距離をあげた読者】
=====================
それぞれのy値までの
距離の合計は、どちらも11でした。
=====================
確かに、
誤差や距離で比較したくなるんですよ。
簡単だし、知っているし、
もっともらしいから。
しかし、直感の鋭い人は、
なんか違うのでは?とも思う。
そう、実データとの偏りが
評価されてないんですね。
偏りを評価すれば、
答えは、オレンジですが、
・・・・・・すみません、
話が難しくなってきました。
偏りって、何でしょうか?
偏りを実感してもらうため、
もう一つ、例を出します。
受験時代を思い出してください。
あるテストで、
平均点より10点上、
偏差値が52。
別のテストでは、
平均点より8点上、
しかし、偏差値は62。
どっちのテストが出来た?
と問えば、後者ですよね。
平均点との差だけでは、
優秀さを測れない。
偏りを含めて評価すべきで、
もちろん、偏差値にも、
偏りが含まれている。
なんとなくでも、
わかりますよね。
じゃあ、今回のクイズで、
偏りを含めた評価って何?
という話ですが、
数学的説明は省きますが、
結論だけ言えば、誤差の二乗です。
(二乗誤差と言います)
=========================
※時間ある人は、頭の体操。
オレンジとグリーンで、
二乗誤差の和をとってみてください。
オレンジ:51
グリーン:59
二乗誤差が小さいので、
答えは、オレンジになります。
=========================
実は、この二乗誤差は、
単回帰分析でも、重回帰分析でも、
偏差値の計算でも出てくる、
機械学習・統計学の
基本中の基本。
私は機械学習するなら、
面積=縦×横を覚えるように、
この基本だけは必須と思いますが、
まあ、それは置いといて。
なので、
統計学を知っている人からすれば、
誤差や距離のみの比較をみると、
「そんな、馬鹿なー!」となる(笑)
・・・・・いえいえ、
勘違いしないでくださいね。
今は、知らなくていいのです。
ただ、言いたいのは、
何も知らないと、
既知の知識で考えるし、楽もしたいし、
それらしい理論を言われると、
コロッと騙されてしまう(苦笑)。
そういう人間の怠惰さは、
指摘したいのです。
例えば、以前、
私は「アパート経営のカラクリ」を暴露しました。
あれも、違う論点をもってきて、
「儲かりますよ~」と言われれば、
儲かる気がするのです。
100mが、広く見えるようにね。
また、最近問題になっている、
「不正統計問題」では、
野党は、
「アベノミクス失敗」と言います。
確かに、不正はよくないし、
実質賃金は、指標の一つです。
しかし、私に言わせれば、
例えば、
2017年の周囲の長さが52mだった。
2018年は60mだった。
不正が発覚して、
2017年は53m
2018年は59mだった。
当然、伸び率は低くなる。
野党は、
「伸び率が低いから、
実は、アベノミクス失敗だった。偽装だ。」
と言うけど、
でも、それって、
面積の議論と違うでしょ。
たまたま、
マイナスになった「伸び率」を出して、
無理に、違う議論をしてしまう。
このセンスの無さです。
マスコミも全然わかってないしね。
(いや、わかっているかもね、確信犯?)
一応、言っておきますが、
私は、賢明な野党が出て欲しいと、
思っているんですよ。
そのほうが、健全だと。
しかし、あのバカさ加減では、
失笑もんですよ。
もっと議論すべきは、
色々あるでしょ。
困ったものです。
・・・・・・・閑話休題。
脱線しました。
話を戻します。
前回のクイズ、
「機械学習、単回帰分析の直線。3点だったら?」
では、多くの人が、
誤差や距離で比較しました。
もちろん、自分なりに考えることは大事。
でも、機械学習・統計学の基本からは、
答えは、違ったものになる。
とりあえずは、そんなところで。
詳しくは、講習も準備しているので、
また一緒に勉強しましょう。
ではでは。
ありがとうございました。
●追伸1
上記読んでも、
「え~、本当なの?」
「誤差や距離でもいいのでは?」
と言いたい人もいるでしょう。
反例を出しておきましたよ。
https://twitter.com/sato_searchman/status/1095108756612907008
「超初心者のJava無料講習」
最新版のテキストにしたので、利用くださいね。
------------------------------------