AI・機械学習の基礎。過去のデータから未来を予想する範囲
サーチマン佐藤です。
こんにちは。
えっと、年末に、
「機械学習、y=ax+b」について、
クイズを出しました。
覚えていますか?
すみません、実は、
私自身、忘れていました(苦笑)。
クイズ出しっぱなしで、
本当に申し訳ないです。
ですので、ゆっくり復習しつつ、
今日は、その回答結果をみていきますね。
いってみましょう。
AI、機械学習の最も基礎的なアルゴリズムは、
「単回帰分析」です。
「単回帰分析」では、
「y = ax + b」という式を使います。
使いますが、
「単回帰分析」では、最初から、
aやbが与えられるわけでは、ありません。
与えられているのは、データです。
https://twitter.com/sato_searchman/status/1075284276331958273
このようなデータから、どうやって、
aやbを導くのか?
それが、単回帰分析ですが、
まあ、わかっちゃいるけど、
データが沢山あると、頭が混乱する。
混乱して、aやbを導けない(苦笑)と。
そこで、まず、素人の我々としては、
データが2つだけだったら、
aとbを導けますか?という話です。
それが、年末に出したクイズ。
━━━━━━━━━━━━━━━━━━━━━
【問題】
━━━━━━━━━━━━━━━━━━━━━
最高気温と冷やし中華の売れた個数、
以下の二つのデータがある。
データ1
最高気温(x)25度
売れた個数(y)5個
データ2
最高気温(x)29度
売れた個数(y)25個
上記2つのデータから、
「y = ax + b」を導き、
最高気温(x)28度の
売れる個数(y)を予想してください。
━━━━━━━━━━━━━━━━━━━━━
よかったら、回答結果を見る前に、
もう一回やってみましょうね。
では、回答結果と解答にいきますよ。
━━━━━━━━━━━━━━━━━━━━━
【回答結果】
━━━━━━━━━━━━━━━━━━━━━
・答えがわからない
60票(8.2%)
・質問の意味がわからない
24票(3.3%)
・16個 19票(2.6%)
・18個 25票(3.4%)
・20個 481票(66.1%)
・22個 40票(5.5%)
・24個 40票(5.5%)
・そのほか 39票(5.4%)
━━━━━━━━━━━━━━━━━━━━━
答えは、20個です。
66.1%の方が正解しています。
たぶん、
「こんなの簡単」と思っている方からすると、
正答率の低さに驚くでしょうが、
う~ん、これを、どう見るのか?
一般の人に、この問題出したら、
たぶん、半分くらいでしょうかね。
でも、SEだったら、
この問題は出来るべきだし、
一つ厳しいこと言えば、
機械学習を勉強したいなら、
この問題(一次方程式)は、
解けないといけません。
まあ、本当に解けないというより、
一次方程式に抵抗があるのかな。
ということで、↓グラフにしてみた。
https://twitter.com/sato_searchman/status/1087861760814510080
ね。
こうすると、視覚的にも簡単でしょ。
x:最高気温
y:個数
y = 5x -120 となり、
最高気温28度の時、20個売れると予想できる。
これが、機械学習の最も簡単な例です。
是非、理解して欲しいです。
でもね、そう答えると、
こんな疑問の声があがってくる。
【読者から】
=====================
一次方程式として、
計算するとこうなりますが、
気温が0度のときは、
売上げが-120個。
現実とかけ離れた結果になりますね。。
=====================
そう、おかしいですよね。
ここで、もう一つ、
機械学習の基本をお伝えします。
機械学習は、
過去のデータから未来を予想するもので、
従って、過去のデータがない範囲は、
予想してはいけないのです。
今回の例で言えば、
データが二つあります。
最高気温25度と
最高気温29度。
従って、(機械学習では)
このデータの範囲内でしか、
予想してはいけない。
0度の予想は、NG。
いや、計算はできますよ。
計算できても、予想してはいけない。
それが、機械学習なのです。
例えば、↓のデータだったら、
https://twitter.com/sato_searchman/status/1075284276331958273
25度~34度が、
予想していい範囲。
専門用語的に言うと、
そのデータの範囲を「内挿」、
範囲の外を「外挿」と言います。
計算できても、
「外挿」は予想しない。
まあ、言うなれば、機械学習は、
計算と現実(データ)の折衷案なのですよ。
よろしいでしょうか。
そこを踏まえて、
過去のデータから未来を予想する。
「予想して当たる!なんか楽しい」と。
実は今、有料講習も準備していて、
ここだけで飽き足らない方は、
是非、期待して欲しいのですが・・・
具体的には、
Python(パイソン)の環境作って、
具体的なデータ出して、
そこから、未来を予想する。
面白いんですよ。
まあ、初歩なら、
エクセルでもいいのですが、
Python(パイソン)は、
データ処理のライブラリがいっぱいあるし、
今、流行しているし、将来につながるしね。
その環境作って、使い方覚えて、
裏の仕組みも理解する。
なんとか2月中には提供したいですが、
是非、ご期待くださいね。
(同時に、自分にプレッシャー!)
ではでは、また。
ありがとうございました。
●最後に
今回の記事では、機械学習で
データの範囲(内挿、外挿)を説明しました。
わかりやすかったですか?
理解できましたか?
一つクリックしてくださいね。
●追伸
「超初心者のJava無料講習」
最新版のテキストにしたので、利用くださいね。
------------------------------------
サーチマン佐藤のJava