IT技術を詳しく解説し、IT業界の本音を探る。

AI・機械学習の基礎。過去のデータから未来を予想する範囲

»

サーチマン佐藤です。
こんにちは。

えっと、年末に、
「機械学習、y=ax+b」について、
クイズを出しました。

覚えていますか?

すみません、実は、
私自身、忘れていました(苦笑)。

クイズ出しっぱなしで、
本当に申し訳ないです。

ですので、ゆっくり復習しつつ、
今日は、その回答結果をみていきますね。

いってみましょう。


AI、機械学習の最も基礎的なアルゴリズムは、
「単回帰分析」です。

「単回帰分析」では、
「y = ax + b」という式を使います。

使いますが、
「単回帰分析」では、最初から、
aやbが与えられるわけでは、ありません。

与えられているのは、データです。
https://twitter.com/sato_searchman/status/1075284276331958273

このようなデータから、どうやって、
aやbを導くのか?


それが、単回帰分析ですが、
まあ、わかっちゃいるけど、
データが沢山あると、頭が混乱する。

混乱して、aやbを導けない(苦笑)と。


そこで、まず、素人の我々としては、
データが2つだけだったら、
aとbを導けますか?という話です。

それが、年末に出したクイズ。

━━━━━━━━━━━━━━━━━━━━━
【問題】
━━━━━━━━━━━━━━━━━━━━━
最高気温と冷やし中華の売れた個数、
以下の二つのデータがある。

データ1
最高気温(x)25度
売れた個数(y)5個

データ2
最高気温(x)29度
売れた個数(y)25個

上記2つのデータから、
「y = ax + b」を導き、

最高気温(x)28度の
売れる個数(y)を予想してください。
━━━━━━━━━━━━━━━━━━━━━

よかったら、回答結果を見る前に、
もう一回やってみましょうね。


では、回答結果と解答にいきますよ。

━━━━━━━━━━━━━━━━━━━━━
【回答結果】
━━━━━━━━━━━━━━━━━━━━━
・答えがわからない
60票(8.2%)

・質問の意味がわからない
24票(3.3%)

・16個 19票(2.6%)

・18個 25票(3.4%)

・20個 481票(66.1%)

・22個 40票(5.5%)

・24個 40票(5.5%)

・そのほか 39票(5.4%)
━━━━━━━━━━━━━━━━━━━━━

答えは、20個です。
66.1%の方が正解しています。

たぶん、
「こんなの簡単」と思っている方からすると、
正答率の低さに驚くでしょうが、

う~ん、これを、どう見るのか?

一般の人に、この問題出したら、
たぶん、半分くらいでしょうかね。

でも、SEだったら、
この問題は出来るべきだし、

一つ厳しいこと言えば、
機械学習を勉強したいなら、
この問題(一次方程式)は、
解けないといけません。


まあ、本当に解けないというより、
一次方程式に抵抗があるのかな。

ということで、↓グラフにしてみた。
https://twitter.com/sato_searchman/status/1087861760814510080

ね。

こうすると、視覚的にも簡単でしょ。

x:最高気温
y:個数

y = 5x -120 となり、
最高気温28度の時、20個売れると予想できる。

これが、機械学習の最も簡単な例です。
是非、理解して欲しいです。


でもね、そう答えると、
こんな疑問の声があがってくる。

【読者から】
=====================
一次方程式として、
計算するとこうなりますが、
気温が0度のときは、
売上げが-120個。

現実とかけ離れた結果になりますね。。
=====================

そう、おかしいですよね。

ここで、もう一つ、
機械学習の基本をお伝えします。

機械学習は、
過去のデータから未来を予想するもので、

従って、過去のデータがない範囲は、
予想してはいけないのです。


今回の例で言えば、
データが二つあります。

最高気温25度と
最高気温29度。

従って、(機械学習では)
このデータの範囲内でしか、
予想してはいけない。

0度の予想は、NG。


いや、計算はできますよ。
計算できても、予想してはいけない。

それが、機械学習なのです。


例えば、↓のデータだったら、
https://twitter.com/sato_searchman/status/1075284276331958273

25度~34度が、
予想していい範囲。

専門用語的に言うと、
そのデータの範囲を「内挿」、
範囲の外を「外挿」と言います。

計算できても、
「外挿」は予想しない。

まあ、言うなれば、機械学習は、
計算と現実(データ)の折衷案なのですよ。

よろしいでしょうか。


そこを踏まえて、
過去のデータから未来を予想する。

「予想して当たる!なんか楽しい」と。

実は今、有料講習も準備していて、
ここだけで飽き足らない方は、
是非、期待して欲しいのですが・・・


具体的には、
Python(パイソン)の環境作って、
具体的なデータ出して、
そこから、未来を予想する。

面白いんですよ。

まあ、初歩なら、
エクセルでもいいのですが、

Python(パイソン)は、
データ処理のライブラリがいっぱいあるし、
今、流行しているし、将来につながるしね。

その環境作って、使い方覚えて、
裏の仕組みも理解する。


なんとか2月中には提供したいですが、
是非、ご期待くださいね。
(同時に、自分にプレッシャー!)

ではでは、また。
ありがとうございました。


●最後に
今回の記事では、機械学習で
データの範囲(内挿、外挿)を説明しました。

わかりやすかったですか?
理解できましたか?

一つクリックしてくださいね。

わかりやすい、理解できた。

わかりにくいが、理解できた。

わかりやすいが、理解できない

わかりにくいし、理解できない

そのほか

●追伸

超初心者のJava無料講習
最新版のテキストにしたので、利用くださいね。

------------------------------------
サーチマン佐藤のJava

サーチマン佐藤のブログ

サーチマンのTwitter

サーチマンの濃~いメルマガを読みたい場合は、

こちらから登録ください(無料)。

Comment(0)

コメント

コメントを投稿する