高校~社会人の情報学基礎知識講座

データの収集と表し方

»

ところで皆さん、統計における代表値って言葉、ご存知ですよね?

平均値とかのことですが。

中央値(メヂアン)・最頻値(モード)・平均値(アヴェレージ)の違いって判りますよね?
出来れば第一四分位数(ファーストクォーター)と第三四分位数(サードクォーター)程度は知っててほしいなぁとか思うのは高望みですか...?

ちなみにですが、2011年施行の学習指導要領から、中学1年生の指導内容なんですよね・・・ヒストグラム作るのと中央値・最頻値・平均値の理解って。

中央値:全データをソートした際に真ん中に来るデータ。データ個数が偶数個なら真ん中2つの平均。データの50%はこれより上、下と言えるのでヒストグラムでフタコブラクダ型カルデラ火山みたいな分布になってるデータの時とかに代表値として便利。

最頻値:ヒストグラムにおいて一番背の高い階級の中央。「大体このくらいの人が多い」という表現を一言で表現できる値。

平均値:みんな大好き平均値。みんなちゃんと平均の意味わかってんのかね...?相加平均のほかに相乗平均ってものがあるのご存じで? 

ちなみに何でもかんでも平均値基準にするのやめとき...。
https://bookmeter.com/books/13529285 こんな本あるくらいやし...。
ちなみに吹越は何でもかんでも平均平均と主張する生徒があんまり好きじゃなかった記憶があります。
大体どこの学校にも一学年に一人くらいテストの平均値ばかり気にする子が居るのですが、成績が良かったためしがないんですよね...。
※先に述べたとおり、中央値・最頻値・平均値及びヒストグラムは中一の内容なので、中学数学や高校情報科で教える際にはこれらの数値も教えるべき、と吹越は考えています。生活の中で利用できる教材の一種として。

第一四分位数:中央値と考え方は似ている。ソートして上位25%のこと。

第三四分位数:ソートして上から75%の値のこと。
中央値同様、大体のデータの形が表現できるので便利。

時系列データとかである程度の範囲を表現する場合、第一四分位ス・中央値・第三四分位数を利用した箱髭図で表現するのが個人的には好み。むやみに平均値だけ追うのは要約されすぎてて困る...。


ところで、アンケートを取ることを考えた時に、考えておくべきいくつかのアドバイスを...。

  • 数値に意味があるかどうかをまず考えましょう。
    1.男 2.女 とかにしておくのは良いんだけど、アンケートとかでこの項目の相加平均値出すことに意味があると思うのか?男女の偏りで男が多いとか主張したいのか?

  • 1~5くらいの順序尺度にする場合、1がマイナス極振りなのか無関心なのか。
    マイナス・プラスがちゃんと軸になっているか(安い・高いは良いけど、たまにネタにならん軸になってるパターンが...)
  • ヒストグラムにする場合、階級の個数は考えよう。5~10個くらいが上限です。階級の差をキリよくすることも考えましょう。

  • 複数選択式解答(いくつかの解答から~3個チョイスするパターン)のときは、選択率で横棒グラフにするといいよ

  • グラフの色は白黒印刷してもちゃんと判別できるようにしておくといいよ。あるいは背景画像を入れるべき。

この辺を備えてからデータ分析の練習させたいんだけどなぁ...

サンプルデータとか以下あたりから拾ってきてなんかデータ分析してみると良いかも...。

https://ainow.ai/2020/03/02/183280/

Comment(4)

コメント

匿名

当方、統計学は門外漢なのですがよくわからないので教えてください。

中央値の説明ですが、
-2,-1,0,1,2,50,98,99,100,101,102
とあった場合、中央値は50で合っていますか?
フタコブラクダの特徴をよく示す代表値とするなら0と100ではないですか?

なんとなく平均値を毛嫌いされているように感じますが
いずれもデータの特徴を表現するためのものであり、どれが良い、悪いではないと思います。
表現方法(平均値とか中央値とか)の特性(何を表すのに適しているか、いないか)を
正しく理解して、どの表現方法がデータの特徴をよく示すかを考えることが
統計学の正しい向かい合い方ではないかと思います。

マスター吹越

匿名様

コメントありがとうございます!
>-2,-1,0,1,2,50,98,99,100,101,102とあった場合、中央値は50で合っていますか?
はい。あっています。0近辺と50と100近辺に固まっている場合、真ん中の50が中央値になります。フタコブラクダの真ん中、という表現だとこの例だと確かに違和感を覚えますが、「代表値」は何らかの計算方法に基づいて一つだけ出すものなので「50より上」と「50より下」で半々であることが言えるので「真ん中は50(ただしそれ以外のデータは±50のあたりに集中)」って感じです。
吹越が「フタコブラクダの真ん中」とたとえた時に脳内にあった図としては正規分布の頂点付近が陥没したカルデラ火山みたいな分布図でした。 これを最初に明示していない吹越の説明が悪いです。

>なんとなく平均値を毛嫌いされているように感じますが
嫌っているのは平均値ではなく、「何でもかんでも相加平均だけ出してりゃいい」と考えて分散もデータの散らばりも考えない人のことですね。
中1数学でデータについて最頻値・中央値・平均値の話をするので中間期末の度に吹越は担当クラスの生徒にこの3つの結果を伝えていたのですが、どこの学校にも思慮していると思えない態度で平均値だけ聞きたがる生徒がいた覚えがあります。ちょっとそのあたりの思い出しイライラが出ていたことは事実です。隠す気もないしむしろ「平均にだけこだわる」ことの愚かさを感じ取ってほしいレベル。

>いずれもデータの特徴を表現するためのものであり、どれが良い、悪いではないと思います。
>表現方法(平均値とか中央値とか)の特性(何を表すのに適しているか、いないか)を
>正しく理解して、どの表現方法がデータの特徴をよく示すかを考えることが
>統計学の正しい向かい合い方ではないかと思います。
その通りです。代表値はしょせん代表値です。貴殿の態度が真っ当であり、平均値に対する説明だけ悪意を見せている吹越の態度が望ましくないです。
それを踏まえたうえで「平均値だけ特別視しすぎる人が多すぎる」ことに対するうんざりさの表れとしてあの文章を見ていただけると嬉しいです。

この辺の話もちょっと本文に追記しておきます!

ちゃとらん

> どの表現方法がデータの特徴をよく示すかを考えることが
> 統計学の正しい向かい合い方ではないかと思います。


私的にも、この意見は大賛成です。
所が、前回の『クソグラフ』改め、わざと書いている『サギグラフ』よろしく、統計データを自分の都合の良い部分だけを抜き出して使う人がいるのも事実です。


社長:年収 8200万円
社員:年収200万円 × 9名

合計:1億円
社員数:10名

当社の平均年収は、1000万円です。


そういう意味では、生活する上での基礎知識という意味合いで考えればよいと思います。

マスター吹越

ちゃとらん様

コメントありがとうございます!
>統計データを自分の都合の良い部分だけを抜き出して使う人がいるのも事実です。
グラフ作成者に望むのは、生データを比較しやすいように妙なバイアスを減らす努力をしてほしい、というだけなんですよね…。その例だと最頻値と中央値が200万だから社員は大体200万くらいの給料ですよと言わないと不公平。
裏返すとそのあたりを含めて表示している会社は誠意がある部類だと思います。

>そういう意味では、生活する上での基礎知識という意味合いで考えればよいと思います。
嘘は言っていないけど誤誘導する方法何ていくらでもありますからね…。騙しあうゲーム(人狼とか「お邪魔もの」とか)の範囲ならいいけど実生活でやられると金銭的被害が出ますからね。大体。

コメントを投稿する