2016年の発売直後から大きな話題を呼び、中国・ドイツ・韓国・ブラジル・ロシア・ベトナム・ロシアなど世界各国にも広がった「学び直し本」の圧倒的ロングセラーシリーズ「Big Fat Notebook」の日本版が刊行される。本記事では、全世界700万人が感動した同シリーズの数学編『アメリカの中学生が学んでいる 14歳からの数学』より、本文の一部を抜粋・紹介する。
第51章 統計入門
統計とは、データを分析することである。データは事実の集まりのことで、数や言葉や文章などで表されることが多い。データには次の2種類がある。
定量的データ:数で与えられる情報のこと。数えたり計ったりできる情報が多い。
定性的データ:言葉で与えられる情報のこと。見た目・質感・におい・味など、知覚できる情報が多い。
統計を使えば、データを集めたり解釈したり、簡潔にまとめたり発表したりできる。
データを集める
統計的質問とは何か? 統計的質問とは、何通りもの答えがありうる質問のこと。何通りもありうる答えは、ばらつきを持っている。ばらつきとは、データの集まりがどれだけばらけているか、または互いにどれだけ近いかを表す。
・1通りであれば、それは統計的質問ではない。
・2通り以上であれば、それは統計的質問である。
次の2つの質問について考えてみよう。
1.「私は何歳か?」
この質問には答えが1つしかない。答えにばらつきがないので、これは統計的質問ではない。
2.「この学校の生徒たちは何歳か?」
この質問には何通りかの答えがありうるので、これは統計的質問である。生徒が全員同じ歳なんてことはないのだから、答えがばらけるはずだ(ばらつきがある)。
例:以下のそれぞれの質問は統計的質問か?
君の電話番号は?──統計的質問ではない。ばらつきがないから。
この町の各家庭にはテレビが何台あるか?──統計的質問である。答えにばらつきがあるから。
さっき君が買ったハンバーガーはいくらだった?──統計的質問ではない。答えが1つしかないから。
この学校の生徒には兄弟が何人いるか?──統計的質問である。答えにばらつきがあるから。
統計的質問に対するそれぞれの答えが「ばらけていて」、互いに大きく違っていたら、ばらつきは大きい。そうでない場合には、ばらつきは小さい。
例:
このショッピングモールの客は何歳か?──その答えは大きくばらけているだろうから、ばらつきは大きい。
小学6年生は何歳?──その答えはすべて1年間の範囲内に入る。答えにあまり差が出ないので、ばらつきは小さい。
1. 世の中のさまざまな問題を把握できる。
2. 発表やディスカッションで何か主張をするときに、証拠を示せる。
3. 情報に基づいて未来の道筋を決められる。
例:大学に行くべきか?
統計によると、2012年、大卒の平均年収は$46900、高卒の平均年収は$29960だった。だから大学には行ったほうがいい!
標本抽出
標本抽出とは、ある大きなグループ全体の特徴を推定するために、そのグループの一部を取り出すことである。たとえば1000人のグループがあって、そのうちの何人が数学好きなのか知りたいとしよう。しかし、1000人全員に聞いて回ったらすごく長い時間がかかってしまう。そこで、そのグループの一部だけに聞いて、その一部における結果から、グループ全体における近似的な結論を導く。要するに標本(サンプル)を取るわけだ。その標本がグループ全体を代表することになる。
もちろん、グループ全体をうまく代表しているような標本を取ることが重要である。たとえば、この学校には100人の生徒がいて、男子女子ともに大勢いるとしよう。この中からランダムに20人選んだら、女子が19人、男子が1人だった。この標本は学校全体をうまく代表してはいないので、良い標本とは言えないだろう。
例:ある工場で1000人が働いている。そのうちの何人が左利きであるかを知るために、20人に右利きか左利きか聞いた。すると20人中3人が左利きだった。この工場で働いている人のうち、約何人が左利きか?
→20人中3人が左利きなので、標本のうちの3/20が左利きということになる。
そこで、この比を1000人全員の集団に当てはめると、
1000 × 3/20=150
約150人が左利きであると推定できる。
例:ジミーの通っている学校には520人の生徒がいる。ジミーは、そのうち何人がサッカーをやっているのか知りたくなった。そこでクラスメイト60人に聞いたところ、サッカーをやっているのは8人だった。この学校では約何人の生徒がサッカーをやっているか?
60人中8人がサッカーをやっているので、
標本のうちの8/60=2/15がサッカーをやっていることになる。
この比を全校生徒520人に当てはめると、
520 ×2/15 ≒ 69.33
したがって、約69人がサッカーをやっていると推定できる。