2019年04月05日掲載

統計が解き明かす「フェイスブックはおじさんばかり」説の真相

『週刊ダイヤモンド』4月13日号の第1特集は「数式なしで学べる　統計学超入門」です。世の中にはさまざまな統計データがあふれていますが、政府統計で不正が見つかったように、全てのデータが真実を語っているとは限りません。いまわれわれに必要とされているのはデータを正しく読み解くための「目の付けどころ」を鍛えることです。そのための統計学の超入門編を、教授と学生の会話による講義形式で分かりやすくまとめました。

拡大する

　ここはとある大学の研究室。統計学の講義を担当する教授のもとに、学生のマナブくんが質問にやってきました。

（マナブ）この前、60代以上のフリマアプリ利用者の平均資産額が約2500万円で、非利用者より400万円も多かったっていう調査結果をメルカリが発表してましたけど、先生はどう思います？

（教授）この前も教えたように、「平均」は便利な数字だけど注意する必要がある。下の図を使って説明しよう。

拡大する

　統計学ではデータ全体の特徴や傾向を表す数値を「代表値」と呼ぶ。代表値には三つあって、一番よく使われるのが、全てのデータを足してデータの数で割った「平均値」だね。そのほかに、データを大きさの順に並べたとき真ん中にある値である「中央値」、データの中で最も頻繁に現れる値である「最頻値」があるんだ。

　三つの代表値にはそれぞれ、得手不得手があるから、データの種類によって使い分けた方がいい。

　まず平均値のいいところは、全てのデータを足して割っているので、全体の特徴をつかみやすいこと。ただ、極端なデータがあるとそれに引っ張られて全体が見えにくくなることもある。

　例えばコンビニの売上高で見てみよう（例1）。ある人がコンビニを3店経営していて、1日の売上高がそれぞれ20万円、40万円、150万円だったとする。この場合、3店舗の平均売上高は70万円になるけど、3店舗のうち2店舗は平均の6割以下の売り上げしかない。これじゃ、70万円という数値がデータ全体を代表しているとは言い難いよね。

　こんなふうに極端なデータが交じっているときは、平均値よりも中央値を使った方がいいんだ。この場合、中央値は40万円だから、全体をつかむのに適している。

　逆に、中央値よりも平均値を使った方がいい場合もある。今度は3店舗の1日の売上高がそれぞれ50万円、70万円、90万円だったとする（例2）。それが60万円、70万円、110万円に変化した場合、中央値はどちらも70万円で変わらない。一方平均値は前者が70万円、後者が80万円に変化している。このように、中央値はデータ全体の変化の観察には向いていないんだ。

（マナブ）なるほど。これまで平均値といえば、全体の真ん中を表すと思ってたけど、そうじゃない場合もあるんですね。

（教授）マナブくんの最初の質問に戻ろうか。フリマアプリ利用者の平均資産額が非利用者より400万円も多かったことをどう思うか。正直なところ中央値などのデータの詳細が公表されていないからなんとも言えないね。でも、「平均」が万能ではないということをいつも念頭に置いて統計を見るようにしたらどうかな。

データリテラシーは＂筋トレ＂では養えない

　マーケティングのための人工知能プログラムの開発に携わるなど、現在最も注目を集めるデータサイエンティストの松本健太郎氏に、データリテラシーの鍛え方を聞いた。

──データリテラシーを鍛えるにはどうすればいいでしょうか。

　データリテラシーは、筋トレのように努力すれば養われる類いのものではありません。数字に強くなるというのは、なるべく自分に関係のない情報を削ぎ落とそうとする脳の働きに反するからです。

　ではどうすればいいのか。方法は二つあります。

　まず、統計の数字がどうやって作られているのかに目を向けること。「政府や企業が作っているんだからちゃんとしてるだろう」ではなく、本当に信頼できるのか疑ってみる。それだけでかなりリテラシーは上がると思います。

　民間の統計、例えば需要予測のようなデータは、どうやって作られているのか全く分からない。でも公的統計は作り方や調査票がオープンになっていて全部調べることができます。そういう意味では、初心者が統計データに慣れ親しむためには、公的統計が最も適していると思います。

　もう一つの方法は、まずデータに触ってみることです。よくありがちなのが、統計には難しい専門用語が並んでいるので、それを読み解こうとしてどツボにはまること。いちいち言葉の厳密な定義を調べるのではなく、例えば統計上の数字を時系列に並べてみたりすると、上向いているデータが多い中で下落しているデータを見つけたりする。そういう気付きが大事なんです。

──統計を読むとき、どんなことに注意したらいいでしょうか。

　データを作る側にも読む側にも必ずバイアス（先入観による偏り）がある。バイアスから抜け出すのは極めて難しいですが、バイアスがかかっている可能性があるんじゃないかと考えることがすごく重要だと思っています。特に、専門家であればあるほどバイアスに陥りやすいので、普通なら気付くはずの目の前の大きな違和感を見逃してしまう。その点、基本的にバイアスがない素人は強い。

──データサイエンティストはどこでも引っ張りだこです。

　大企業を含めてほとんどの企業が、データサイエンティストは魔法使いだと思っている。なんかすごいことやってくれるんでしょみたいな。本当に重要なのは、データサイエンティストの言っていることを理解できるリテラシーを持った（データサイエンティスト以外の）人材が社内にいるかどうかなんです。そこに気付いている企業はまだ少ないですね。

難しい数式は一切なし　会話形式の誌上講義ですらすら分かる

『週刊ダイヤモンド』4月13日号の第1特集は「数式なしで学べる！統計学超入門」です。

　今年に入って政府の主要な統計で次々と不正が発覚しました。いずれも、統計学の基礎知識があれば起きるはずのないミスばかりで、各省庁の統計担当者の知識不足や政府の統計軽視の姿勢が浮き彫りになった事件でした。

　そこで今回は、政府の不正統計事件を反面教師として、統計学の基本を学ぶための特集を企画しました。

　統計学と聞くと、複雑な数式を使いこなさないといけない難しい学問だと思われるかもしれません。安心してください。今回の特集では難しい数式は一切使いません。初心者でも理解できるように専門用語を使わず、教授と学生の会話による誌上講義形式でまとめてあります。

　特集では、政府統計で不正が起きた背景や処方箋を提示するとともに、データにだまされないためのリテラシーを鍛える例題をふんだんに用意しました。

　さらに、各方面で注目を集めている気鋭のデータサイエンティスト、松本健太郎さんに「特別講義」をお願いしました。1時間目のお題は「フェイスブックはおじさんとおばさんしか使っていない？」、2時間目は「GDPはどこまで正しいのか？」。おもしろそうなテーマだと思いませんか？　松本さんがこのお題にどう答えたのか、ぜひ特集をご覧ください。

　もう一つ、今回は特別付録を用意しました。本特集は統計学の「超入門編」ですが、さらに統計学の基礎や応用を学びたい方のために、過去の特集記事から抜粋した基礎編とビジネス応用編をご覧ください。

今週の週刊ダイヤモンド2024年11月30日号[990円]

特集中高一貫校&塾

緩和予測から一転、2025年の中学入試は関東、関西とも史上最高レベルの激戦となる見込みだ。近年は「中堅校」への注目が高まり、受験者層が拡大。今後数年間は中学受験ブームが継続すると予想されている。偏差値やブランドだけではない、わが子が成長する「中高一貫校」や「塾」はどこか。今回は直前特集として、最新の受験者動向を含めた25年入試の情報や「２カ月で逆転合格を狙う秘訣」「併願戦略」など実践で使える記事も多数盛り込んだ。忖度なしのランキングを含め、低学年から直前期まで役に立つ情報をお届けする。

雑誌（紙版）

定期購読する

電子版

週刊ダイヤモンドの見どころの最新記事

[ 週刊ダイヤモンドの見どころ ]のバックナンバーへ

記者の目

編集部　篭島裕亮

30数年ぶりに週6で通った中学受験塾を訪問

「中高一貫校＆塾」の取材で、偶然にも三十数年ぶりに通っていた中学受験塾の校舎を訪れました。当時の校舎とは少し場所が異なるものの、温かい雰囲気は変わらぬまま。授業風景はもちろん、ライバルとの切磋琢磨、クラス昇降の緊張感、土曜日の塾帰りに早売りの「週刊少年ジャンプ」を買ったこと……。
　懐かしい記憶がよみがえりました。エモいです。できることならば立身出世をして訪れたかったですが、それは現在、各分野で活躍している優秀な仲間に任せます。
　入試本番まで残り２カ月。記事ではデータを充実させつつ、実践的コンテンツも盛り込みました。全ての受験生が力を出し切り、中学受験の経験が将来の糧となることを願っています。
編集部　重石岳史

受験とスマホを巡る親子の「攻防戦」

　受験を控えた子を持つ親にとって、悩みの種の一つは、スマートフォンではないでしょうか。こども家庭庁が３月に公表した調査によれば、小学生の43・７％、中学生の79・９％、高校生の97・８％がスマホを利用し、平日のインターネット平均利用時間は高校生で約４時間に及ぶそうです。スマホが気になって勉強が手に付かないのではないか。親としてそんな心配が付きまといます。
　わが家でも、再来年に大学受験を控えた長男とスマホを巡る“攻防戦”が続いています。というのは数日前、長男のスマホが故障し、新たに購入を要求する長男に対し、私が「受験に集中しろ」と突っぱねているから。しかし長男も諦めず、妥結点はいまだ見えていません。

統計が解き明かす「フェイスブックはおじさんばかり」説の真相

データリテラシーは＂筋トレ＂では養えない

難しい数式は一切なし　会話形式の誌上講義ですらすら分かる

今週の週刊ダイヤモンド2024年11月30日号[990円]

特集中高一貫校&塾

週刊ダイヤモンドの見どころの最新記事

記者の目

最新号の案内2024年11月30日号

特集中高一貫校&塾

特集2武田薬品リストラ最終章

統計が解き明かす「フェイスブックはおじさんばかり」説の真相

データリテラシーは＂筋トレ＂では養えない

難しい数式は一切なし 会話形式の誌上講義ですらすら分かる

今週の週刊ダイヤモンド2024年11月30日号[990円]

特集中高一貫校&塾

週刊ダイヤモンドの見どころ の最新記事

記者の目

最新号の案内2024年11月30日号

特集中高一貫校&塾

特集2武田薬品リストラ 最終章

難しい数式は一切なし　会話形式の誌上講義ですらすら分かる

週刊ダイヤモンドの見どころの最新記事

特集2武田薬品リストラ最終章