【2022年1月6日更新】図解・装飾の追加により記事内容をわかりやすく編集しました。
⭐︎この記事のレベル⭐︎
初心者 |
1.0 |
重要度 | 5.0 |
レベル | 1.5 |
こんにちは、ヤク学長です。
説得力を持ちたかったり、論証したいときの最大のハードルって「正しく数値」を読むことではないでしょうか?
そんな時に、統計学の知識が必要になってきます。
今回の記事では、文章を書くときに説得力がある数値を扱いたい、新しく論文を書き始める方が迷わず、確実に、素早く数値を扱えるようになる統計学を解説します。一連のプログラムのような形式でポイントだけご紹介しますので一緒に学んでいきましょう。
今回の記事は次のような人におすすめです
- 統計学って難しそうでどう学べば良いのか分からない
- 数値が苦手だけどなんとかしたい
- 定量的に正しく物事を判断できるようになりたい
本日のお題目:【統計学入門 基礎編】
今回紹介する【統計学入門 基礎編】は統計学を学ぶ者が必ず最初に通るものです。「必要な時間は5分」「スマホからでもOK」迷わず簡単に統計学を学べます。
今回の記事でサクッと統計学の初歩の初歩を理解してしまいましょう!
それでは、どうぞ!
第 1 章 統計学入門 基礎編
統計学のおさらい
最初に統計学の初心者の方のために全体感の簡単なおさらいです。
統計学は数値の集まりを簡単に理解するためのものです。本当は結果を理解しやすくするために作られた学問なのです!!
いつの間にか、統計学は数字も多くて難しい。余計理解できなくなったといいますが、そんなことはありません。
本当は至極、簡単なことをやっているに過ぎません。
■なぜ統計学を学ぶのか?
統計学の意味は何か
統計学とは「統一的」に計ることを目的とした学問です。
文字通りの意味ですね。
統計学にはどんな用語があるの?
統計学では一つひとつ数字が集まった「要約値」という用語を扱います。
例えば、平均値や分散、標準偏差など漢字が多く似たような言葉が多い。
統計学を学ぶとどう活かせる?
統計学とは簡単に「データを集める&分析」を行います。
このように沢山の数字の集まりを簡単に相手に説明しやすくするための「手段」として活用できます。
例えば、100個のデータが集まったとします。単にデータを眺めていただけでは、この情報は「こうこう、こういう理由である!」と言える人はいないですよね。そんな時に、解りやすくするために「平均値」と言う表現を用います。つまり、平均値は100個もあるデータを簡単に1つに集約した言葉なんです。
「平均値」が50Kgだとします。平均値は全体の個数のだいたい真ん中を表す値なので、100個のデータの1個1個はだいたい50Kgの値であると言う情報が読み取れます。
でも、「50kgぐらいです」なんて、そんなあやふやな情報はダメと言う人もいるとしたら困りますよね。
そんな時は、データが平均値からどの程度離れているかを要約する値として「標準偏差」が用いられます。ここら辺から難しいなと思われがちですが、内容は簡単です。
例えば、「標準偏差」が10Kgになったとします。すると100個のデータは大体50±10Kgの間にある。つまり、100個のデータから1つのデータを選ぶと大体40〜60Kgの間にあるということになります。
このように、100個のデータを「平均値」と「標準偏差」で要約することによって、情報が伝えやすくなりましたよね。
このように統計学は沢山のデータを簡単に情報を素早く説明しやすくするための手段なのです。
■統計学を使って「推計」するとは?
元々、紀元前3000年頃のエジプトにおけるピラミッド建設のための基礎調査や、紀元前2300年頃の古代中国における人口調査で推計学といったものが使われていました。
その後、統計学は17世紀頃に確立しました。このときの統計学が使われた調査は国税調査を研究するものとして発達したようです。その後、統計学は「確率」を取り入れて19世紀〜20世紀初頭にかけてゴールトンとピアソンによって古典統計学として体系化されました。
時代は流れ、現代の「統計学」と呼ばれるものはフィッシャーによって1925年に誕生しました。フィッシャーが「研究者のための統計的方法」と言う本を発刊し、新しい統計学が提唱されたのです。これによって、ただのデータの集まりを国家や社会全体に当てはめて考えるような推計が実現できるようになったのです。
例えば、日本人の全体の体重を測定したい場合、一人一人に体重を聞いて平均値を導き出すなんて現実的ではないですよね。近くにいる100名の体重を測定して要約値を求めて、全体の情報を推測するわけです。
この時、実際に体重を測定した100名を「標本集団」と呼び、全体の集団のこと「母集団」と呼びます。
■データとは何か?
「データ」とは、世界の何でも数値で切り取ったものです。
大きさ、速度、言葉、気持ち、表情、重さ、動きが存在する。
■データをどうやって要約していけば良いか?
要約の手順
手順を要約したい時には、簡単な要約手順をご紹介します。
①データをグラフ化する
②要約値を出す
以上です。
えっと思われた方もいらっしゃるでしょうが、グラフさえ書ければ、あとは要約するだけなのです。今となってはグラフはExcelでもなんでも簡単に書けますので、あとは要約するだけです。
①データをグラフ化する
データを見やすいようにグラフ化する。グラフ化することで違いが分かりやすくなります。グラフには折れ線グラフや円グラフ、棒グラフや度数分布表を使います。
今回は、度数分布(例数分布)を用いたとして解説します。
横軸にデータの値、縦軸にデータの例数をとってグラフ化するだけです。
なぜ度数分布図と呼ばれる?
数学の世界では「例数」=「度数」と呼びます。
グラフ化することでデータを感覚的に把握することができます。グラフを見ることで要約値がなくてもある程度の情報得ることができるようになります。
【正規分布】(=ガウス分布)
通常はデータの「度数分布」は真ん中を境に左右が対象のグラフになります、この分布を「正規分布」と言います。あるときは、ガウス分布と呼ばれることもあります。
②要約する
グラフが完成したらあとは要約するだけです。そのため、要約値の解説です。
まずは、メインの3つの要約値から。
要約値の解説
【平均値】
全ての数値を平らに均した値
欠点:極端に大きいor小さい値があると引っ張られる。
【中央値】
全ての数値の真ん中にくる値
欠点;極端な値があっても影響がない
【最頻値】(モード)
最も度数(例数)の多い値
欠点;極端な値があっても影響がない
正規分布では平均値と中央値と最頻値がすべて同じ値になります。
【偏差】=ばらつき
統計学でばらつきのことを偏差と呼びます。個別のデータから平均値を引いた値として算出される。
【平方和】
偏差の平方を合計したもの「平方和」
【分散】
平方和を例数で割って平均したVのことを「分散」という。
ばらつきの要約値は統計学的には分散である。
分散が大きいとバラツキが大きくなってしまう。(数字自体にはあまり意味はなく、グラフで判断する)
【標準偏差】(SD)
分散を平方根し単位を直したものを標準偏差という。
標準偏差はばらつきの標準と言われる。正規分布では約7割が平均± 標準偏差内に収まる。
正規分布と標準偏差(SD)の関係
グラフで見ると正規分布では標準偏差は中心の平均値から変曲点までの距離に相当する。
そして平均値±標準偏差の間に全データの約68%が含まれ、平均値±2標準偏差の間に全データの約95%が含まれる。
※正規分布の仕組み
正規分布は例数、平均値、標準偏差によって分数の形が完全に決定してしまう。このためこれら3つの値によって全部の情報を要約することができる。つまり、例数によってデータの規模を把握し、平均値によってデータの中心位置を把握、標準偏差によってデータのばらつき具合を把握するのです。
【母数】
「標本集団」から求めた標本と標準偏差は「標本平均」と「標本標準偏差」といいます。これら、標本集団の要約値から母集団の様子を記述する要約値のことを「母数」といいます。このため、母集団の平均時=母平均をμで表します。母集団の分散つまり母分散はσ2で表します。
標本集団は母集団の代表であるから標本集団の要約値と母集団の要約値はほぼ等しい。
このため、母平均は標本平均で近似できるが、母分散は標本分散で近似できない。次のようにnで割るところをn − 1で割って計算することになる。
なぜ(n− 1)で割って近似するのかというと、100人の標本集団において考えると、99個(自由度)は勝手に変動できる(独立変数)が最後の1個は勝手に変動できずに決まった値(従属変数)になってしまうからnから−1します。
【不偏分散】(SE)
標本集団のデータから母分散を推測するときは、自由度で割った式が用いられる。そして、正確には不偏分散と呼ばれている。「不偏」とは偏らないと言う意味である。不偏分散によって母分散を推定すると偏らずにうまく近似できる。
まとめ
今回は、統計学の基礎となる歴史と要約値について紹介しました。
今回の内容をおさらいしますと次の通りです。
最初の壁となる統計学の基礎を学習してまいりましたが、ハードルが相当下がったと感じていただけたでしょうか。全く苦にならないレベルと感じていただけたら幸いです。
これから統計学を始めたい初学生の方の登竜門とも言える内容ですので、ぜひご活用ください!
以上、最後まで記事を読んでいただきありがとうございました。