【心理学部生・大学院生向け】統計解説。「標準偏差」についてできるだけ簡単に解説します!
心理学部あるいは心理系大学院に入学した方の中で「統計」の分野につまづく方は多いのではないでしょうか。
統計でつまづいてしまう方が学び始めた最初の方で共通してもつ疑問があります。
この記事では、「統計」の超重要部分であり、最初に出てくる関門といえる『標準偏差』について、できるだけわかりやすく解説します。
標準偏差とは?
標準偏差(standard deviation:SD)とは、簡単にいえば「データのばらつきを示す指標の1つ」です。
「データのばらつき」とざっくり言われて混乱する方も多いかもしれません。
正確には「平均値からのばらつき」といえます。
つまり、得られたデータの数値が平均値の近くにどれだけ集まっているか、あるいは、広がっているかを示す指標です。
平均値について確認しましょう
「平均」という言葉はなじみ深い方が多いと思いますが、まずは「平均値(mean)」について確認していきましょう。
平均値とは、あるデータの分布の中心や中間を示す代表値の1つで、通常の場合、特に指定がなければ算術平均を表すことが多いです。
式は以下のように表されます。
統計にはおおきくわけて、記述統計と推測統計がありますが、平均値はまず得られたデータの特徴(傾向や性質)を整理する記述統計で用いられます。
「A集団から得られたデータA’はこんな特徴がありますよ」と示すために用いるというわけです。
また、検定などを含む推測統計の前段階としても重要な意味合いをもっています。
推測統計は一般的にデータから得られる分布を用いて行われますが、この平均値と標準偏差はデータの分布図を導き出すために必要な要素です。
検定についてはこちらの記事でも解説しています🤔
公認心理師資格試験 過去問解説 問7 心理学統計①「統計的仮説検定(t検定、相関係数)」
平均値を算出する理由としては、以下のものを押さえておけばいいでしょう❗️標準偏差も概ね同じ理由になります。
平均値や標準偏差を算出する理由
- データの特徴(傾向や性質)を整理する
- 推測統計の前段階として分布図を作成する
データのばらつきとは何を意味しているのか?
先ほど、標準偏差とは、得られたデータが平均値の近くにどれだけ集まっているか、あるいは、広がっているかを示す指標だと説明しました。
もう少しわかりやすくイメージしてみましょう。
出典:正規分布がPowerPointで描画できればいいのに|Qlitaから正規分布を改編して作成
このイラストのようにそれぞれの観測値から平均までの距離を偏差といいます。
そして、標準偏差とは、この偏差の平均のことをいいます。
言い換えると、
といえます。
データのばらつきとは、それぞれの数値から平均までの距離を平均したものを示しているということですね。
標準偏差の式の意味を理解しよう
標準偏差は式では以下のように表されます。
先ほど説明したように、式の中にも「偏差」と「平均」が用いられています。
ここで次に混乱を生むのは、計算式のなかでは、「偏差」の2乗の平均の平方根(ルート)となっている点でしょう。
偏差の2乗をとるのはなぜか?
実は各観測値ー平均値までの距離である「偏差」を全て合計すると0になるというルールがあります。
そのため、「偏差」の平均も0になります。
また、「偏差」は+の値も−の値も含まれるため、+と−が混同してしまい正確な「距離」が数値として現れません。
- 「偏差」の平均は0になる
- 「偏差」は+と−の値を両方含んでいるためそのまま合計すると正確な「距離」が示されない
2乗をするとこの2つの問題が解決されるため、標準偏差の計算式では「偏差の2乗」がされます。
この平方根以外の部分、つまり「偏差の2乗の平均」のことを分散(variance)といいます。
分散と標準偏差の関係:平方根の理由は?
先ほど説明した通り、「偏差の2乗の平均」のことを分散と呼びます。
この分散には以下のようなメリットとデメリットがあります。
- メリット:数値が安定し統計的検定と相性が良くなる
- デメリット:「平均値からの距離の2乗」を取るため、数値が大きくなってしまう
この分散のデメリットを打ち消して、本来の「平均値からの距離」という単位に戻すために平方根を取るということになります。
まとめ
この記事では、大学生・大学院生がつまづきやすい統計の中から、「標準偏差」を中心として「平均値」「分散」に関してまとめました。
概念的な理解も重要ですが、計算式で混乱を生みやすいため、一度計算式から丁寧に理解してみることをお勧めします。
【平均値や標準偏差を算出する理由】
- データの特徴(傾向や性質)を整理する
- 推測統計の前段階として分布図を作成する
【平均値・標準偏差・分散とは】
- 平均値 = あるデータの分布の中心や中間を示す代表値の1つ
- 標準偏差 = それぞれの観測値から平均値までの距離の平均
- 分散 = 各観測値から平均値までの距離を2乗したものの平均
-
前の記事
【3月は自殺対策強化月間】自殺予防のために自殺の対人関係理論について知りましょう! 2021.02.22
-
次の記事
公認心理師資格試験 過去問解説 問28 産業・組織に関する心理学「F. Herzbergの2要因理論」 2021.04.28
コメントを書く