「諸概念の迷宮(Things got frantic)」用語集

本編で頻繁に使うロジックと関連用語のまとめ。

【記述統計学情報倉庫】代表値( Representative value)設定について。

f:id:ochimusha01:20190923041709g:plain

データをとった場合、まずデータの図表化という重要な作業があります。続いて、平均などを算出する、といった作業が続きます。ここでは、こうしたデータ解析の出発点となる作業について「1つの変数をどのように記述するか」という視点から説明していきます。

それでは代表値Representative value)候補の一覧に目を向けていきたいと思います。

 01.基本的諸元summary()関数等を使えばまとめて参照可能だが、xtable関数への内容引き渡しなどが上手くいかない。

  • 最小値Min
  • 第 1 四分位点1st Quartile
  • 中央値Median)…分布の中心にあるデータの数値。候補データが複数存在する場合にはその平均
  • 平均Mean)…データの各数値の和をデータ数で割ったもの。
  • 第 3 四分位点3rd Quartile
  • 最大値Max
  X Y Z
X Min. :-3.25519 Min. :-3.0304 Min. :-2.3080
X.1 1st Qu.:-0.54374 1st Qu.:-0.8120 1st Qu.:-0.6748
X.2 Median : 0.09669 Median :-0.1851 Median : 0.1189
X.3 Mean : 0.06226 Mean :-0.1613 Mean : 0.1013
X.4 3rd Qu.: 0.68266 3rd Qu.: 0.5401 3rd Qu.: 0.8210
X.5 Max. : 2.19588 Max. : 1.9791 Max. : 3.5016

02.散布度基準①-範囲Range)…最大値(Max)-最小値(Min)。度数分布Frequency Distribution)の表現形態の一つたるヒストグラムhistogram)では「階級(Class)の最大値-階級(Class)の最小値」と計算される。

*使い勝手が悪いせいか使用頻度は今一つ。

データの分布とヒストグラム・密度推定

区切り幅は『適当に選択される』が『適切に選択される』わけではない.というのも,hist() のデフォルトは 『データの範囲を log2n + 1 ( n はデータの個数) 個の階級に分割して各階級に属するデータの数を棒グラフとして作図する』という Sturges (1926年!!) の方法を用いているため,まず平滑化をし過ぎる嫌いがあり,さらにデータが正規分布 (正確には二項分布) から遠ざかれば遠ざかるほど当てはめが悪くなる。

そこでパッケージ MASS にある関数 truehist() (この関数では Scott (1992) が提唱した方法を用いている) や,パッケージ KernSmooth にある関数 dpih() (この関数では Wand (1995) が提唱した方法を用いている) を用いることで,より正確なヒストグラムを描くことが出来る。

統計言語Rによる実装例truehist

library(MASS)
x <- rnorm(1000) 
truehist(x) 
# hist(x, breaks="Scott") でも可。hist() の breaks には他に Sturges と FD を指定することが出来る。

f:id:ochimusha01:20191003082504p:plain

統計言語Rによる実装例dpih

library(KernSmooth)
x <- rnorm(1000)
h <- dpih(x)
bins <- seq(min(x)-0.1, max(x)+0.1+h, by=h)
# bin には区切り幅の点を表すx座標を指定
hist(x, breaks=bins,col=rgb(0,1,1))
# bin が等差数列でなければ区切り幅の横幅もバラバラな長さになる。

f:id:ochimusha01:20191003083150p:plain

03.最頻値(Mode)…大数の法則LLN…Law of Large Numbers)の影響を色濃く受ける。

f:id:ochimusha01:20191002222245g:plain
N=100の場合揺らぎも激しい
f:id:ochimusha01:20191003035231g:plain

N=100000の場合ほとんど揺らがない

f:id:ochimusha01:20191003051742g:plain

04.偏差Deviation)…データの各数値より、その平均を引いた残り標本分散Sample Dispersion)/不偏分散Unbiased Dispersion)、標準偏差Standard Deviation)/平均偏差Mean Deviation)、Z得点Z Value)/偏差値Deviation Value)などの算出に使われる。
*定数項を除いて分布の中心を原点に戻す効果がある。それ自体が代表数に選ばれる事はない。

05.散布度基準②-標本分散Sample Dispersion)/不偏分散Unbiased Dispersion)…状況によって使い分けるのが正しいが、結果として不偏分散が広まる。

何故、不偏分散はN-1で割るのか?

f:id:ochimusha01:20191003114353p:plain

  • 標本分散Sample Dispersion)…偏差^2の合計/標本数
  • 不偏分散Unbiased Dispersion)…偏差^2の合計/(標本数-1)

06.散布度基準③-標準偏差Standard Deviation)/平均偏差(Mean Deviation)…状況によって使い分けるのが正しいが、結果として標準偏差が広まる。

  • 標準偏差Standard Dispersion)…分散の平方根
  • 平均偏差Mean Deviation)…偏差の絶対値の平均
    知名度は今ひとつ。データの中央値が代表値となる。

07.Z得点Z Value)/偏差値Deviation Value)…言葉としての「偏差値」が20世紀の受験戦争以降一般にも定着したが、その過程で内容についての誤解も広がった。

ちなみに偏差Deviation)が元来備えていた分布はそのまま維持されるのです。

これ実に興味深い指摘…