「諸概念の迷宮(Things got frantic)」用語集

本編で頻繁に使うロジックと関連用語のまとめ。

【記述統計学情報倉庫】代表値( Representative value)設定について。

f:id:ochimusha01:20190923041709g:plain

データをとった場合、まずデータの図表化という重要な作業があります。続いて、平均などを算出する、といった作業が続きます。ここでは、こうしたデータ解析の出発点となる作業について「1つの変数をどのように記述するか」という視点から説明していきます。

それでは代表値Representative value)候補の一覧に目を向けていきたいと思います。

続きを読む

【推定統計情報倉庫】平均値(Mean)、中央値(Median)、最頻値(Mode)を平等視する「統計的決定理論」?

f:id:ochimusha01:20191003145013j:plain

最近「統計的決定理論Statistical Decision Theory)」なる概念を知りました。現段階では本当に右も左も全く解ってない状態。しかしながら、ゲームはもう始まってしまったのです。もはや後戻りなんて、決して出来ません…

続きを読む

【推定統計情報倉庫】標本分散(Sample variance)と不偏分散(Unbiased dispersion)

散布度基準②その1-標本分散Sample Dispersion)…偏差^2/偏差数
*このケースは全件抽出なのでこれでOK。「二乗する」というアイディアは最小二乗法と縁が深く、広く普及している。平均値が代表値となる。

散布度基準②その1-不偏分散Unbiased Dispersion)…偏差^2の合計/(偏差数-1)
*このケースは標本抽出なのでこれでOK。「二乗する」というアイディアは自体は最小二乗法に由来し、平均値が代表値となる。

それにつけても、何故標本分散Sample variancesum*1/length(x)の分母はlength(x)で、不偏分散Unbiased dispersionsum*2/length(x)の分母は(length(x)-1)なのでしょうか? 

f:id:ochimusha01:20191003114353p:plain

こういう疑問に突き当たった時は実際にシミュレーションしてみるに限ります。

*1:x-mean(x)^2

*2:x-mean(x)^2

続きを読む

【推定統計情報倉庫】度数分布(Frequency distribution)と最頻値(Mode)の扱いについて。

f:id:ochimusha01:20190923041709g:plain

近世以降の近似計算方法の発達もあって、代表値Representative value)については例えば既にπ=3.141593sqrt(2)=1.414214といった約束事が先行して存在し、コンピューターはこういう数字をある種の定数として扱う訳ですが、例えば…

続きを読む