データをとった場合、まずデータの図表化という重要な作業があります。続いて、平均などを算出する、といった作業が続きます。ここでは、こうしたデータ解析の出発点となる作業について「1つの変数をどのように記述するか」という視点から説明していきます。
それでは代表値(Representative value)候補の一覧に目を向けていきたいと思います。
最近「統計的決定理論(Statistical Decision Theory)」なる概念を知りました。現段階では本当に右も左も全く解ってない状態。しかしながら、ゲームはもう始まってしまったのです。もはや後戻りなんて、決して出来ません…
続きを読む散布度基準②その1-標本分散(Sample Dispersion)…偏差^2/偏差数
*このケースは全件抽出なのでこれでOK。「二乗する」というアイディアは最小二乗法と縁が深く、広く普及している。平均値が代表値となる。
散布度基準②その1-不偏分散(Unbiased Dispersion)…偏差^2の合計/(偏差数-1)
*このケースは標本抽出なのでこれでOK。「二乗する」というアイディアは自体は最小二乗法に由来し、平均値が代表値となる。
それにつけても、何故標本分散(Sample variance)sum*1/length(x)の分母はlength(x)で、不偏分散(Unbiased dispersion)sum*2/length(x)の分母は(length(x)-1)なのでしょうか?
こういう疑問に突き当たった時は実際にシミュレーションしてみるに限ります。
続きを読む不毛を承知の上であえて挑戦してみました。