macroscope

( はてなダイアリーから移動しました)

「サンプル数」

【この記事は まだ 書きかえることがあります。 どこをいつ書きかえたか、必ずしも示しません。】

- 1 -
世の中で、統計によって得られた数値について議論するとき、「サンプル数」や「標本数」という表現が使われることがよくある。

そうすると、そこに、統計学者から指摘がある。そこで使われた「サンプル数」という用語はまちがいで、「サンプルサイズ」と言うべきだ、ということだ。

【なお、わたしは統計学用語として正しい意味で「サンプル数」あるいは「標本数」ということばが使われた実例に思いあたらない。統計学の教科書にあったかもしれないが、思い出せないのだ。】

統計学のたちばで書かれた文章でなくても、統計が出てくる文脈で、「サンプル数」や「標本数」という用語を統計学用語とちがう意味で使うことはしないほうがよいと、わたしも思う。

しかし、わたしは「サンプルサイズとせよ」に従えないと思うことがある。標本の構成要素である個物は、それぞれ、大きさを持っている。(大きさは、身長(長さ)や体重(質量)などの連続量のこともあれば、家族の人数のような離散量のこともあるのだが。) 具体的なサンプルの話題で、「サイズ」といわれると、そういう個物の大きさをさすのかと思いかけて、それでは意味が通じないので、とまどってしまうのだ。

そこでわたしが使う表現は、「標本の要素数」といった、にえきえらないものになる。英語ならば、number of elements in a sample だろうと思うが、この element(s) という用語はうまくないと思う。かといって item(s) のほうがよいとも思えない。日本語の「要素」は、かろうじてがまんできると思う。

- 1X [2018-08-13 追加] -
「サンプルのサイズ」という表現からわたしが連想しがちなのは、もともと空間に連続分布する量について、あるいは離散的なものごとだが個別のものごとの位置はこまかすぎてなんらかの空間的なまとめをしないとあつかいきれない場合に、どのくらいの空間的なまとまりで考えるかだ。たとえば日本の行政からくるデータならば、それぞれの都道府県についての集計をするか、それぞれの市町村についての集計をするか、などの選択がありうる。このような問題は、「粒度 [りゅうど] 」ということばを使った表現があることを、わたしは(学生のときではなく研究者になってだいぶたってから)知った。「集計単位」でよい場合もありそうだ。ただしわたしが(個人的言語感覚で)使いたくなる「サイズ」をそのまま「粒度」や「集計単位」でおきかえられるわけではなく、複数の語で構成された表現を組みなおす必要がある。

- 2 -
統計学で「サンプル」という表現は、現にあるデータ自体について考えたいのではなく、それを使ってもっと多くの要素をもつ母集団の性質を推測しようとする、推測統計の発想を背景にしているだろう。

純粋な記述統計ならば、「サンプル」という用語は不適切なのだろう。その場合には、データの集まりをさすには、どんな用語が適切なのだろうか?「データの集まり」と言ったのでは、さまざまな複雑さの構造がありえて、そのうち何をさすのかわからなくなるだろう。

また、しろうとがデータをとって統計処理をはじめるとき、記述統計をやろうとしているのか、推測統計をやろうとしているのか、不明確なことが多いと思う。その場合は、どういう用語が適切なのだろうか?