macroscope

( はてなダイアリーから移動しました)

箱ひげ図、探索型データ解析

【この記事は まだ 書きかえることがあります。 どこをいつ書きかえたか、必ずしも示しません。】

- 1 -
わたしは、数量の集まりであるデータを扱うときには、データをグラフにすることが基本的作業だと思っている。

そのときに使われる手法のひとつに、「箱ひげ図 (box-and-whisker plot)」というものがある。データのヒストグラム(度数分布図)を簡略化したようなものの一種だ。近ごろ、この手法の名まえを目にしたのだが、それとともに、この手法は、なじみのある人もいるが、まったくなじみのない人もいるものだ、ということに気づいた。わたしは、これはよい手法であり、もっと使われるべきだと思っている。しかし、自分がデータを見た結果を発表する際に使ったことは、まだなかったと思う (あったとしても忘れている)。

箱ひげ図という、大まかに見れば同じ手法のうちでも、「ひげ」と呼ばれる線をどこまでひくかについては、いくつかの流儀がある。箱ひげ図を使うときは、それを明確に示す必要があると思う。

- 2 -
箱ひげ図は、統計学のうちで、「探索型データ解析」(exploratory data analysis, EDA)という発想の流れの中で出てきた技法だ。

ここでは、EDAを、そしてそのひとつの手法である箱ひげ図を、紹介しようと思うのだが、客観的な紹介ではなく、たまたまわたしが出会った方向からの紹介であることを、おことわりしておきたい。

わたしは統計学を体系的に勉強しておらず、地球科学の勉強や研究の過程で必要になった手法について勉強してきた。結果として、統計学の典型と思われる分野については苦手のままであり、探索型データ解析についてだけは同業の他の人よりはたぶん詳しいが2000年ごろ以後あまり更新されていない。

データのグラフ化は、近代の学問のうちで早くからあったことはあったが、おおぜいの人が実践するようになるのは新しいことだ。1950年代ごろから電子計算機が発達したが、その出力装置は数字をプリントするものだった。科学研究者の多くが計算機による作図を使えるようになったのは、1980年ごろからだろう。

わたしは、地球科学の専門的勉強をはじめた当初(1980年ごろ)から、データを図化することの重要性を、統計学の重要性とならんで、知っていた。統計学を勉強しようと思って読んだ 竹内・大橋(1981)の本(の中の周辺的な話題)で、exploratory data analysis という学派のようなものがあることを知った。そういう題名の本(Tukey, 1977)もあるというので、注文した。本はオレンジ色のハードカバーで、背表紙には「EDA」とだけ書いてある。著者は John Tukeyだ。わたしはすでに、時系列データのスペクトル解析のBlackman-Tukey法や、数値計算の高速フーリエ変換(FFT)のCooley-Tukeyアルゴリズムについては知っていたのだが、同じ人の著作であることに気づくのに、しばらくかかった。同じ人ならば、時系列データを扱う話もあると期待したのだが、EDAの本にそれはほとんどなかった。

Tukey (1977)のEDAの本の図はほとんど手がきだった。筆算や卓上計算機、ときには電子計算機のラインプリンタ出力から、方眼紙にプロットして、トレーシングペーパーに線をひき、清書したにちがいない。とてもてまのかかる作業だ。読みながら、よい手法だと感じても、同じようにまねするのはめんどうだ。しかし、計算機を使って作図しようとしても(1980年代に使えた装置では)思うようにいかない。結果として、わたしは、読んで理屈のうえでは賛同しても実践しないことが多くなってしまった。

わたしは続いて Cleveland (1985)のグラフのかきかたの本を読んだ。TukeyはPrinceton大学に所属していたが、Bell Laboratories (Bell研)も兼任していた。Bell研ではUnixやC言語とともに統計用の「Sシステム」(のち「S言語」)が開発されており、S上でTukey流のEDAの発想による機能も実装されていることを知った。しかし S は有料で、当時のわたしにはそれを買うお金を工面できなかった。それから15年ほどたって、S とほぼ同じ仕様のオープンソースソフトウェア R が使えるようになった。わたしは R を使いはじめてはいるが、ごく初歩的な作図機能だけであり、まだEDAの機能を使うに至っていない。

- 3 -
「データ解析」と「統計学」とは同じではないが大きくかさなっている。Tukey の本で exploratory (探索型) と対照されていたことばは confirmatory (確証型)だった。統計的仮説をデータを使って検定することが、確証型データ解析の典型だといえると思う。EDAの用語ではないが、統計学を記述統計と推測統計とにわけることがある。その分類では、EDAは記述統計のうちに はいるだろう。EDAは、現にある数量の集まりの性質を見るのであって、それをサンプルとみなして母集団の性質を推定することはねらっていないのだ。

ただし、EDAでは、データを「探索」するために、データを加工することはある。2変量の関係を見るにはまず散布図を使う。そして、散布図上の点の分布が直線ではなく曲線で近似されると見えるときには、その曲線が直線に近づくような変換関数(平方・平方根・対数・指数関数など)をさがして、変換して表示しなおしてみる。また、データ点群が直線にだいたいあてはまるならば、直線からデータ点までの残差をあらためてグラフにしてみる。そのような作業の動機は、現にある数量の集まりのもつ特徴をなるべく詳しく記述したいのであって、数量の裏にあるメカニズムを解明することは(作業する人の希望としてはあると思うが) EDAの作業自体の目標としてはねらっていない。

- 4 -
ひとまず、1変量の有限個の数量データの集まりを扱うことを考える。要素の個数がちいさいうちは、要素をひとつひとつ見ることもできる。要素の個数が大きくなった場合には、まずヒストグラムを見るべきだ。ところが、そういうデータ群がたくさんあると、ヒストグラムをたくさんならべても見わたしにくい。ヒストグラムを要約した表現がほしくなる。

EDAでは、データの要約値として、平均値や標準偏差(=分散の平方根)よりも、順位統計量を優先する。平均値や分散には、「はずれ値」の影響が強く出すぎるからだ。

はずれ値の影響を受けにくい統計量を、robust statistics という。日本語では「頑健な統計量」か、かたかな語で「ロバスト統計量」だろう。

データ値を数値の順にならべて、順位が全体の1/2になるところが中央値(median)、上からと下から それぞれ全体の1/4になるところが四分位(quartile)だ。

【Tukey (1977)のEDAでは、四分位にあたるものを、hinge [ヒンジ]という。そして、hingeの計算方法を詳しく指定していて、それは四分位の標準的な計算方法とちがうらしい。要素の個数が4の倍数+1ならば、四分位は要素の値をひろえばよいのだが、そうでないと、どちら側をとるか、あるいは比例配分するか、という問題が生じる。定義がずれているのはそのような細部であって、大局的にはhingeは四分位と同じものと言ってよいと思う。ただし、ひとつの作業の内では一貫した定義を使う必要があるだろう。】

上側四分位値と下側四分位値との差が、四分位幅(quartile range)で、データ値のひろがりに関する頑健な統計量として、いちばん基本的なものだ。

図化ではないが、ヒストグラムの要約情報としては、最小値、下側四分位値、中央値、上側四分位値、最大値からなる「5数要約」(five-number summary)が基本だろう。

広い意味の「箱ひげ図」のうちにはこの5数要約をそのまま図化したものもある。(ふたつの四分位値が両端となるように箱をかき、最小値と最小値に達する ひげをかく。) 便宜上これを「5数要約型の箱ひげ図」と呼ぶことにする。

- 5 -
Tukey (1977)のEDAの箱ひげ図の仕様は、(四分位とhingeを同一視すれば) 箱については5数要約型と同じだが、ひげについてはちがっている。ひげは、四分位値から、四分位幅の1.5倍だけのばすことになっている。ただし、そうすると最小値・最大値をこえてしまう場合は、最小値・最大値で止める。そして、もし ひげの範囲の外にデータ値があれば、それを、ひげとは別に、「はずれ値」(outlier(s))として、点(dot、実際には小さい まる)で個別に表示する。

一般に、データ群について、「分布のすそ」と「はずれ値」を区別して認識したいという需要はたしかにある。しかしその区別の一般的基準はない。

Tukeyは、箱ひげ図の仕様を決めるにあたって、何かの種類の対象についての経験をもとに、四分位幅の1.5倍までを「すそ」とみなすのが適切だと判断したのだと思う。

しかし、わたしはEDAの本を読んだとき、1.5倍という値の根拠を見つけることができなかった。(わたしの読みおとしでなければ)「1.5倍」は あたまごなし に出てきたのだ。Tukeyがそれまでに経験したものと別の種類のデータに対しては、適切な数値はちがってくる可能性もあると思う。わたしは合理的根拠のないルールに従うのがきらいだから、「1.5倍」に合わせる気がしなかった。しかし、わたしには1.5倍にかわる数値を根拠にもとづいて示すこともできない。それで、わたしはTukey流の箱ひげ図を実践する気をなくしたまま、今に至っている。

すぐれた手法である箱ひげ図があまり使われないのは、わたしだけでなく多くの人が このように迷っているからだろうか? もしそうだとしたら、やるべきことは、「すそ」と「はずれ値」の区別はどのように決めるのが望ましいのか、その区別を近似的に手ばやくやる方法として四分位幅のなん倍かで切るというのは適切か、その「なん倍か」は1.5倍でよいのか、を、まじめに検討して、勧められる手法の指針を、出版物として出すことだと思う。わたしはその検討を呼びかけるほどの元気はないが、どなたかが呼びかけてくださって、わたしにできることがあれば、参加するかもしれない。

- 6 -
いずれにせよ、箱ひげ図は、Tukey流、5数要約型、さらにどちらともちがう流儀の可能性もあるので、何を示したのかを読者に伝えるためには、図の説明文(caption)にその場での ひげ の定義をまぎれなく書いておく必要がある。(「Tukey 1977 "EDA" による」といった形でもよいだろう。) これは、現状への不満だけではなく、これからグラフを発表するみなさんにお願いしたいことだ。

- 7 -
この件をきっかけに思いあたる一般論だが....

ある専門の手法や用語体系の発達に大きく貢献した人(必ずしも創始者ではない)がいる場合、その人の様式に従うか、それよりもあとの合理的考えに従うかで、正統性が分裂することがある。

へたをすると、両派のどちらに従っても他方からの批判がこわくて、その方法がなかなか使われなくなってしまうかもしれない。

そういう構造的問題に気づいたら、その構造があることを共通認識にして、一方の様式に従うことを強制しない (たとえば、査読済みで出版されるための条件にしない) のがよいのだと思う。(各人が、自分はこちらの様式がよいと思う、という価値判断を述べるのはかまわない。そのようにして、事実上の共通様式が、いわば自然選択的にさだまっていくのがよい。)

文献

  • William S. Cleveland, 1985: The Elements of Graphing Data. Monterey CA USA: Wadsworth. [読書ノート (他の版の紹介を含む)]
  • 竹内 啓, 大橋 靖雄, 1981: 統計的推測 -- 2標本問題。(数学セミナー増刊, 入門「現代の数学」11)、 日本評論社。
  • John W. Tukey, 1977: Exploratory Data Analysis. Reading MA USA: Addison-Wesley.
  • Howard Wainer, 2005 (ペーパーバック版 2008): Graphic Discovery. Princeton University Press, 192 pp. [読書ノート]