macroscope

( はてなダイアリーから移動しました)

グラフの軸をゼロから始めないのはうそつきか / そろばんグラフのすすめ

数量をあらわすグラフの「うそ」が、たびたび問題になる。対象となる数量と画面上の長さなどの数量との対応がまちがっている場合もある。しかし、対応は正しくてもまずいとされる場合がある。

そのうちで、たびたびむしかえされる議論に、「軸の原点がゼロから始まっていないグラフはうそつきだ」というものがある。これは、英語圏でも日本語圏でも、Huff (1954)の本を根拠としていることが多いようだ。

例を作ってみる。ある人の年俸が去年は580万円、今年は520万円だったとする。横軸に年、縦軸に金額をとって、縦軸の範囲を500万から600万として、棒グラフをつくると、今年の年俸を示す棒の長さは去年のものの4分の1になるだろう。見た人は、年俸が4分の1になったような印象をもつかもしれないが、実際は去年の値に相対的には約10%減ったのだ。

縦軸の原点は数量ゼロにとらなければならない、という態度をとると、2本の棒の長さが1割だけ違うグラフができる。年俸が減ったことを訴えたい人にとっては、むしろこちらのほうが「うそ」に思えるかもしれない。

この難問からの出口は、原点をゼロにするべきだという理屈は棒グラフという方法についてのものであって、軸の数値範囲にゼロを含めなくてもよい他のグラフ表現方法がある、ということだ。

わたしのこの問題に関する理解は、Cleveland (1985)の本に基づいている。(この本の日本語版には不満があったが、日本語版が売られなくなってしまったことにはもっと不満がある。この本の認知科学的な理屈には今から見ると修正が必要なところがあるかもしれないが、基本はもっと知られてほしいと思う。)

棒グラフを人が読み取る際には、人は、棒の頂点の位置を知覚することもあるが、棒の長さを知覚することもある。棒が数値ゼロから始まっていないと、人が棒の長さ(の棒どうしの比率)を読みとった際に、棒が示す対象の数量の比率についてまちがった印象を与えるので、まずいのだ。

棒に切れめを入れることは、長さを読み取ることに対する警告になるが、あまり強い信号ではない。どうしても軸の原点をゼロにしない棒グラフを使うことが避けられないときの便宜的対策にはなるが、根本的対策ではない。なお便宜的対策としても、軸にだけ切れめを入れたのではだめで、対象となる全部の棒に入れなければならない。

比率にすると小さい数量の差を見たいときは、棒グラフを避けるべきなのだ。

Huffの主張は、折れ線グラフの場合も軸はゼロから始めるべきだ、ということだったようだが、Clevelandに従ってわたしは、折れ線グラフではその必要はない、と主張したい。さきほどの年俸の例でも、折れ線グラフならば、数量の範囲を500万から600万までにすることは正当だ。

ただし、折れ線グラフは、数量のつながりを意識させる。つなげることが不適切なものには向かない。

また、折れ線グラフに関する人の知覚としては、線のとおる点の位置よりもむしろ、線の傾きが重要になる。折れ線グラフという方法は、傾きが、対象とする数量にとっても、適切な意味をもっている場合に限って有効なのだ。

少し理屈っぽく考えてみると、折れ線グラフが有効なのは、横軸(横と縦が逆でもよいのだが、さきほどの例の「年」のような軸を仮に横とする)が時間または空間などの座標をあらわす軸で、横軸上の順序に意味があり、横軸上の間隔にも意味があることが前提となる。また、データ点間の数値を線で内挿することが(必ずしも最適な推定ではないとしても)大きなまちがいでないことも期待される。(内挿してはまずいことが起こっているかもしれない区間が少しだけある場合は、その区間だけ折れ線を切断するという対策がとれるが。)

しかも、傾きといっても、対象となる数量にとって意味があるのは、横軸の増分に対する縦軸の増分の割合、つまり角度のタンジェントであることが多いのだが、人は角度を読み取りがちだ。折れ線グラフは、折れ線の傾きが非常に大きくなる場合には、向かないのだ。

棒グラフも折れ線グラフも向かない場合はどうするか。とくに、横軸が連続的座標ではないが、縦軸の数量の範囲をゼロを含まないようにしたいばあいはどうするか。

Cleveland (1985)はdot plotという方法を紹介している。
【この本には、dot plotとpoint graphが出てきて、日本語ではどちらも「点グラフ」になりうるので、まぎらわしい。どうやら、pointは原理的には大きさのない点(実際には小さい記号)だが、dotはかなり大きい記号でその中心位置の点を示すもののようだ。】
まず、棒グラフならば棒をかく方向(Clevelandの例では横なのだが)に、軸から軸までにわたる細い線をひく。Clevelandの本ではこの線を点線にしている。そして、この線の上で、棒グラフならば棒の先端に相当する位置にdotを置く。このようにして、読み手にdotの位置を知覚させながら、軸からそこまでの長さを知覚させることを避けるのだ。

この本のClevelandは、どんな場合にも、棒グラフを積極的には勧めない。Dot plotというよりよい方法があるのだから、棒グラフという技法は不要なのだ。ただし、数量のゼロが明確で軸をゼロから始められる場合は、dot plotの細線をdotの位置までで止める形を使うことがある。これは、棒グラフと同様な長さの知覚を副次的に使っていると見ることもできる。

さて、このdot plotを思い出しながら、ふと思いついた。

このdot plotはそろばんに似ている。(わたしは子どものころに、もっとdot plotに似た形のおもちゃがあった記憶があるのだが、それも、そろばんを模したものだったかもしれない。) 日本ならば、もはやそろばんを使う人は少なくなったが、そろばんに関する記憶はあちこちに残っているだろう。「そろばんグラフ」として普及できるのではないか。

ここではClevelandの本の例とは違って、縦に棒を立てるような棒グラフが使われていた状況を考えよう。棒グラフの棒のかわりに串をかいて、串にのった「たま」の位置で数量をしめす。誤差の大きい数量については、Clevelandのdot plotと同様に、まんまるの「たま」がよいが、誤差の小さい数量の場合は、横線だけでは弱くなってしまうので、やや横長で横の端がとがった「たま」をかく。まさに近世日本で使われていたそろばんのたま(の断面)の形がよいと思うのだ。

文献

  • William S. Cleveland, 1985: The Elements of Graphing Data. Monterey CA USA: Wadsworth. [読書ノート]
  • [同、日本語版] W. S. Cleveland 著, 渡部 宏邦 訳 (1987), 科学技術者のためのグラフ処理技法. 日刊工業新聞社。
  • Darrell Huff, 1954: How to Lie with Statistics. New York: W.W. Norton.
  • [同、日本語版] ダレル・ハフ 著, 高木 秀玄 訳 (1968): 統計でウソをつく法。講談社ブルーバックス.