macroscope

( はてなダイアリーから移動しました)

新型コロナウイルス患者の東京都の市区町村別分布を見る (1) 4月3日まで

【まだ書きかえます。どこをいつ書きかえたか、かならずしもしめしません。】
【この記事の図を、患者数のデータが更新されるのにあわせて更新することは予定していません。[2020-04-07の記事]で4月6日までの図、[2020-04-10の記事]で4月9日までの図をつくってみました。またやるかどうかは気まぐれです。あしからず。】
【この記事は、地理情報処理について教えることのあるたちばから、空間分布を作図してみる方法の教材として書いています。ただし、模範的な例ではありません。わりあい初歩的なところで試行錯誤している例です。】

- 1 -
2020年4月1日、東京都は、新型コロナウイルス感染症の患者の、東京都のこの日までの累計人数のほかに、市区町村別の3月31日までの人数を発表した。(蛇足ながら、東京都の「区」は、市と横ならびの基礎地方自治体である。) 【わたしは「市区町村」と「区市町村」とを区別していない。わたしの習慣は「市」からはじまる形だが、東京都の用語は「区」からはじまることが多く、それを参照するばあいはそれにならった。】

これが、報道で、見出しのうちに「世田谷区が最大」などという表現をふくむ形でつたえられた。(わたしは、新聞やテレビなどの報道機関のうちどこがこの表現をしたか、たしかめていないが。) それは、世田谷区の危険度が高いというふうに読める。それに対して、世田谷区は人口がおおいから患者がおおくなりがちなのであり、人口あたりで見るべきだという意見が出てきた。実際に23区について人口で割った数値を示した人もいた。人口あたりの患者数で見れば、最大は港区なのだ。

23区の人口あたりの患者数 (ここだけのかりの表現として「患者わりあい」とする)を見て、つぎのような個人的感想がきかれた。

  • 患者わりあいが高いのは、外国との行き来が多い地域だろう。
  • 患者わりあいが高いところと、所得が高いところの分布がにているようだ。ここでは「貧しい地域で感染症がはやりやすい」という構造は見えていない。
  • 患者わりあいが高いところが、都心のターミナル駅からのびる鉄道路線にそってひろがっているのではないか? 日本の大都市の人びとはおもに公共交通機関で移動するから、そういう特徴があってもふしぎはない。

しかし、地図をつかって分布を見て言っているようではなかった。

- 2 -
わたしは、これを地図にしてみることにした。

空間分布する数量を地図上に表示してみることは、わたしの本業だ。ただし、自然現象の数量をあつかってきた。人間社会の数量はほとんどあつかっていない。だから、これまで、行政区画ごとの数量を作図してみたことがほとんどない。そのような作業に関するかぎり、わたしは、初心者とはいえないものの、初級者にすぎない。

行政区画別の数量の表示の方法としてよく使われるのは、地図上で行政区画をあらわす図形(多角形)ごとに、色や模様でぬりわけることだ。(この方法がいまの目的に適切かという疑問は、あとで論じる。) それをするためには、行政区画の境界線を構成する点の緯度・経度の情報 (便宜上「空間座標情報」とよぶ) と、それをつかって地図を作図するソフトウェア (「GISソフトウェア」とよばれることが多い。GISは「地理情報システム」の略である) が必要になる。

わたしはちょうど、自分のパソコンで MANDARAというGISソフトウェアをちょっとつかってみたところだった。MANDARA は、谷 謙二さん (埼玉大学、地理学)がつくって、ウェブサイト http://ktgis.net/mandara/ で無料配布しているソフトウェアで、MS Windowsのパソコン上で動く (利用時にネット接続は必要ない)。谷さんはその使いかたの本も複数出している。わたしは次の入門書を参照した。

  • 謙二, 2018: (フリーGISソフト) MANDARA 10 入門。古今書院, 122 pp. ISBN 978-4-7722-8118-8.

ありがたいことに、MANDARAの配布パッケージには、日本の市区町村境界の空間座標情報もふくまれている。

【MANDARAは、メニューなどがすべて日本語である。日本語圏内の教育用にはむいていると思うのだが、わたしは外国の人や外国語話者と技術を共用したいこともあり、そのためにはほかのソフトウェアをつかう必要があると思う。その候補としては、(オープンソースであること、教材整備があちこちで進められていることなどの理由で) QGIS がよさそうだと思っている。もうひとつの可能性として、R の上で動くパッケージをつかうことも考えられる。ただしまだ自分ではどちらにも手をだしていない。】

- 3 -
東京都から、4月4日に、あたらしい報告が出た。

東京都の、新型コロナウイルス感染症に関するまとめのサイトは、ここにある。

市区町村別の人数は、そこではなく、そこからリンクされた、東京都防災ホームページの下の、つぎのページにある。

これのしめす主要な情報は東京都全体の 4月4日 18時30分時点の累積患者数だが、「参考」として、「区市町村別患者数 (都内発生分) (4月3日現在の累計値)」がふくまれている。

患者とむすびつけられた「区市町村」が、住所なのか、発生が発見された場所なのか、などの説明は、直接ここにはない。わかったら補足したい。

区市町村別の値を合計すると、593人 となる。そのほかに「都外」が22人、「調査中」が158人。この「調査中」には「永寿総合病院関連 140を含む」とある。(永寿病院のぶんはわざと区市町村に分配していないのだろうと思う。) 同じ資料にある、東京都全体の4月4日現在の累積の患者数は891人だが、「本日判明分」をひくと773人となり、第148報にある3日現在の数値と同じだ。区市町村別の値と「調査中」と「都外」をあわせると773人となり、一致する。【このブログ記事を書きはじめたとき、わたしは第148報を見ていて、途中で第150報を見たので、とりちがえて「合計があわない」と書いてしまったが、見なおしたら、あっていた。】

ともかく、この区市町村別の値をあつかうことにする。島部 (伊豆諸島、小笠原諸島)の患者数はこれまでのところゼロなので、便宜上、島部は省略しておく。

- 4 -
人口について、東京都のウェブサイトを検索すると、「東京都の統計」の下に、つぎのものがみつかった。4月4日の時点で最新のデータは、今年3月1日現在の推計値だ。

「東京都の人口(推計)とは、5年ごとに行われる国勢調査の間の時点における各月の人口を把握するため、平成27年10月1日現在の国勢調査人口(確報値)を基準とし、これに毎月の住民基本台帳人口の増減数を加えて推計したものです。」という説明がある。

国勢調査と住民登録とでは、住民の定義がちがっているのだが、この推計がしめしているのは、住民登録による人口そのものではなく、住民登録の情報をつかって国勢調査の定義による住民の人口を推定したものである、と、わたしは理解している。

- 5 -
『MANDARA 10 入門』の本のうちでは、第4章「市区町村別の統計地図を作ろう」に、ここでやりたいことに近い例がある。それにならって、まず表計算のワークシートをひらく。(本にはExcelとかいてあるのだが、あまのじゃくをしてLibreOffice Calcでやった。) 左端の列(A列)に、市区町村名を都道府県名つきで入れる (人口統計表の市区町村名をコピーしてそのまえに「東京都」をつける)。B列に、人口統計表から人口の値を入れる。C列には、感染症対策本部報から患者数を入れる。さいわい、市区町村のならべ順はどちらの資料でも同じになっていた。D列には「C列の値をB列の値でわって10万をかける」という意味の計算式を入れる。なお、D列のセルの書式を、数値の小数部1けたにそろえておく。

このデータをMANDARAにどうやってもっていくのか、本の第4章だけではわからないのだが、第3章の実行例を参考にして、表計算ソフトウェア側で表の範囲を指定して「コピー」すると、そのデータがWindowsの「クリップボード」にコピーされるので、MANDARA側では「操作選択」で「クリップボードのデータを読みこむ」を選択して「OK」を押す、という操作で読みこめた。

そして「データ表示モード」のうち「単独表示モード」の「階級区分モード」の「ペイント」をえらび、「ペイントモード」のメニューが出るので、「分割数」を10にして分割のしきい値を入れ、「色設定方法」を「2色グラデーション」にして両端の色として赤と白を指定した。「データ項目」としては3番(さきほどのD列に相当)をえらんで、「描画開始」すると、つぎのような図ができた。図の画面の上の「ファイル」から「画像の保存」でPNG画像ファイルに書きだした。ここで表示する画像は、そのPNG画像ファイルを、別のソフトウェア GIMPですこし加工したものである。
f:id:masudako:20200405005606p:plain

- 6 -
この図をおおまかに見ると、人口あたり患者数は、港区を中心として東京の都心部で多く、そこからはなれるにしたがって少なくなる傾向があること、ただし、都心の西側、いわゆる山の手 (世田谷区は低地もあるけれども) でやや大きい傾向があること、が読みとれる。事例があまりおおくないので、これよりくわしい特徴を読みとろうとしないほうがよいと思う。このような分布になっている原因などについて、わたしはここで議論するつもりはない。

いまのところ、都道府県間の人の移動に制約はないから、患者の分布を東京都の範囲にかぎってみることにはあまり意味がないだろう。まわりの他の県のデータといっしょに見ることがのぞましい。ただしデータは都道府県ごとに別々に発表されているので、まとめてあつかうのはかなりてまがかかる。

- 7 -
地図を人口あたりの患者数でぬりわけることは、市区町村ごとの患者数の大小でぬりわけるよりは、だいぶよい。しかし、それにも欠点がある。読者の目にはいる情報は、人口あたりの患者数をあらわす色に、図上の市区町村の面積をかけたようなものになってしまっている。人口密度(面積あたりの人口) の高い地域の特徴が、めだたなくなってしまうのだ。

この問題点は、わたしは学生のころからなんとなく感じていたが、若手教員のころに、Cleveland (1985)の本を読んで、はっきりと認識した。その本の[読書ノートの補足のページ]にも書いたが、適切な方法は、地図上のそれぞれの地域 (いまの例ならば市区町村)ごとに、一定の幅の長方形の柱をたてて、その柱の高さを表示したい量 (いまの例ならば人口あたりの患者数) に対応させることだろう。

  • William S. Cleveland, 1985: The Elements of Graphing Data. Monterey CA USA: Wadsworth. [読書ノート]

MANDARAでも、「データ表示モード」で「記号モード」のうちの「棒の高さ」をえらべばそのような表示はできる。棒が、3次元の直方体の見取り図のような形になる「立体表示」は、数値を正確に読みとるのにはじゃまなので、そのオプションをはずして、2次元の長方形としてかくようにした。
f:id:masudako:20200405005730p:plain

しかし、また考えてみると、このような棒の図でしめす量は、(人口あたりの患者数よりも) 市区町村ごとの患者数そのものにしたほうが適切かもしれない。そうすれば、市区町村ごとの棒の面積を合計したものが全体の患者数に対応する。そのような図を追加した。
f:id:masudako:20200405032425p:plain

- 8 -
Clevelandの本の上でふれた箇所から得た知識だが、わりあい の量の地理的分布をしめすには、それぞれの地域(ここでは市区町村)ごとに、一定のおおきさの長方形の柱をたて、それぞれの柱の途中に横線があり、そこから下のほうは濃い色、上のほうは白ぬき、という形にして、濃い色の部分のわりあいをしめしたい量に対応させるのが、よさそうな方法だ。いわば、「市区町村ごとにメスシリンダーをたてて、それぞれに色つきの液体を入れた」ような形だ。

ただし、この方法は、全体に対する注目する部分のわりあいを、柱の高さに対する濃い色の部分のわりあいであらわす、というのが基本だ。いまのばあい、患者数は人口に対してけたちがいに小さい数であり、人口に対応する柱をたてたのでは見えなくなってしまう。柱の高さの意味を変えればこの表現をつかえるのだが、それが直観的にわかりやすいかどうか、疑問がのこる。

また、そのような表示は、MANDARAのメニューの範囲では、実現できそうもない。わたしがつかった経験のあるソフトウェアのうちでいえば、GMT (Generic Mapping Tools) をつかえばできそうだ。ただし、いくらか試行錯誤してシェルスクリプト (計算機にプログラムをつづけて実行させる手順を指示するもの) を書く必要がある。わたしは、いますぐ てまをかけてやってみる元気が出ない。

- 9 [2020-04-05 追加] -
人口あたりよりも、昼間人口あたりで見たほうがよいだろう、という意見を見かけた。

東京都の統計のウェブサイトに、2015年の国勢調査による市区町村別の昼間人口がある。(それよりあたらしい推計値はない。)

この「昼間人口」は、通勤・通学している人を、勤務場所・学校の場所の人口とみなして集計したものだ。通勤・通学の時間帯が昼か夜かは実際には考慮されていない。また、定期的な通勤・通学のほかの外出も考慮されていない。

ひとまず、2015年の昼間人口を分母、2020年4月3日までの患者数を分子とした分数の値を、ぬりわけで作図してみた図をしめす。
f:id:masudako:20200405113223p:plain

図の印象は、ふつうの人口 (上記資料の用語では「常住人口」)を分母としたばあいと、だいぶちがっている。都心部の値が小さくなる。最大値は目黒区に出ていて、目黒、世田谷、杉並、中野が比較的大きな値のまとまりに見える。都心の反対側の台東区にも大きな値がある。

ただし、実際の患者数を考えるうえで重要なのは、2020年3月の状況だろう。この時期には、大部分の学校が休校になっていたし、オフィスや商店の勤務も平常とちがっているところが多かった。平常時の「昼間人口」は、この時期の状況と、あまりよく対応しないだろう。(2015年から2020年までの変化もあるが、そちらはあまり重要ではないだろうと思う。) 2020年3月の実際の人の分布がわかればおもしろいと思うが、それを推定することは研究の課題になってしまうので、わたしは (いまのところ) このさきをつきつめないことにする。