macroscope

( はてなダイアリーから移動しました)

DIASは解体的出直しが必要

【わたしは地球環境科学関連のデータマネジメントの中核となるべき人材だったはずだ。ところが、なさけないことに、わたしは自分の能力(とくにプロジェクトマネジメント能力)を育てることに失敗してしまったと思う。しかし、仮にわたしが高い能力を持っていたとしても、いま与えられる条件ではつぶれるしかないと思う。他の人をまきぞえにしてつぶれるよりは、何もしないほうがましだ。いまのわたしには、意見をさけぶことしかできない。それを根拠づける資料調査もできていないこともなさけないのだが、ともかく意見を書く。】

文部科学省の旧科学技術庁系の部署が2006年度から、DIAS (少なくとも第1期は「データ統合解析システム」の略)という事業を進めてきた。5年ごとの事業で、第2期が残り1年になっている。これまでDIASを推進してきた人たちの後継者たちは、DIASが成功していることを前提として、その延長上に長期的な事業を進めるべきだという計画を作っている。

わたしは、DIASは失敗だったと認めた上で、一方でその遺産をむだにしないように移行措置をしながら、新規まき直しで計画を立てるべきだと思う。

わたしが失敗だというのは、[2013-08-11の記事]に書いたように、制度設計の失敗であって、けっしてDIASプロジェクトの代表者・分担者やそれで雇われて働いている人の失策や怠慢ではない。また、第1期の始まった時点では制度設計は暗中模索であったし、試作品を作る研究プロジェクトとしては第1期の体制は悪くなかったと言える。失敗だというのは第2期の体制づくりの際に第1期から大きく変えなかったことだ。第2期も研究プロジェクトとしては特徴ある成果を出している。しかし、順当には広く他の同業研究者に配分されるべき資源を少数の選ばれた研究者に集中させたことを正当化する成果が出たかどうかが疑わしい。第2期では、新規の機能の開発よりも、データを使いたいと思った多くの研究者への門戸開放の実験をすべきであり、そのためには、本拠を、(データ、計算機システム双方の)ユーザーサポートや保守管理の専任者を長期的に雇える機関に移すべきだったのだ。【第1期の中の仕事を分担していたわたしが、もし第2期の体制についての提案を出せていたら、もう少しよかったかもしれないとくやまれる。実際には、わたしは、すでに仕事上の自信を失っていたので、分担ぶんの成果の形を整えるのがやっとだった。】

ともかく、第2期の延長上に第3期とか永続的DIASとかを期待しても無理な注文だから、その路線からは速く撤退してほしい。ただし、DIASには貴重なデータが集められていて、それを捨ててはもったいないので、移行措置は必要だ。データよりもむしろそれに関する知識の散逸が心配だ。新規性のない事業への人件費の支出はたいへんだとは思うが、これまでに構築したシステムを理解できる人に、なんらかの形で残っていただくことも配慮してほしい。

DIASという旗印のもとに、データマネジメントに関する多数の期待がたばねられてしまったのがまずかったと思う。

【わたしについて言えば、自分が期待したのは次に述べる箇条書きの13だったのだが、DIAS事業の重点は4、ついで2であり、そのために働かなければならない役まわりになったので、そのぶんだけ13の実現のために働ける可能性が奪われたと思う。】

少なくとも同じ予算のつけかたでは成り立たないものは、別の事業とし、推進する主体も別にしたうえで、相互にデータを提供しあうなどの連携関係をつくるべきなのだと思う。

いくつに分けるべきかについてはいろいろな考えがあると思う。今わたしは、4つに分けてとらえてみようと思っている。

1. 貴重なデータのアーカイブ。人類が地球環境を認識するために、人類が存続する限り失いたくないようなたぐいのデータを、失わないように保存するとともに、そのデータの来歴(観測データであれば観測機器や設置状況、データ収集経路やその過程での加工など)や利用者からのフィードバックで得られた知識も、参照可能な形で記録しておく。データ利用者に向けたデータ提供も直接担当する形と、それは別組織(たとえばWorld Data Systemに参加している関連分野のデータセンター)にまかせて間接的なかかわりかたにする形が考えられる。

2. 巨大なデータのアーカイブ。現在の人間社会が扱えるデータ量あるいはデータの複雑さの限界にいどむ規模をもち、しかも社会にとって有用と思われるデータを、提供者から預かりあるいは積極的に収集し、保管し、世界に広く分布する専門的利用者に提供する。利用者にとっての機能は、目録情報やメタデータの検索とデータのダウンロードに限ってもよい。データの簡易な可視化や部分切り出しなどの単純な加工の機能もあることが望ましい。

3. 研究者大衆によるデータ共有の場。ここで「研究者大衆」と仮称したのは、新規性のある研究成果を出そうとしている職業研究者ばかりでなく、実用目的に応用できるかをさぐりたい人や、興味本位でデータを見てみたい人も含む。将来研究職につくかどうかわからないがその可能性もある大学院生は当然含まれる。ただし、計算機上(現時点ではUnix系OSコマンドラインを想定)でデータを扱う基本的技能と、ディジタルデータの性質およびデータの共同利用に関する法的・倫理的なルールについて基礎知識を持っている(個別データセットのドキュメントを理解できる)こと、チームの場合はそういう人が窓口になることを前提とする。数千人の人々がユーザー登録し、計算機にログインして、自作プログラムを含むさまざまなソフトウェアによって、公共財として置かれたデータや、他のユーザーが共有資源として提供したデータを読む。

4. 社会(非研究者)向け情報提供を試みる研究開発。地球環境データは研究者以外の人々にも役立つべきだが、そのためには情報提供や需要把握のしくみを整える必要がある。そのしくみを作り、実際に使ってもらいながら改良する研究開発プロジェクトを、いくつか並行して進めることが望ましいだろう。その手段として、なんらかの計算機システム上でのデータの共有が必要となる。非研究者向けにはウェブ越しのインタフェース、そのインタフェースを含むソフトウェアの開発者向けにはログインしてデータを読み書きできる場が必要である。

このいずれにも持続性を期待するところはあるのだが、1に期待する持続性は2,3,4に期待するものと桁が違う。2,3,4の事業はいずれも規模の限界に挑戦する可能性がある。他方、国の予算は必ずしも成長すると期待できず、仮に計算機の能力が情報量よりも速く成長できるとしても、人件費を維持しつづけることができるとは限らない。科学技術政策の浮き沈みのまきぞえで1がつぶれるのを避けるために、12,3,4と明確に切り離すべきである。1は図書館・博物館に近いので、中央官庁のうちではおそらく文部科学省の旧文部省系の部署に担当していただくのが適切だろうと思う。どこかの大学が永続的にその特徴となる事業と認めて率先して提案し予算要求してくださるとよいと思う。

3の業務は、科学技術研究開発というよりも、高等教育と社会教育の場の提供である。ふりかえればこれに比較的近いものとして国立大学共同利用大型計算機センターがあった([2010-07-30の記事]参照)。それは主として演算能力の共同利用であったが、データやデータ利用ノウハウの共同利用の場ともなっていた。したがって、これもおそらく文部科学省の旧文部省系の部署に担当していただくのが適切だろうと思う。

24は、科学技術行政としてとりくむべき業務だと思う。その計算機システムを研究プロジェクトごとに持つのか、あらゆる科学技術分野に対応する共通基盤事業を別に動かして各研究プロジェクトはそれを利用してもらうのか、あるいは(その中間になるが)地球環境関連の共通基盤事業を動かすのか、は、科学技術政策上の選択となる。あらゆる分野の基盤とする場合はもちろんだが、地球環境関連に限っても、複数の省がかかわる内容になるので、内閣レベルで、どの省が担当するか、本気で合意し、そこにデータをまとめることにうらみがないようにしていただく必要がある。国会で、事業をになう機関の設置法の改正をしてこの業務を明記していただく必要があるかもしれない。