macroscope

( はてなダイアリーから移動しました)

学術データの長期保全の場の持続可能性がほしい

【まだ書きかえます。どこをいつ書きかえたかを必ずしも明示しません。】

- 1 -
わたしは、「地球環境科学」と大まかに表現できるような学問の専門家になった。その中でいろいろなデータを見てきた。「データ」という表現をするのは、計算機上で作業をすることが多いからだが、さかのぼれば、野外の観測によって得られたものもあれば、むかし紙に書かれた形で保存されていたものを最近の研究者が再発見して計算機であつかえるように入力処理をしているものもある。

ほかの専門のデータも多かれすくなかれ同様なことはあると思うが、地球環境科学のデータのうちには、やりなおしのきかない過去の事実の記録が多い。消えてしまったり、データ自身は残っていても意味がわからなくなってしまったら、とりかえしのつかない損失になる。

だから、いまの世代の専門家がやるべきこととして、データの長期保全は、(極論すれば) 新しい研究成果を出すことよりも重要だと思う。

【ここでいう「長期保全」の対象には、進行中の研究プロジェクトで作成しているデータはふくめていない。ただし、プロジェクト終了後は対象となる。研究プロジェクトの中で、それが終わったらデータをどのように保全するかの準備を、プロジェクト終了後も残る組織と相談しながら、始めるべきだ。】

- 2 -
いまのわたしがやるべき仕事は、データの長期保全のために、企画立案をしたり、国や民間のお金そのほかの資源を出せそうな組織に対して資源提供を要請したり、賛同する人をつのったり、といったことなのだろうと思う。

しかし、なさけないことに、わたしにはそれができない。能力が不足していると思う。わたしはこれまでの経歴のなかで自分の企画運営能力を高めてこなかった。所属組織があるうちにその組織の経営方針に影響を与える試みもしてこなかった。そして、時限の事業の分担をしているだけで能力を使いはたしてしまい、気がつけば体力もおとろえ根気も続かなくなってしまった。

どなたかがデータ保全の組織をつくってくだされば、その中で具体的なデータを整理する作業を分担することはできると思う。しかし、持続性がない組織では働く気にならない。(わたし自身の職の持続性は期待しない。わたしが作業したデータが雲散霧消してしまう可能性が低いという意味での持続性がほしいのだ。)

そう言って、わたしが残っている能力さえ使わないでいるうちに、能力がおとろえていき、わたしはデータの長期保全に貢献しないまま消えていくことになりそうだ。

- 3 -
いまの世界、とくに日本の社会状況がまずい面が、たしかにあると思う。

国立の大学や研究機関の運営費の予算が毎年減らされている。学術研究予算全体としては減っていないといわれるが、ふえているのはすべて時限の事業だ。時限は5年くらいのことが多い。5年さきにそのまま継続できることはまずない。うまくいけば引き継いで発展させた形の事業を提案できるかもしれないが、それも新規の提案と競争しなければならない。それに加えて、組織の改革がよいこととされる。国立研究開発法人などでは5年くらいごとに中期計画をたてるが、単純な継続では予算が削られるだけになり、新規性のある新しい重点をつくらないといけないらしい。しかしそれでも全体の予算が大きくふえることはないから、何かの業務を削ることになる。Scrap and buildが求められるのだ。中期の終わりにどこがscrapされるかは、中期のはじめにはわからない。だから、時限の事業だけでなく機関の本業についても、5年後には消えてしまうかもしれないという覚悟でしなければならなくなった。課題の種類によっては、研究者をこのような緊張状態においたほうがよい成果が出るものもあるのかもしれない。しかし、データの長期保全のためには、敵地にいるようなものだ。

- 4 -
データの長期保全について、高望みをしてはいけないと思う。

データ量の拡大はいまも続いている。時限の事業でよい研究成果を出すためには数年まえには不可能だった量のデータを使ったほうがよいこともあるだろう。しかし、時限の事業の予算の期間が終わったあとそのデータが長期にわたって利用可能であると期待してはいけない。データを選んで長期保存する必要があるだろう。データ間の導出関係があるときは、導出されたデータはあきらめて、かけがえのないオリジナルデータを残す。(気候関係で言えばモデル出力はあきらめて観測データを残す。) ただし導出されたものであっても、多数の研究の材料として使われているものは、保存場所の容量から許されるかぎり残す、といったことになるだろう。

サーバーの機能の複雑化、インテリジェント化 (近ごろはやりの「人工知能」とはちがうようだが)も進んでいる。しかしそのサーバーを動かすことを計画に含んでいた事業が終わったあと、幸運にもその種類のサーバーを動かすことが産業として自立できれば別だがそうでないかぎり、そのサーバーと同じサービスが長期にわたって利用可能であると期待してはいけない。長期保存とは、そのサーバーで使われていた静的データを取り出し、ドキュメントをつけて、図書館の本のように参照できるようにしておくことだろう。

- 5 -
データの長期保全のためには、ささやかなものでよいから、持続性のある場がほしい。

- 5a -
第1に、インターネット上での所在を示す URL あるいは URI の持続性がほしい。

データの置き場に自分のからだをもっていくことのできる少数の人を別として、世界のほとんどの人にとって、データのありかはインターネット上の場所だろう。それが知られることによって信頼ができ、データも、利用者も、集まってくる。たびたび変わったのでは、忘れられてしまう。

持続性の高い法人がデータ保全に長期的にとりくむ意志があるのならば、その法人のサイトに置くのがよいと思う。

しかし、近ごろの日本では、国の関係機関(国立研究開発法人を含む)は、政治や行政から改組をせまられることが頻繁にあり、しかも、インターネット上のドメイン名を組織の正式名に合わせよという圧力も強い。したがって、とても残念ながら、go.jp ドメインでは持続性が期待できない。

ドメイン名を取得するだけならば、個人でもできる。しかし個人にまかせると、持続性がその個人の能力と意志に依存してしまう。データ保全を目的とした団体をつくって、ドメイン名とウェブサーバーを確保するのがよいと思う。ここでいうウェブサーバーは大量のデータではなく目録情報やドキュメントと少量のデータを置くことを想定している。ウェブサーバー機能を提供するプロバイダー業者と契約することになるだろう。ただしドメイン名の契約は業者まかせにするのではなく、サーバー契約を他の業者に変えた場合にも同じドメイン名を使えるように、データ保全団体のもとで管理するべきだ。

ドメインの中のデータの配置にも持続性があることがのぞましい。そのためには、データの置きかたを、特定のサーバーに依存せず、他のサーバーに移動することもすぐできるような形にしておくべきだろう。検索用のソフトウェアなども、オープンソースの業界標準的なものを使って構成しておいたほうがよいだろう。

- 5b -
第2に、データ保全組織の法的な持続性がほしい。

データ保全組織は、いろいろな個人や法人から、データとともに、それを利用する権利をもらう。著作権のこともあるかもしれない。著作物を利用するライセンスのこともあるかもしれない。

データ保全組織の名まえや法的構成が変わってしまうと、データは引き継がれたとしても、それを利用する権利が引き継がれているのかが、あいまいになってしまう。

データ保全組織は何かの法人に属するようにして、その法人が再編成されるときにはその法人が持っていた権利が引き継がれることを明確にするべきだと思う。

ここでは権利について述べたが、義務を引き継ぐ必要があることもあるかもしれない。

とくに、外国の組織との間でデータ交換契約をする場合は、その後の引き継ぎを明確にしておく必要があると思う。

- 5c -
第3に、データ自体の持続性。

計算機上のデータになったものに限れば、インターネット上に公開されたサーバー上に置くもののほかに、別の媒体で別の場所にバックアップコピーを持つようにすればよさそうだ。(これも個人の努力ではおっくうになってしまうので、なんらかの組織がほしくなる。)

紙やマイクロフィルムなどの資料、そのうちでも図書館のしくみにのせることがむずかしい資料の保全は、ずっとむずかしい問題になる。ディジタルカメラやスキャナーでディジタル画像にすることは、いずれにせよ有用だ。紙資料にはディジタル画像では失われる情報もあることはたしかなのだが、(紙資料に文化財というほどの価値がみとめられないかぎり)それはあきらめるしかない場合もあると思う。

- 5d -
第4に、データに関する知識の持続性。

データの保全には、そのデータがなんであるか、どのようにすれば読めるか、などの最小限のドキュメントがともなわないといけない。

それだけではなく、そのデータの由来や品質や利用した経験などの知識が引き継がれることが望ましい。

そのデータがどのように作られたかを書いた説明書や論文は、そのデータのドキュメントといっしょに保全されるべきものだ。(著作権などの事情によってはデータ保全組織はリンク情報だけをもつことになるかもしれないが。)

そのデータを使った結果とかほかのものと比較した結果とかを含む論文や本などの情報もあったほうがよい。ウェブサイトをくふうして、そういう情報を提供してもらいやすくするとよいと思う。

そのデータを使った人(あるいは作った人)の個人的経験が、その人とともに消えてゆくのはやむをえないだろう。ぜひ経験を引き継ぎたいという人がいれば、インタビューしてその記録を残すことはできるかもしれない。ただしそのような仕事はデータ保全業務というよりも学術史研究の性格をもつものになりそうだ。

- 6 -
わたしの期待に最適な組織は存在しない。これからつくることは、さらにむずかしいだろう。何かの既存の組織に頼るしかない。

大まかな意味で非営利の法人(財団法人、社団法人、NPO法人、学校法人など)がよいと思う。ただし、法人自体の持続性があるものにかぎられる。学術文化事業への資金提供を業務に含む法人か、法人格と事業資金をもつ学会が、その長期的事業としてとりあげてくださるとありがたい。