macroscope

( はてなダイアリーから移動しました)

専門的データの利用の形(提供の形を考えるために)

(ひとまず前提を省略し、わかる人にだけわかるように書いていることをお許しいただきたい。)

専門的データを提供する際に、いくつかの利用のしかたを区別して対応する必要があると思う。

わたしは地球環境に関する時空間分布をもった数量データを想定しているが、他の種類のデータに関しても共通なところが多いと思う。

データの発生源は観測(あるいは野外調査)、シミュレーション、その両方の組み合わせのことがある。それによって以下の話の基本は変わらない。ただし、観測データは長期保存が重要だが、シミュレーション結果は政策決定の根拠として使われない限り数年後には消えてよいことが多いだろう。

データはディジタル記録されていることを想定している。ディジタル化されていない紙資料やフィルムなどをディジタル化する仕事も重要だが、ここではそれがすんだあとについて考える。

データの提供の経路はインターネットが主であることを想定している。しかし、そればかりではないと考えている。人と人との出会いによるものはなくならないと思う。保存を兼ねた意味でのオフライン媒体への書き出しも続くと思う。

(軸1)データの加工レベル。「材料」と「製品」という用語を臨時の意味で使う。「データ」と「情報」を区別するとすれば「材料」はデータであり「製品」は情報であると言えるかもしれない。

  • 材料」は観測やシミュレーションの結果をすなおに表現したもの(情報をゆがめずに伝えるためには人の知恵を必要とするが)。
  • 製品」はそれに人の思考を加えて構成したもの。

(軸2)利用者がデータを計算機ネットワーク上のどこで使うか

  • ダウンロード利用」: 利用者は、データをまるごと受け取り、提供者とは関係のない場所(たとえば利用者自身のパソコン)で使う。
  • オンライン利用」: 利用者は、インターネットのプロトコル(HTTPまたはそれと似たものを想定)で提供システムに接続し、接続システムが用意した機能を会話型で利用する。
    • 機械間オンライン利用」: 利用者も計算機システムである。会話型といっても、利用者が人である場合とは違った設計が求められるだろう。
  • ログイン利用」: 利用者はデータが置かれた計算機システムの利用者として登録されており、インターネットからなんらかのプロトコル(SSHまたはそれに似たものを想定)で計算機システムにログインして、計算機システム上でプログラムを動かしてデータを読み書きする。

(補助的な軸) 利用者の所属集団。次のような仮の名まえを使う。

  • 提供分野」: データ作成者の所属する専門分野。
  • 応用分野」: 提供分野以外で、データを使う意欲をもつ人がいる専門分野。(おもに産業・防災などを想定しているが、基礎科学であることもありうる。)

(複数の軸による位置づけ) 需要が多いと思われる利用の形

  • 製品ダウンロード利用。主な利用者は製品を作る際の想定によって異なる(しろうと向け、提供分野の入門者向け、特定の応用分野向けなど)。製品は少量の数値データ、文書、パソコンで動作するソフトウェアなどの形をとる。
  • 材料ダウンロード利用。主な利用者は提供分野内の人および提供分野の基礎知識をもつ人。データの形式は提供分野の業界標準がよい。
    • 材料オンライン利用(ただし、検索・ブラウズ・切り出し・要約などの単純な機能だけでよい)を併用できることが期待される。
  • 製品オンライン利用。主な利用者は応用分野の人。製品は提供・応用両分野の関心や習慣の違いを考慮して材料データを読みかえるソフトウェアである。製品の実装場所によって、次のように分かれる。
    • データ提供サーバー上に作りこんで応用分野の利用者を直接受けつける。
    • 応用分野のサーバーに作りこんで材料データを機械間オンライン利用する。
  • 材料ログイン利用。主な利用者は
    • 提供分野内の研究者や、提供分野の基礎知識をもつ応用分野の研究者のうち、とくに大量データ利用あるいは多種類データの組み合わせをしたい人。
    • 製品を作ろうとするチーム。提供分野、応用分野、情報処理の知識をもつ人から構成される。