macroscope

( はてなダイアリーから移動しました)

AGU U32A, IN23E: 地球科学の情報基盤、データ仲卸し

AGU Fall Meeting [12月10日の記事1参照]から。

地球科学関係のデータを扱う技術の話のセッションはいくつもあったが、むしろそれを実現する社会的なしくみのほうに重点をおいた話題を聞くようにした。

U32A 「Towards a Global Cyberinfrastructure for the Geosciences」
まずA Vast Machineという著書[わたしの読書ノート]のある科学技術史家のPaul Edwards (Michigan大学)の講演があった。もちろん、その本に書かれた、天気予報に関する国際的なデータ共有と、材料は同じ気象観測データなのだが別の統合作業が必要であった世界の気候データの共有の話も出てきた。そういった仕事をとらえるのにinfrastructureという概念が使われているのだが、その本では意味が必ずしもよくわからなかった。講演ではEdwardsほか(2007)の報告書にそって説明があった。とくに次の点が強調されていた。ひとつは、infrastructureには技術の面と社会的・制度的な面が組み合わさっていること。もうひとつは、ネットワーク化、インターネットワーク化ということ。ほぼ同じ技術が別々のところで実装されると細部が違う。いっしょに使いたいという動機からネットワークが構成され、標準化や互換性が考慮される。さらにネットワークどうしをつないでインターネットワークが構成される。このとき各ネットワークは大きく変えず、つなぎの役をするgatewayの働きで協調動作ができるようにすることが多い。これからの地球科学には、少なくともデータに関して、全地球規模のinfrastructureが必要だが、それを中央集権型で作るのは現実的でなく、gatewayをつくってつないでいくことが大事だ。そのうちでも、いっしょに働く社会的体制づくりが大事だ。現在の専門職の雇用体制や評価のしくみは専門別に分かれているが、つなぐ人が働く場所をつくっていく必要がある。(わたしとしても同感。)

  • Paul N. Edwards, Steven J. Jackson, Geoffrey C. Bowker, and Cory P. Knobel, 2007: Understanding Infrastructure: Dynamics, Tensions, and Design (Report of a Workshop on “History & Theory of Infrastructure: Lessons for New Scientific Cyberinfrastructures”). NSF Grant 0630263. (Edwardsの論文などの著作一覧のページhttp://pne.people.si.umich.edu/articles.html からリンクされてPDFファイルがある。)

[2013-06-23補足] Edwardsのプレゼンテーションファイルは[The history of infrastructures and the future of cyberinfrastructure in the Earth system sciences](PDF)。

Nativi (イタリアCNR=National Research Council)は、データに関する「brokering」という考えかたについて話した。日本語でどう表現したらよいか迷うが「ブローカー」は印象があまりよくないと思うので「仲卸し」としてみる。各機関あるいは各専門分科がそれぞれデータを整備している。それをあわせて使う需要があるのだが、データ構造にせよ、利用者インタフェースにせよ、ひとつの標準を全関係者に強制するのは無理だ。そこで「system of systems」「network of networks」という発想に立ち、専門別ネットワークに専門間をつなぐ機能をするcommon service busを追加することによって相互運用性(interoperability)をもたせることにする。このbusとbrokerの概念を区別する意味はあまりよくわからなかったが、専門別ネットワークがそれぞれbusをもち、別々のネットワークのbusの間で読みかえを行なうのがbrokerということらしい。政府間機関であるGEO (Group on Earth Observations http://www.earthobservations.org )の事業であるGEOSSのデータ発見・アクセスについて、EUからBroker型のシステムを提案し、2011年の途中で採用されて、それ以後1年ほどでそれを通じてアクセス可能な資源の数は桁違いにふえたそうだ。

[2013-06-23補足] Nativiのプレゼンテーションファイルは[Global Cyberinfrastructure for the Geosciences](PDF)。

予稿は出ていなかったのだが、Microsoft ResearchのTony HeyのData-Intensive Scientific Discoveryという講演があった。Jim Grayという人の仕事にもとづいた議論だそうだ。研究の「第4のパラダイム」がdata-intensive scienceだと考えている。第1は実験、第2は理論、第3は計算(シミュレーション)。わたしは「計算」と「データ」を別々に数えるのが適切かどうか疑問だと思っているが、情報処理のうち狭い意味の計算よりもむしろデータの統合・共有・持続的保存などが重要だという認識はもっともだと思う。研究にかかわる、なまデータ、加工されたデータ、文献などを統合的にオンラインに置き、一方向の流れでなく研究のライフサイクルを促進したいということだった。とくに、発見を助けるために、可視化や機械学習に関する技術研究をしているということだった。今後の計算機利用形態はcloudとclientになり、その中で重要なのはサービスだと言っていた。

討論はあまりよく聞き取れなかったが、データやソフトウェアについて、公共財とするものと私有財とするものの切り分け、データ作成の業績が評価されるしくみ、などの話題が含まれていた。EGU (ヨーロッパ地球科学連合)が「データ雑誌」を出すようになったという話もあった。

IN23EData and Service Brokering: Mediating Interactions Across Diverse Resources
まずEuropean CommissionのAlan Edwardsが筆頭著者の、EUの「Discovery and Access Broker」のとりくみの報告をNativiが発表した。

GEOSSのビジョンが改訂され、データの取得・情報の利用・意思決定にわたる各段階での市民の参加(engagement)が明示された。GEOの活動も、専門と市民の両方を含めたさまざまなコミュニティとのつきあいが重要になる。専門コミュニティはそれぞれデータポータルを整備している。従来はその中身に立ち入って標準化しようと考えたが、それはむずかしいと判断して、ポータル間をつなぐbrokerを整備することにした。

また、EUでは科学への市民参加を重視しており、そのResearch Framework Programのひとつとして、市民観測所(citizen's observatories)を推進している。地域住民コミュニティによる環境の観測を勧め、その情報を全国的・国際的に共有しようというものだ。全部国営で観測するよりも安上がりで、市民の能力も高まるのでwin-winなのだという。ネットワークの形成・維持、観測標準(reference)の提供、観測機器の較正などは公共部門の負担となる。このネットワークの中で、市民にわかりやすい形と専門家にわかりやすい形の間で読みかえる機能をbroker型のしくみで実現しようとしているらしかった。

Pearlman (IEEE)はアメリカのNSFの事業であるEarthCubeについて報告した。アメリカ政府機関や研究コミュニティのデータがGEOSSや世界の人々によりよく貢献できるように情報基盤を作ることをめざし、そのために実際の利用者のいるパイロットプロジェクトを公募して、その経験をもとにもっと大きなシステムを組もうとしている、と理解した。

Allen (CSIRO) はオーストラリアでの海洋データの統合(convergence)の取り組みについて報告した。

そのほか3件の発表があった。([2013-06-23追記]その内容も紹介しようと思ったのだが、結局、わたしの頭の整理ができなかった。) もう1件、ロシアからの発表が予定されていたが欠席だった。