古い情報はどのような形で持続させたらよいのか

【まだ書きかえます。どこをいつ書きかえたかを必ずしも明示しません。】

- 1 -
ほんの(?) 20年前、世界の、(どんな人にとってかによって事情が違うだろうが、たとえば地球物理学者にとって)重要な、(機械計測や計算結果でなく)人が記録した情報の大部分は、「本」「雑誌」「地図」などの紙の印刷物の形で記録されていたと思う。しかし今ではむしろ大部分が、ディジタルデータとして記録され、インターネットを通してアクセスされるようになった。

インターネットの使いかたには、人が遠隔地の計算機を操作したり、計算機どうしが相互作用したりするものもあるが、「発信側が公開できる情報を陳列しておき、受信側がそれを選択して受け取る」という形のものに限れば、大部分がWorld-Wide Web (WWW)[注1]経由で使われていると言ってもよいだろう。(必ずしも情報本体がHTTPプロトコルで伝達されているとは限らない。しかし多くの場合、糸口となる情報は、受信者がウェブブラウザで見ることを想定してHTTPで提供されるだろう。) わたしは、雑な表現として「インターネット上にある情報」とか「WWW上にある情報」とかいう表現を、両者の区別なしに使ってしまうことがあるが、それはこのような形でアクセス可能な情報の全体をさしている。

[注1] 「元祖WWW」は別のものなのだが([2012-04-29の記事]参照、WWWという略称のもっと古い使われかたを指摘されれば考えなおすが)、World-Wide Webが「本家WWW」になったことは認めないわけにいかない。

- 2 -
WWWからアクセスできる情報のうちかなりの部分が有料であり、購読契約をしてユーザー認証された人だけがアクセスすることができる。ただしそのアクセスに使われる技術はWWWで使われるものと同じである。そういう情報もWWW上にあると言ってよいのかは、意見が分かれるところだと思う。この記事では、無料で提供され、ユーザー認証は求めるかもしれないがだれでもユーザー登録できるようなものを念頭に置いて論じてみる。その議論のうちには、有料の情報についても適用できるものと、そうでないものがあるだろう。

- 3 -
WWW上にある情報は、紙の印刷物の形になった情報に比べて、持続性が乏しくなってしまったように思う。参考文献として紹介されているものを読もうとしたとき、昔は、図書館を訪問したり複製を取り寄せたりするてまがかかるが、そうすればたどりつけることが多かった。今は、(ディジタル版であっても学術雑誌の形をとっているものは提供者法人がつぶれなければ持続しそうであるが、そのほかは) 5年もすると見つからなくなってしまうことがとても多い。見つからない原因は次の3つに分けられるだろう。しかし、その区別は、提供者側の事情を知っていればできるが、それ以外の利用者にはつけられない。

記録が消えてしまった。
記録はあるが、もはやインターネットに接続されてWWWサービスを提供しているサーバーに置かれていない。
WWWからの提供は続いているが、インターネット上の位置を示すURI (uniform resource identifier)が変わっており、旧URIから新URIに誘導するしかけが伴っていない。

- 4 -
ディジタル化することによって、紙の場合にくらべて、情報の複製を提供することは、原理的には、しやすくなったと思う。ただし、どのディジタル記録媒体も、持続した実績のある期間はまだ短く、長期に持続させるためには新しい記録媒体への移しかえ(複製)が必要になる。また、情報を提供するサーバー計算機も世代交代が必要になり、それに伴ってソフトウェアも変更しないといけないこともある。移しかえ先のサーバーや記録媒体が確保できなかったり、移しかえの労働をする人がいなかったりすると、情報が消えてしまうことがある。

しかし、それよりも、情報を提供していた人の組織がなくなることによって、情報が消えたり、提供されなくなったりすることが、多いと思う。

個人が提供していたものが、その人が亡くなったり、インターネットにかかわれなくなったりしたことで、提供されなくなる、ということは、やむをえないこともあるだろう。需要のあるものならば、引き継ぐのが望ましいのだが、提供者本人が元気なうちには、いつ引き継ぎが必要になるかの判断ができないことが多い、というむずかしさがある。個人よりは持続性のある財団か大学法人などが、ある価値基準に合う個人サイトの情報を手広く引き受ける態勢を整えてくれるとありがたいと思う。

研究プロジェクトが提供していたものが、プロジェクトの終了とともに、あるいはその主要メンバーの引退とともに、提供されなくなる、というのも、やむをえないこともある。学術雑誌論文の形になった成果は残るだろう。しかし、学術研究にかける公費の有効な使いかたとして、期限つきのプロジェクト研究に全部を割り振ってしまうのではなく、一部分はプロジェクト終了後に成果を発信しつづけるサービスに向けたほうがよいと思う。

団体が提供していたものが、団体の組織改変とともに提供されなくなることもある。意識的にその情報を提供する事業をやめることが決定される場合もあるだろうが、むしろ多いのは、組織改変が拙速におこなわれ、インターネット上の情報提供が業務として把握されないまま、新組織での役割分担を決める際に抜け落ちてしまうことではないだろうか?

近ごろ、と言ってもいつごろからかよくわからないが、おそらく2001年の中央省庁の再編成のころから、日本では、役所や独立行政法人や国公立大学などの公的部門の組織改変が、前よりも頻繁になったと思う。とくに政治的理由で決まった組織改変は、改変する期限を切られて、業務内容の検討がすまないまま行なわれることもあると思う。また、学術研究予算の多くが5年程度の時限のプロジェクトの形でつけられ、その終了後に何かを継続できるかどうかはまったく保障されないものが多くなったと思う。外国の事情はよく知らないが、日本の公共部門が発信する情報の持続性は、世界の情報処理関係の資源が豊かな国のうちでは、貧弱になっていると思う。

また、日本の新聞やテレビ局などの報道機関のニュース記事は、数日でウェブサイトから消されてしまい、他の機関が運営するウェブアーカイブサイトにも残っていない(報道機関がアーカイブサイトによる取得を拒否しているのだろう)ことが多い。同様な英語圏の報道機関のサイトの記事が数年間持続していることが多いにもかかわらずだ。報道機関は過去の記事を有料のデータベースとしていることが多く、その形では提供が続けられていると言えるかもしれない。しかし、報道を参照しながら自分の主張を組み立てる一般人としては、商用財と公共財との境目を、もう少し公共財が多くなるようにすることを希望したいと思う。また、報道機関のデータベースには本社の記事は収録されていても地方支局の記事がないことも多いと聞く。地方の報道記事の保存は地方の公共部門(公共図書館だろうか?)を担い手に考えたほうがよいかもしれないと思う。

- 5 -
WWW上の情報の位置は、URI (uniform resource identifier)またはURLと呼ばれる文字列で示される。たとえば、このブログの URI は http://d.hatena.ne.jp/masudako/ だ。【[2020-08-13 補足] その後、https://macroscope.hatenablog.com/ に移動した。ウェブサービスプロバイダである「はてな」が旧 URI から新 URI に誘導されるしくみを提供してくれたので、旧 URI へのリンクは無効にならずにすんでいる。】

WWW上の情報を参照して文書やソフトウェアを書く人にとっても、それを利用する人にとっても、情報内容とURIとの関係が変わらないことが望ましい。現実には、同じURIに対応する情報が書きかえられることはよくある。(そこで、URIへの参照を記述するときは、確認した日付を入れることが標準とされる。) 他方、情報が変わらないのにURIが変わってしまうこともある。これはとても残念なことだ。

World-Wide Webを始めたTim Berners-Leeさんは、1998年に、「Cool URIs don't change」という記事( http://www.w3.org/Provider/Style/URI )を書いた。これには神崎正英さんによる日本語訳「クールなURIは変わらない」( http://www.kanzaki.com/docs/Style/URI )もある。そこには、URIを変えないでほしいという主張に加えて、変えないですむようなURIのつけかたの助言も書かれている。たとえば、「最新」を意味する文字列を含めるのはまずい。「何年何月作成」のようなもののほうがよい。

- 6 -
近ごろの日本の、とくに公共部門では、URIが変わることが多すぎる、と思う。それには、Berners-Leeさんのような考えを知らない人が意志決定していることのほかに、次のような要因がありがちだと思う。(いつもあると言うわけではない。)

(a-1) 人の組織の改変が頻繁におこなわれる。(組織改変自体が目的としか思えない場合もある。行政実務の意志決定の権限を、組織改変をすると手がらになるような職種の人がにぎっていることが多いからだろう。組織維持も手がらになるように変えないといけないと思う。)
(a-2) URIを正式の組織名に合わせることを官庁や法人の上級管理職が現場に強く要請する。

(b-1) ウェブサーバーの設定や維持管理をする人を、公共機関の職員として雇う人件費はふつうなく、外注(業務委託)になる。
(b-2) 外注は、単年度や、長くても5年くらいまでの契約となり、毎度、競争入札で業者を決めることが求められる。(公共部門と特定業者の癒着を防がなければならないという規範、あるいは、市場競争にまかせたほうが費用が安くなるはずだという信念が、同じ業者との契約を続けることの実務的便宜よりも優先される。)
(b-3) 業者間の引き継ぎの時間は短いので、入札公募の仕様として、旧システムの情報を失わず引き継ぐことがやっとで、URIとの対応まで維持するのは困難となる。

- 7 -
しかし、同じ情報が、なるべく永久的に、同じURIでアクセスできることがほんとうに望ましいのだろうか。

キーワードで検索をかけると、「古い」情報が見つかり、それが「古い」ことが認識されずにそのキーワードに関連する有用な情報とみなされてしまうと、社会にとって有害なことさえある。ここで「古い」と書いたのは、作成されてから時間がたったという意味ではなく、情報の有効性が落ちているという意味だ。

WWWに発信された情報には、今では有効でなくなっているものや、まちがっていたものもある。それが、今有効な情報だと思われてしまうのは、まずいことだ。

有効期限があらかじめわかっている情報は、それを明示して書くことができる。たとえば、しめきりのある募集公示は、しめきり日付をすぎれば、過去の記録として読まれ、「しめきりました」と補足する必要さえないだろう。

しかし、有効でなくなることが、いつ起こるか予想できず、突然起こるようなものもある。そのとき、ページごとに、「このページの内容は過去のもので、現在有効ではありまぜん」などという注釈を入れるようなてまはかけられず、ページを消してしまう、あるいはインターネットから隠してしまうという荒療治をしたくなることも多いにちがいない。

- 8 -
この問題の対策は、「現役」の情報と「退役」の情報の置き場を分け、有効でなくなった情報は「退役」の置き場のほうにだけ置くことにし、「退役」の置き場のURIは、それぞれの情報が現役だったときのURIがわかっていればすぐわかるようにすることだと思う。

- 9 -
そのようなしくみを、ひとつのサイトの中で実現した例としては、Wikipediaがある。Wikipediaを実現するMediaWikiというソフトウェアには、過去の書きかえ履歴をすべて保存するしくみがある。 (Wikipediaは原則としてだれでも書きかえができるが、不適切な書きかえがあると、もとにもどす必要が生じる。それが過去の版を保存する必要が生じたおもな理由だったようだ。) 見ようと思えば、過去の編集過程のどの段階の版でも見ることができるのだ。しかし、題目を検索して出てくるのは、それぞれの記事の最新版である。過去の版を見る手続きをめんどうにすることによって、最新版と過去の版を差別している。(なお、Wikipediaでは、人権侵害や著作権侵害を含む記事などは、たとえ過去の版であるという注釈つきでも公開すべきでないと判断され、過去の版を消去する操作がおこなわれることもあるが、これは例外的に管理者が介入する処理である。)

- 10 -
退役の情報と現役の情報の置き場を別々のサイトとして実現することも考えられる。これまでに実現されているのは、退役の情報だけを移動するのではなく、ある時期の、(ある条件にかなった) 現役の情報をまるごと複製して保存することだ。保存されたもののURIは、それが現役だったときのURIから、機械的に導かれるものにしておく。

有名なものとして、web.archive.org という URI で知られてきた (現在は http://archive.org/web/ ) the Internet Archiveのウェブアーカイブがある。ここは、WWW上のあらゆるサイトの情報をアーカイブしようとしたようだ。もちろん実際に集められる能力には限りがあるので、利用者がほしいサイトのページが保存されているとは限らない。また、各サイトの管理者が、その情報を他のサイトでは保存してほしくないと思うこともあるし、アーカイブサイトの「ロボット」ソフトウェアが情報を取りにくることでサーバーに負荷がかかるのを嫌うこともあるので、サーバーに「ロボットよけ」のファイルが置いてあれば情報を取らないという約束がある。その処理の結果、実質的内容が保存されていないサイトも多い。

また、対象を限ったアーカイブもある。

たとえば、イギリスの国立公文書館（The National Archives）は、UK Government Web Archive ( http://www.nationalarchives.gov.uk/webarchive/ ) を持っていて、おもにイギリスの政府機関の過去のウェブサイトの内容を保存している。

日本でも、国立国会図書館が、インターネット資料収集保存事業(Warp) ( http://warp.da.ndl.go.jp )を始めている。その「質問と回答」のページで、保存対象を次のように説明している。「国の機関、都道府県、政令指定都市、市町村、市町村合併の法定合併協議会、独立行政法人や特殊法人等の法人・機構、大学、イベント、電子雑誌などを保存しています。」「民間のウェブサイトは発信者の許諾が得られたものを保存しています。公益法人、私立大学、政党、国際的・文化的イベント、東日本大震災に関するウェブサイト、電子雑誌などが主な対象です。」

- 11 -
そこで、日本の公共部門としては、定期的にWarpにウェブサイトのコピーを保存してもらえば、有効でなくなったページを消していってよいだろうと思う。

【[2016-05-26補足] これはウェブサイトの記事に付属するデータファイルやPDF形式の文書ファイルもいっしょにWarpにアーカイブされることを前提として書いた。実際にはそうなっておらず情報が失われていることもある。ウェブ技術から見ると同様なHTMLリンクのうちで、同じ発信活動に属するものと外部への参照とを自動判別するのはむずかしいとは思う。過去のものは気づいた人による救出活動も必要なのだろう。これからは、サイトをつくる側がアーカイブされるときのつごうも考慮した一定の約束に従うことによって、確実にアーカイブされるようにしてほしいと思う。】

Warpが対象としないサイトについても、Warpと同様な機能のものを、それをなるべく持続できそうな機関のもとでつくっていくことを考えるのがよいだろうと思う。

(もちろん、あまりに巨大なデータや、サーバーの裏で複雑なソフトウェアを動かす必要のあるウェブサービスは、アーカイブサイトでは引き受けることはできない。そういう情報が消えていくことはやむをえないだろう。)

- 12 -
考えておく必要があると思うのは、多くの情報が(特別に複雑ではない)データベースソフトウェアの中にあることだ。検索システムはもちろん、Wikiやブログの裏でもデータベースソフトウェアが動いていることが多い。ブログなどの場合は、記事をひとつひとつ表示させてHTMLで保存するという方法もとれるが、目録検索システムなどの場合は、人が介入して、データベースから書き出すか、データベースに入力されたもとのファイルを持ち出して、新システムに入れなおす必要があるだろう。その場合にどんな形式をとるのがよいのかなど、その専門家のあいだではすでに議論があると思うが、わたしはまだよく知らない。(ささやかながら、最近、Wikiとブログのそれぞれの内容の移しかえをしたことがあり、そのときはデータベースの内容はSQL形式(新システムでSQLコマンドを実行すればデータが読みこまれるような形)でやりとりした。)