オンラインのリソースをアーカイブする

河本孝之(Takayuki Kawamoto)

Contact: https://plus.google.com/112326853631114362590/about

First appeared: 2017-10-18 12:44:30(但し、2014年に書いて放置していたもの).

はじめに

僕がウェブを始めて利用したのは、確か 1998 年頃のことだったと記憶している。その当時、神戸大学には総合情報処理センターというのが自然科学系の図書館の隣にあった。2014年現在では「情報基盤センター」と改称されているが、そこでは学生に端末やプリンタを提供していた。シリコン・グラフィックス社の Octane だったか、青いマシンが 20 台ほど置いてあり、学生は好き好きに入室して利用していた。OS は Windows NT 4.0 である。アカウントごとに専用のデスクトップ環境が提供され(でなきゃ「端末」と呼ぶ意味がない)、ほぼディフォールトのアプリケーションだけを使っていた。メールは Message Manager という、高木義博さんが開発・公開されたソフトを使っていたし、ブラウザは Netscape Navigator だった。

ウェブを利用し始めた頃は、オンラインのリソース(以下、ウェブページや音声ファイルや PDF 等を総称して「リソース」とする)と言っても限られたものでしかなく、AltaVista や Lycos といった検索サイトは殆ど使わなかった。その頃は、まだ Google は影も形もなかった。ということで、雑誌で紹介されたサイトの URL をアドレスバーに打ち込んでアクセスしたり、Yahoo! JAPAN のようなディレクトリ型のサイトを利用してアクセスする方が圧倒的に多かったのである(当時は「アクセスする」と言うよりも「ブラウズする」と言っていたが、今となっては古風な響きのある表現に思える)。そうやって利用したサイトは、アメリカの研究者が開設していた(という言い方も、今となっては仰々しいが)個人サイトや、巨大な素数を紹介するサイトなどだ。そうしたサイトを訪れては、アクセスしているマシンは大学の設備なので占拠し続けるのも憚られたため、ウェブページのハードコピーをプリンタで出力していたものである。それは、「あとで読む」の走りともいえる習慣を身に着けたことになるのだろう。

old (style) website 昔のオーソドックスなデザインのサイト。
いまでもこういうサイトはたくさんある。
元プロのデザイナーとして言うが、実はこれで全く何の問題もない。

やがて自宅に自分のマシンを持てるようになり、限られた時間の中で従量課金のコストを気にしてテレホーダイを利用するといったスタイルから、まだ帯域は下りで 3Mbps などと細かったにせよ、常時接続で大きなファイルをダウンロードできるようにもなった。それまでは、自分のマシンでデュアルブートして Armed Linux や DragonLinux のような FAT32 で動く Linux を使おうとすると、数百メガバイトのファイルをテレホーダイの時間内にダウンロードし切るのは難しくて、ReGet のようなレジュームできるダウンロード・ソフトを使っていたものだった。常時接続でオンラインのリソースへアクセスできるようになったのだから、ウェブページの内容を接続時間は気にしないで読むようにはなった。とは言え、インフラの品質が向上していったり、ウェブサイトを開設するブームが起きたりしていた最中であったから、新しく開設されるサイトや作成・公開されるリソースの増加量は、こちらが文章を読んだり動画を眺められる量よりも桁違いに多い。したがって、興味深いページを見つけては「あとで読む」のスタイルでページを保存する機会も大幅に増えたのであった。

2000 年代の前半と言えば、NetScape Navigator や Internet Explorer といった主要な WWW ブラウザ(ブラウザを「WWW ブラウザ」などと呼ぶのも既に古めかしいが、ここではわざとそう表記している)でページを閲覧したときに、まず僕ができたことはページの「完全保存(メニューで「Web ページ、完全」を選んだ保存)」くらいのものだ。それでも、HTML ファイルを単独で(つまり HTML ファイルのソーステキストだけを)保存することに比べれば、当該 HTML ファイルと関連付けられた外部の CSS ファイルや JavaScript ファイルや画像を一緒にダウンロードできるので、重宝したものだ。そしてすぐに、Internet Explorer は 1999 年の IE5 で MHTML 形式での保存をサポートするようになったので、".mht" 形式で外部ファイルもひとまとめにして保存できるようになったため、この形式でウェブページを保存してもいた。「完全保存」では HTML ファイルと同じ階層に、HTML ファイルのファイル名に .files という文字列を加えたフォルダが作成されて、HTML ファイルに関連付けられている画像ファイルや CSS ファイルが保存されたため、やや管理が面倒だった。それゆえ .mht 形式での保存は楽だと思ったのだが、他のブラウザで開こうとするとフリーズしたり、完全保存に比べて外部ファイルの一部が正しく保存されていなかったりしたため、また完全保存に戻ってしまった。

いま僕がウェブページ等のリソースを自分のパソコンに保存するとき、たいていは Mozilla Firefox 用に公開されている ScrapbookGomita さん)というアドオンを利用している。これを使い始めてから、ありがたいことに、ウェブページや PDF などのリソースを自分のマシンへ保存するのが格段に手軽で確実になった。また、保存したリソースをディレクトリ形式で管理しているため、複数のリソースを簡単に別のディレクトリへ移動したり、カテゴリー別に分類しなおすのが楽になった。いまや、Scrapbook で保存したリソースは 200GB ていどになっている(2017年10月の追記。更に増えたので、Blu-ray のドライブを買って 50GB のディスク 6 枚くらいに記録した)。その中には大量の PDF ファイルも含まれていて、2011 年の年末にシュプリンガー社が多くの学術雑誌を期間限定で全てオープンアクセスにしていたため、ERKENNTNIS, Philosophical Studies, Synthese といった、高額な購読料の雑誌に掲載された論文も創刊号から全て保存できた。これらの既に保存したリソースだけでも、全ての論文を読み通したり、全てのカンファレンス動画を閲覧するのは、一生かかっても終わらないほどの分量になっていると思う。

限られた期間にオープンアクセスとなっている資料を収集するという「アーカイブ」の実務作業は、それ自体として一定の意義がある。僕たちアマチュアの研究者は、どれほどベキ論(「学術研究者は対価を支払って他人の成果を得るべきだ」とか)を言ってみたところで、大学の研究者に比べて書籍や雑誌の購入・購読に割ける金額は少ない。経済的に殆ど何の心配もない人々がいてもいいし、そういう人々が科学哲学を学んでもよいが、そういう人々を基準にして市井の勉学なり学術を想定されては困る。もちろん、だからといって、経済的にさほど恵まれていないというのは逆の特権ではない。海賊版として公開されている PDF であろうと学問のためであればダウンロードしても構わないとか、貧乏人であれば多少の違法行為も許されると言っていたのでは、それは正常な学術活動の精神ではなく、単なる妬みや嫉みの歪んだ正当化でしかなかろう。

Scrapbook add-on for Firefox Firefox 用のアドオン Scrapbook

オンラインのリソースを保存するという点については、以上の経緯で説明は十分だろう。他方、オンラインのリソースを作成し公開するという点については次のように説明できる。インターネット通信が普及し始めた 1990 年代の後半頃から、既に blog (web log) として日誌や日記あるいは個人的な備忘録としてウェブページを作成し公開する人々がいた。僕も自分のサイトでサイトの更新情報を書いているうちに、ブログのように雑記や意見を書くようになったし、「ブログ」という概念は知らなかったにせよ、自分のサイトで同じように「ブログエントリー」のようなものを書いていた人は多くいたはずである。そして、それらのページをオンラインに掲示するということは、日誌や備忘録といった個人的な記事を公開するというだけではなく、そうした記事をオンラインにアーカイブするという意味もあったろう。なぜなら、そうした記事を自分のマシンで下書きした後にウェブページとしてマークアップする人もいたが、ウェブ・アプリケーションとしてのブログツールが普及してからは、いわゆる「オン書き」する(ウェブ・アプリケーションのフォームに記事を入力して下書きを作ってから、記事のステータスを切り替えて公開する)人も多かったからだ。特に Twitter や Facebook のように、投稿内容を入力して保存すると、一定の範囲のユーザに対してそのまま公開されてしまうような仕組みでは、もちろん公開範囲を自分だけに設定して事実上の下書きをしてから正式な記事として投稿し直す人もいるが、下書きなしにそのまま投稿する人も多い。したがって、ブログや SNS に公開されている文章の多くは、自分のパソコンに下書きを持っておらず、ウェブサーバ(あるいはデータベースサーバ)にアーカイブされていると言える。更に、SNS の投稿は Twitter に対する Twilog 等のように、他のオンラインサービスにもアーカイブされ得るし、検索エンジンサービスの検索対象になるデータとしても(整形・インデックスされた上で)アーカイブされうる。

もちろん、本稿の主題は昔話ではない。一つの大きなテーマは、誰かの論文にしろウェブページにしろ SNS での発言にしろ、オンラインのリソースを事跡として「アーカイブ」したり(この場合、ローカルマシンにダウンロードしたり、他のオンラインサービスへ取り込んだりする)、自分の文章やファイルをオンラインに「アーカイブ」する(この場合は正式な公開用の著作や動画としてオンラインにアップロードしたり、オンラインで直に文章やイラストを書いたりする)ことの意義についてである。そして、いま述べた説明で二つの用法を挙げたように、本稿で言う「アーカイブ」は、自分自身が制作したり書いたデータないし文章をオンラインに保存し蓄積することと、誰かが制作したり書いたデータないし文章を自分のマシンなりオンラインのサービスに取り込み保存することの両方を指す。なお、「意義」と言っても万人に当てはまるべく意図した一般論を語ろうとするのではなく、自分自身について検討してみた結果を一例として提示するだけに留めたい。

記録や情報についてのセンチメンタリズム

まず僕が避けたいと考える議論は、記録とか情報にまつわる「センチメンタリズム」である。その類型は幾つか考えられる。例えば、「世の中の全ての事実を記録することなど不可能である。しかるに云々」とか、「既存の記録を全て読むことなど不可能である。しかるに云々」とか、「どのように記録していようと、どのみちデータは戦争やコンピュータ・ウィルスへの感染等によって記録装置自体が破壊されたりデータが消失するリスクが避けられない。しかるに云々」といった議論がこれに当たる(場合によっては、これらの議論は「センチメンタリズム」と言うよりも「敗北主義」や「ネガティブ思考」と呼ぶべきかもしれないが、ここでラベルの議論はしない)。

これらの議論に共通する特徴として、まず極端な想定の前提を置いて、それを回避することは不可能だから現実的な解決策を採るべきだと主張するか、あるいは致命的なインパクトをもららす障害や災害が起こりうると仮定して、それゆえインターネット通信やオンラインのサービスは信用すべきでないとか記録など無駄であると主張するかのどちらかである。どちらにしても、僕からみれば「センチメンタル(感傷的)」な議論でしかない。文化的田吾作が好きな表現を使えば、「巨大な敵をやり過ごして立ち回る悲哀」か、「巨大な敵に挑んで斃れる美学」といったところだろう。もちろん致命的なインパクトを被る重大なリスクを全く無視してよいわけではないにせよ、発生する頻度や確率がきわめて低い事象だけを議論に持ち込んで「あれか、これか」の話に落とし込むというのは、原発事故や金融危機に関する夥しい与太話と同じく、もっと頻度の高い事象を個々に避けることで重大なリスクも低減しうるかもしれないのに、我々の身の回りに起きる事象の評価、あるいは事象の推移に関する分析を単純化しすぎている。

そもそもにおいて、世の中の全てのリソースや事実を何かに記録する必要などないし、必要だとしても原理的に現今の技術では不可能である。加えて、既に記録された膨大なリソースについても、既存の記録を全て見聞きする必要がどこにあろうか。そして、上記のセンチメンタルな議論の数々は物理的な可能性や論理的な可能性といった様相を取り違えている。例えば、既存の記録だけについて言えば、それらを全て見聞きすることが物理的に不可能なのではない(したがって、論理的にも不可能ではない)という点を無視している。もし物理的に否定したいと思えば、既存の記録を全て自分自身がアクセスできるところ(自分のデスクトップ・コンピュータでも何でもよいが)へアーカイブすることが不可能であると示したり、「既存の」がこれからも増え続けるデータも含むのであれば、自分自身の認知的な処理の効率と世界中のデータの増加量を比較して、データの増える割合に認知的な処理の効率が原理的に追いつけないと示したり、あるいはそういう処理に費やせる時間を増やせない(不老不死の否定まで必要かどうかはわからないが)と示すなど、色々な可能性を全てア・プリオリに否定できなくてはならないだろう。そこまでやれば、論理的な可能性を否定できるかどうかは概念分析の妥当性に依存する。そして、結論によって物理的な可能性を否定する十分な議論になるかもしれないが、そういう議論は見る限りほぼ存在しない。

インターネット通信を利用したサービスが普及して、通信の範囲や内容が一見すると劇的に多様化したように思えたためか、一時期はインターネット通信によって「新しいコミュニケーション」が生まれるといったフレーズで、何か楽観的な議論が横行したものである。その大半は、いわゆる IT 産業の担い手である「業者」自身の自己陶酔であったり、広告業界やマーケティング業界が商圏の拡大を狙ったプロパガンダであったりしたわけだが(新しいメディアにも予算を割かなくてはいけないが、既存のメディアの予算を削るとプレゼンスが落ちるので、予算規模全体を拡張すべきだという「ロジック」は、いまでもよく目にする)、必ずしも内実を伴わない表面的なお喋りにすぎないと断定できるわけではない。また、このような楽観的な議論に挑戦する著作も現れ、哲学ではヒューバート・ドレイファスの『インターネットについて』という著作がよく知られている。

冒頭に戻る


※ 以下の SNS 共有ボタンは JavaScript を使っておらず、ボタンを押すまでは SNS サイトと全く通信しません。

Google+ Twitter Facebook