パーソナルデータに関する ISP の限界

Takayuki Kawamoto

1st appeared: 2016-03-15 10:45:09.

本稿では、2016年2月19日にジョージア工科大学（Georgia Institute of Technology）の情報セキュリティとプライバシー研究所（the Institute for Information Security & Privacy）が公開した、ピーター・スワイァ（Peter Swire, ジョージア工科大学教授）、ジャスティン・ヘミングス（Justin Hemmings, ジョージア工科大学研究員）、アラナ・カークランド（Alana Kirkland, オールストン & バードの弁護士）が公表した、「オンライン・プライバシーと ISP」（Peter Swire, Justin Hemmings, and Alana Kirkland, “Online Privacy and ISPs: ISP Access to Consumer Data is Limited and Often Less than Access by Others” (2016-02-29) と、これに対する幾つかの批評を取り上げます。なお、この論文は「スワイァ・ペーパー（“Swire Paper”）」と呼ばれていますが、責任執筆者だけの名前で呼ぶのはどうも好きではないので、本稿では「ISP論文」と呼びます。なお、ISP 論文はフィードバックを受けて 3 月 6 日に補遺（Addendum）を公開しています。

ISP 論文の概要

まず ISP 論文の概要を説明します。この論文の背景として、アメリカの放送通信事業を監督する連邦通信委員会（FCC）がネットワーク中立性（“net neutrality”）に絡んで 2015 年に採択した “Open Internet Order” において、インターネット接続事業者（ISPs）に対してコンテンツへのアクセスをブロックしたり、優良顧客へ帯域を優先して割り当てる等の差別的な扱いをしないといった提案を示しており、2016 年に入ってからも ISP に対して位置情報や行動履歴を利用するにあたってオプトインするよう要求するルール案を出しているという事情があります。しかし、特定の政策の良し悪しについて議論することが ISP 論文の目的ではないため、ここでは触れません。どのみち、ISP に対する利用者の理解を正確にしなければ、政策の議論になっても印象や誤解に基づいてしまうことになるため、ここでまず ISP が何をしていて、何をしていないかをはっきりさせておく必要があるでしょう。

IPS 論文のポイントは、大きく言って二つあります。第一に、ISP はユーザのデータへ包括的にアクセスできるわけではありません。ISP の人員が我々のデータへアクセスするには、現実に技術的な限界があるのです。そして第二に、ISP が我々のデータへアクセスできる場合でも、それは ISP だけに可能というわけではありません。他の企業は、我々のデータに寧ろ ISP よりもアクセスしやすい場合があります。

ISP のアクセスに限界があるという主張には、これも大別すると三つの理由があります。第一に、いまやインターネットを利用しているユーザの多くは複数のデバイスを使っているからです。2020年には、モバイル機器によるデータトラヒックの 60% が WiFi ネットワークを利用すると予想され、誰もが複数のインターネット接続業者を使ってネットへアクセスするようになるからです。第二に、HTTPS を利用して暗号化された通信が増えており、ISP がユーザの通信内容へアクセスできなくなってきているからです。2016 年の終わりには、70% のトラヒックが暗号化されるようになると予測されています。そして第三に、ISP の大きな役割の一つは、リクエストされたホスト名と目当ての IP アドレスの対応関係を解決することでしたが、これは徐々に VPN やプロキシサービスが普及してきているため、ユーザの送受信しているデータどころか、ユーザがどこへアクセスしているのかすら ISP には分からなくなるでしょう。

これらとは逆に、ISP 以外の事業者がユーザのデータにどんどんアクセスできるようになってきています。特に、ソーシャルメディア、検索エンジン、ウェブメールやメッセージサービス、OS、モバイル・アプリケーション、広告、ブラウザ、オンラインの動画、そして E コマースという色々な脈絡において、ISP にはアクセスできないデータを他の事業者が扱えるようになっています。そして、ISP にはアクセスできないデータを使って、多くの事業者が「クロス・コンテクストのトラッキング（“cross-context tracking”）」や「クロス・デバイスのトラッキング（“cross-device tracking”）」によって利益を得ています。

冒頭に戻る

あなたについて ISP が（たぶん）知っていること

ISP 論文について出ているフィードバックのうち、まずプリンストン大学（Princeton University）のニック・フィームスター（Nick Feamster）が「あなたについて ISP が（たぶん）知っていること（ “What Your ISP (Probably) Knows About You,” 2016-03-04）」ブログ記事として公開した論評を取り上げます。まずフィームスターは、特定の政策の良し悪しだけではなく、ISP がユーザのデータにアクセスできること自体についても良し悪しを判断しないと述べています。なぜなら、ISP がユーザのデータへアクセスできることは、考えようによってはユーザのセキュリティを守ったり、ユーザのネットワークを適正に管理したり、あるいは悪意のユーザを見つけるために有効だと言いうるからです。しかしそうした点を除外しても、フィームスターによれば、ISP 論文には幾つかの誤りがあると言います。

まず一点目の指摘は、ISP 論文では複数のインターネット接続業者を使ってネットへアクセスするようになると言われていますが、これはインターネット接続の契約によっては、最初から無線ベースの通信回線を契約する人が増えてきたら、家庭でも無線でネットにアクセスするので、特定の ISP が自宅でも屋外でもプロバイダとしてのサービスを提供するので、ユーザのデータへアクセスできる業者が分散するとは限りません。

二点目に、ISP 論文では HTTPS を利用して暗号化された通信が増えており、ISP がユーザの通信内容へアクセスできなくなってきていると言われていますが、インターネット通信で使われている DNS の逆引き（IP アドレスからホスト名に変換すること）は暗号化されておらず、IoT の時代においても同じ仕様のままであれば、数多くのデバイスとサーバとの通信では暗号化されない DNS の逆引きを利用するでしょう。また、TLS を利用してサイトへのアクセスを暗号化するとは言っても、ハンドシェイクにあたっては SNI (Server Name Indication）という平文のリクエストを使うので、どこにアクセスしているかを ISP に隠すことはできません。

三点目に、VPN やプロキシサービスが普及してきているため、ユーザの送受信しているデータは ISP から見えなくなると述べていますが、VPN のトンネリングが ISP による DNS へのリクエストを遮断するかどうかは、実は ISP 側のトンネリング設定に依存しています。もしユーザが ISP の DHCP を使っている場合、DNS サーバは ISP のものを使うので、ISP からのアクセスを妨げることはできないでしょう。そして、多くの VPN クライアントでは、DHCP なり DNS は ISP のものを使うと初期設定されています。いずれにしても、多くの初心者にとって VPN ネットワークを ISP とは無関係に構築することは非常に面倒な作業です。

このような各点を指摘して、フィームスターは「望むらくは、ISP の能力について抜けのないバランスの取れた論文になるよう改善を求めたい（“I hope that the original working paper is revised to reflect a more complete and balanced view of ISPs' capabilities.”）」と結論を出しています。

冒頭に戻る

ISP は何を見られるのか

次に、法律と IT をカバーしながら投票や国防などに関わる政策提案のサポートを業務としている Upturn のアーロン・リーク（Aaron Rieke）、デイヴィッド・ロビンソン（David Robinson）そして Harlan Yu（ハーラン・ユー）が公表した「ISP は何を見られるのか（“What ISPs Can See: Clarifying the technical landscape of the broadband privacy debate”）」というレポートを見てみましょう。このレポートの要点は、冒頭で以下のようにまとめられています。

インターネット上の暗号化が本当に普及したと言えるまでには、まだほど遠い現状だ。（Truly pervasive encryption on the Internet is still a long way off.）
ユーザが HTTPS を使っても、ISP はユーザがアクセスしようとするドメインを知り得る。（Even with HTTPS, ISPs can still see the domains that their subscribers visit.）
暗号化されたネット通信そのものが、驚くべきことに色々なデータを公にする場合がある。（Encrypted Internet traffic itself can be surprisingly revealing.）
VPN は殆ど普及しておらず、しかも VPN による通信内容の保護は不完全である。（VPNs are poorly adopted, and can provide incomplete protection.）

以上のうち、第二の点はフィームスターも指摘していたことなので、割愛します。また、第四の点については議論の余地がないので、これも割愛します。VPN のうち ISP の閉域通信網を優先して使う IP-VPN については、現在はビジネス向けのサービスが数多く提供されてはいます。また、インターネット通信を利用するインターネット VPN については、私が在籍する会社でもクライアントのステージング・サーバとの接続、あるいは遠方の当社営業所から本社のファイルサーバへアクセスするために使っていますが、まだまだ普及しているとは言えないでしょう。なお、Upturn のレポートでは、インターネット VPN 、しかもルータ機器の機能ではなく VPN サーバを構築したケースに限定して議論していますが、このケースでは VPN サーバを構築したり SSL の CA（認証局）を独自に設定する技術者を必要とするため、VPN の導入は ISP が提供するサービスを導入するのに比べて更に困難となります。なお、ISP 論文のもともとの目的はISP がどれくらいユーザの通信内容にアクセスできるのかということでしたが、VPN を使っても、通信先の IP アドレスを ISP から隠すことはできません。

さて第一の点に戻ると、フィームスターが指摘した第二の点と同じく、暗号化通信の普及に関わっています。ISP 論文では、暗号化通信が普及して ISP はユーザの通信内容にアクセスできなくなると述べていますが、フィームスターは HTTPS プロトコルの仕様から言ってユーザがどのドメインにアクセスしているかは ISP に分かってしまうと反論しました。とは言え、ISP に察知しうるユーザの通信内容が DNS を通した名前の解決やハンドシェイクに限定されてしまうことは事実です。これに対して、Upturn のレポートでは暗号化通信について次のように述べられています。

インターネット通信においてトラヒックが暗号化されている割合というものは、個々のユーザのプライバシーについて語るための有効な指標とは言えない。スワイァの論文では、「2016 年の終わりまでには、おおよそ 70% のトラヒックが暗号化されているだろう」と正しく推定し、「ディープリンクとその通信内容は、インターネット上で暗号化されるのが当たり前になってくる」と述べている。しかし、これらのトラヒックは、北米の下りのトラヒック全体の 35% を占める Netflix のようなサービスの数値を含んでいる。

Rieke, Robinson, and Yu, “What ISPs Can See: Clarifying the technical landscape of the broadband privacy debate.”

Upturn の反論からすれば、仮に或る人の利用実態としてインターネット通信の殆どがストリーミング動画の視聴に費やされているとしても、残りの僅かな通信量が暗号化されていないサイトへのプライバシーにかかわるアクセスだったとすれば、通信利用量の 99.999% を暗号化されたストリーミング通信が占めていることは、そのユーザのプライバシーが保たれていることの証拠にはならないというわけです。

次に第三の点については、仮に通信が暗号化されていても、通信のタイミングや通信パケットの量、あるいは通信先という限られた情報からだけで、ISP はユーザについて多くのことを知り得ると言います。そして、それゆえに、インターネット通信を検閲しているような国々では、同じ技術を使って国民の通信パターンを解析しているというわけです。

このような、彼らの言い方では「サイドチャネル情報（“side channel” information）」からユーザが通信を利用している実態を解析するには、色々な手法があります。その一つは、個々のウェブページに固有な特徴を解析することで、Upturn のレポートでは “web site fingerprinting” と呼ばれています。昨今、多くのウェブサイトやウェブアプリケーション・サービスでは、特定の外部 API 通信や JavaScript による「リッチ」コンテンツの提供など、数多くのリソースを組み合わせたコンテンツを提供しています。もはや「マッシュアップ」などとわざわざ言うのが馬鹿げていると言ってもよいくらいです。そして、これらの様々なリソースには、ウェブサイトやサービスごとに独特の内容あるいはカスタマイズが施されています。このため、仮にユーザの通信内容が暗号化されていたとしても、それら独特の内容を反映する特性、たとえばレスポンスされた CSS ファイルや JavaScript ファイルのバイト数（ファイルサイズ）、それらのファイルがメタタグにおいて読み込まれている場合にはファイルの数、あるいは外部のサービスから API で呼び出されているならレスポンスの所要時間などは、ユーザ側でコントロールできる範囲を超えており隠しようがありません。また、商品を検索して購入するまでの画面遷移の回数や各ページの滞在時間から、どこのショッピングサイトを利用しているかを推定できるようです。更には、検索エンジンで提供されている自動補完機能（suggestion, auto complete）において、個々のアルファベットが入力されたときのレスポンスから、入力されている文字を推定する手法まであるようです。

冒頭に戻る

ISP 論文の主旨は、ISP がユーザの通信内容をどこまで知り得るかというものでした。彼らが実際にユーザの通信内容を（業務としてであろうと、個人的な盗み見であろうと）見ているかどうかは、それが法令で認められた行為であるかどうかにも関わるので、一概に良し悪しや事実かどうかを語るわけにはいきません。そして、そういう前提で考えると、なるほど Upturn のレポートが指摘しているようなサイドチャネル情報によるユーザの情報まで詳しく解析しているかどうかは分かりませんが、我々が ISP あるいは携帯の通信キャリアを介してインターネット通信を利用せざるを得ない以上、たとえ通信を暗号化していても、通信先のホスト名だけではなく、もっと多くのことが ISP やキャリアに知られてしまう可能性があると言えるでしょう。したがって、暗号化通信が普及すればインターネット通信でプライバシーが保護されるようになるという ISP 論文の推定はナイーブであると言えます。そして、現今の IT 業界においては、サイドチャネル情報を使った解析手法などのテクノロジーがひとたび多くの（ビジネスチャンスを探している）人たちの関心を集めるようになると、Excel 並みに扱いが簡単なツールとして普及するまでは多くの時間がかかりません。何も脅すようなことを言いたいわけではありませんし、ISP や通信キャリアにそもそも悪意があると言いたいわけでもありませんが、昨今見られるような、ウェブサイトをフル HTTPS 化すれば何かが格段に安全になるという宣伝文句の類には（恐らくやらないよりはマシだと思いますが）、やはり距離を置いた方がよいのでしょう。

冒頭に戻る

パーソナルデータに関する ISP の限界

ISP 論文の概要

あなたについて ISP が（たぶん）知っていること

ISP は何を見られるのか

コメント