PageRank再考

PageRankについて疑問がある。それを考える上で、まずは概念の確認から。

PageRankの理論はそんなに難しくない。PageRankってランダムウォーク問題*1の拡張なのだ。
まずは「ランダムウォークって何だ?」という所から始めてみたい。ランダムウォークの正しい定義が日本のWikipediaに無かったので英語版からおとりよせ。

The simplest random walk is a path constructed according to the following rules:

  • There is a starting point.
  • The distance from one point in the path to the next is a constant.
  • The direction from one point in the path to the next is chosen at random, and no direction is more probable than another.
http://en.wikipedia.org/wiki/Random_walk

惰訳

最もシンプルなランダムウォークとは以下のルールによって作られたパスである。

  • 開始点がある
  • パス上のある点から次の点への距離は、いずれも一定である。
  • パス上のある点から次の点への方向はランダムで選ばれ、どの方向も他の方向と同じ確率になる。

Webページを点、閲覧の順序をパスとしてみると、上の条件を満たすユーザーの動きは以下のようになる。

  • Web上のあるページから見始める
  • あるページの数あるリンクの中からランダムに一つを選択して移動する。

このように、あるページからリンクを辿ってユーザーが移動するという条件の下で、ユーザーがページに存在する確率って何だという問題がランダムウォーク問題です。でも、これこそが実はPageRankだったりします。いくらかの確率で経路から離れる、等の条件もPageRankには付与しているので、全く同じとは言えないんですが、だからこの文章のはじめに書いたとおり、「ランダムウォーク問題の拡張だ」となるわけです。

解き方は兎も角として、理論としては「ユーザーがリンクの中からランダムに一つを選択して移動すると仮定した時のページ存在率を算出したもの」のがPageRankであるといえます。

とまあ、PageRankの正体を俯瞰してみました。ここである疑問が浮かびます。もし、真なるユーザーのページ存在率=PageRankであれば、SEOなぞ何の意味を果たさなくなるはずです。最も適したSEOはユーザーを呼び込めるようにページのデザインとコンテンツを考えることになるわけで、それはサイト構築論と同じになり、SEOと特別な分野として考える必要がなくなってしまうからです。しかし現実にSEOが役割を果たしている今のPageRankの概念では真なるユーザーのページ存在率≠PageRankということになります。どうしてこの差が出てしまうのか。その謎を推し進めて行きたいと思います。

続く

*1:ただし、グラフ理論上の