PAGERANKと真なるユーザー存在率との関係には齟齬がある

理論としては「ユーザーがリンクの中からランダムに一つを選択して移動すると仮定した時のページ存在率を算出したもの」のがPageRankであるといえます。
今のPageRankの概念では真なるユーザーのページ存在率≠PageRankということになります。どうしてこの差が出てしまうのか。

PageRank再考 - ブログ執筆中

それはこの算出方法では真なるユーザー存在率とはあまりにもかけ離れた結果が出てくるページ群があるのだ。

それらとは、ブログだ。

ブログはやたらめったにリンクがある。これは利便性を向上させるためにリンク構造を自動で創り上げるシステムが組み込まれているが、pagerankにはこれがマイナスに出る。相互にリンクが貼られればpagerankの性質上、貼られる前に比べ、両者のpagerankの差が小さくなるが、相互にリンクする方法はトラックバックを筆頭にいくらでもあげられる。ブログはロングテールがあるので、そうやって平均化されるうちにどんとんpagerankが下がってしまう。一方、普通のホームページにおいてリンクを張るのは手動であり、非常に面倒である。それゆえ、貼られるリンクは本当にしたいリンクだけに絞られる。それゆえ、一般のページにおいてPageRankは正しく機能する。結果としてブログ以外のページにpagerankを抜かれてしまうのだ。

クローラーを作っていた大学の知人が言っていたことだが、リンクをランダムに辿って行くとアダルトページに行き着いてしまうか、ブログから出られなくなってしまうそうな。

今思いついたことだが、APIを利用する時に「APIを使っている」という明示を画像およびリンクの形で求められることが多い。APIの宣伝とともにPageRankも集めようとしていると見ることが出来ますね。そう考えればウィジットも同じだ。このサイトのサイドバーを見てもらえば一目瞭然かと思います。

このように企業はあらゆる方法を使って真なるユーザー存在率とかけ離れたPageRankを作ろうとしている。PageRankをそのまま使っているなら Googleのデータベースはあまり信頼ならないと言うべきなのか、それは判らないですけど、俺が正しいと思う判断基準とはずれていくことになります。

では、どうすれば、真なるユーザー存在率に近いランク付けが出来るようになるのだろうか。その答えは、やはりGoogleにあったのです。

続く