輪講4/21 -1

先週はcho-さんの発表で英語だったから紹介しなかった訳じゃないんだからね!

An Unsupervised Approach to Biography Production using Wikipedia
Fadi Biadsy,y Julia Hirschbergy and Elena Filatova*
ACL2008

Biography、すなわち自己紹介を人手で作るのはコストがかかりすぎるからWikipediaから自動生成しましょうというお話。
より厳密に言えば、Wikipediaからある人名に関係する文書を収集して、重要文選択で要約するというQuery-biased Multidocument Summarization.

面白いと思ったのは冗長性を除去するために、クラスタリングを活用したところ。
single-link nearest neighbor clusteringといって、各ノードからのリンクを一つに限定して距離的に近いノード同士をリンクで結ぶことで、クラスタに分割するという手法を用います。これを使って分かれたクラスタの中で最も高いスコアの文を要約の候補にします。

クラスタ数がデータ依存なのと、クラスタ自体が小さいなるので今回の手法では都合が良かったのかも。