機械学習勉強会 7/8

Augmenting Wikipedia with Named Entity Tags

Wisam Dakka,Silviu Cucerzan

Proceedings of IJCNLP2008

今日、桜の下で読んだ論文。

WikipediaのNE(Name Entity;固有表現)を人名、組織、地名、その他に分類しましょう、まぁ要するに固有表現分類ですが、素性はなにが効くんでしょうかというお話。

テキスト全体のBag-of-Words(BOW), AbstractのBag-of-Words, 最初の段落のBag-of-Words、あとInfoBoxやテーブルなどの構造化されたデータ(STRUCT)

あんまり知見として得られたことは判らないですね。結局のところテキスト全体のBOW最強ということくらい?でもBOWは素性数が他と比べて一桁多いので、いくら次元の呪いが考えられるといっても、この程度であれば、勝てるのは当然なんじゃないかなと思うんですが。。。それより、素性の数がだいぶ少ないSTRUCTが競争的であることのほうが驚きかな。

あと最後にCo-Trainingをしてるんですが、各学習器に用いている素性が、一方は性能が一番高かったもの、もう一方が一番性能が低かったものを使っているというのもなんかしっくりこない。性能でないと報告されているけど、当然じゃないのかな。

BOWでWordNetから引っ張ってきて、それを素性に使うとか、BOWに他のエントリがあったら、それも素性に含めるとかだったらまだ判るんだけど。。。