輪講 4/7-1

というわけで、今日から僕が出ている限りの奥村研の輪講および勉強会で紹介された論文を紹介したいと思います。

Emotion Classification Using Massive Examples Extracted from the Web

Ryoko Tokuhisa(Toyota Central R&D Labs), Kentaro inui, Yuji Matsumoto
( Nara Institute of Science and Technology )

Coling 2008

肯定的なのか否定的なのかといった極性を分類する論文は数多くありますが、こちらは楽しい、嬉しい、安心、怖いといった感情を分類するというお話。『雨が降った「から」悲しい』とか『遊園地へ行ったら子供がはしゃいだ「ので」疲れた』といった、感情が発現するに至った現象とその感情を結ぶ手がかりとなる表現から、現象と感情のペアを自動的に作成し、それを用いて学習器を生成するというもの。ん, 「疲れた」は感情じゃないか?

自動で生成されているにしては、そこそこの性能は出ているとも思うが、問題設定に疑問があるかなぁ。

例えば、「遊園地へ行ったら子供がはしゃいだ」ことは「疲れる」と同時に「喜ばしい」ことでもあるので、一つの現象に対し複数の感情が発現する可能性はあるはず。論文中では複数正解のデータセットを作っているので著者も絶対気づいているから、複数正解を許容した手法も提示してほしいかなと思いました。ただ評価方法とかどうやるんでしょうね。F値になるのかな。

あと素性に1~3-gramを使っているということで連続した単語の素性しか見ていないようですけれど、skip bi-gramは効きそう. 「友達の家に遊びに行く」と「友達と渋谷に遊びにいく」は共に「嬉しい」という感情がつきまとうと思うんですが、それだったら「友達」「遊び」というペアが「嬉しい」という感情に結びつきやすいと出力してもおかしくないと思う。