Biography、すなわち自己紹介を人手で作るのはコストがかかりすぎるからWikipediaから自動生成しましょうというお話。
より厳密に言えば、Wikipediaからある人名に関係する文書を収集して、重要文選択で要約するというQuery-biased Multidocument Summarization.

面白いと思ったのは冗長性を除去するために、クラスタリングを活用したところ。
single-link nearest neighbor clusteringといって、各ノードからのリンクを一つに限定して距離的に近いノード同士をリンクで結ぶことで、クラスタに分割するという手法を用います。これを使って分かれたクラスタの中で最も高いスコアの文を要約の候補にします。

クラスタ数がデータ依存なのと、クラスタ自体が小さいなるので今回の手法では都合が良かったのかも。

2009-04-12

テレビ

麻生さんが４月９日に新たな経済政策の取り組みについて講演していた動画が政府インターネットテレビで見つけました。すげえ面白い

http://nettv.gov-online.go.jp/prg/prg2519.html

エコと介護分野がアツかった

エコ

小中高校にソーラーを取り付ける
ソーラーによる自家発電により余った電気の買い取り価格を政府の資金援助により２倍に
- 約１０年で元が取れる計算

介護

介護分野の平均年収は他の分野の平均年収に比べ100万以上低い
キャリアアップの展望が立たない
介護のための基金を確立
介護報酬とは別に政府が上ずみ
キャリアに応じて待遇があがっていく仕組みへの変更
都内の？介護施設を重点的に改善

その他

景観工事による、観光の活性化
漫画の海外での産業化
GDPから国民総所得(GNI)への転換
アジア単位での産業の発展

漫画に対して言及しているあたり麻生さんらしいというか。

2009-04-08

輪講 4/7-2

論文紹介

Generation by Inverting a Semantic Parser That uses Statistical Machine Translation

Yuk Wah Wong and Raymond J. Mooney(Department of Computer Sciences The
University of Texas)

NAACL 2007

2本目。このお話は、MR(Meaning representations)という機械に命令をするために用意された言語を自然言語に変換するのにSMT(統計的機械学習)の知識を使ってみましょう、というお話で、MRと自然言語の対訳コーパスがあれば構築できるよう。NAACLのベストペーパーだったらしい。GIZA++を使ってアライメント(対訳の対応関係)を取って、取れたアライメントを用いてSCFG(あるCFGが来たら別のCFGに変換することを可能にするCFGの亜種。CFGのルールのペアがルールになる)を自動生成する、というSMTのお話をベースにしてます。自然言語だと読みやすさを考慮しなければならないので、読みやすさに関するスコアとしてTrigram言語モデルを入れて、読みやすくかつ、MRの意味に即した自然文を生成するということをしてます。

読みやすさに関する手法はSMTで使えるんじゃないんですかね。SMT全然触ってないのでわからないですけど。

ただし、この論文では、いろいろな改良をしているらしく、それでケースによっては15ポイントも性能があがってたりして、SMT関連はまだまだ知られていない知見が沢山あるような予感がします。

いろんな問題を翻訳とみる話は流行ってるのかな。この間も文と圧縮文への変換を翻訳と見ましょうという話があったし。まぁ面白そうではある。

2009-04-08

機械学習勉強会 7/8

論文紹介

Augmenting Wikipedia with Named Entity Tags

Wisam Dakka，Silviu Cucerzan

Proceedings of IJCNLP2008

今日、桜の下で読んだ論文。

WikipediaのNE(Name Entity;固有表現)を人名、組織、地名、その他に分類しましょう、まぁ要するに固有表現分類ですが、素性はなにが効くんでしょうかというお話。

テキスト全体のBag-of-Words(BOW), AbstractのBag-of-Words, 最初の段落のBag-of-Words、あとInfoBoxやテーブルなどの構造化されたデータ(STRUCT)

あんまり知見として得られたことは判らないですね。結局のところテキスト全体のBOW最強ということくらい？でもBOWは素性数が他と比べて一桁多いので、いくら次元の呪いが考えられるといっても、この程度であれば、勝てるのは当然なんじゃないかなと思うんですが。。。それより、素性の数がだいぶ少ないSTRUCTが競争的であることのほうが驚きかな。

あと最後にCo-Trainingをしてるんですが、各学習器に用いている素性が、一方は性能が一番高かったもの、もう一方が一番性能が低かったものを使っているというのもなんかしっくりこない。性能でないと報告されているけど、当然じゃないのかな。

BOWでWordNetから引っ張ってきて、それを素性に使うとか、BOWに他のエントリがあったら、それも素性に含めるとかだったらまだ判るんだけど。。。