MacからDebianにsshでつないでscreenしてvimするとdeleteキーが使えない問題の解決方法
nowaのやつが消えていたので、無断ながら転載
http://ujihisa.nowa.jp/entry/958ccbb747
.screenrcに
bindkey -k kD stuff \177
と入力して,screenを起動すればOK
輪講4/21 -2
Extracting Named Entities and Relating Them over Time Based on Wikipedia
Abhijit Bhole,Blaž Fortuna, Marko Grobelnik and Dunja Mladenić
Infomatica 31 2007 pp.463-468
固有表現(Name Entity;NE)同士の共起を測り、あるNEと関わりのあるNEをタイムラインで表示するというお話。例では人名と人名を扱ってました。
特に面白いことはなかったかなぁ。共起は何を使ったんだろうくらいかな。数値を見る限りではシンプソン係数ではなかったみたいだけど。
輪講4/21 -1
先週はcho-さんの発表で英語だったから紹介しなかった訳じゃないんだからね!
An Unsupervised Approach to Biography Production using Wikipedia
Fadi Biadsy,y Julia Hirschbergy and Elena Filatova*
ACL2008
Biography、すなわち自己紹介を人手で作るのはコストがかかりすぎるからWikipediaから自動生成しましょうというお話。
より厳密に言えば、Wikipediaからある人名に関係する文書を収集して、重要文選択で要約するというQuery-biased Multidocument Summarization.
面白いと思ったのは冗長性を除去するために、クラスタリングを活用したところ。
single-link nearest neighbor clusteringといって、各ノードからのリンクを一つに限定して距離的に近いノード同士をリンクで結ぶことで、クラスタに分割するという手法を用います。これを使って分かれたクラスタの中で最も高いスコアの文を要約の候補にします。
テレビ
麻生さんが4月9日に新たな経済政策の取り組みについて講演していた動画が政府インターネットテレビで見つけました。すげえ面白い
http://nettv.gov-online.go.jp/prg/prg2519.html
エコと介護分野がアツかった
エコ
- 小中高校にソーラーを取り付ける
- ソーラーによる自家発電により余った電気の買い取り価格を政府の資金援助により2倍に
- 約10年で元が取れる計算
介護
輪講 4/7-2
Generation by Inverting a Semantic Parser That uses Statistical Machine Translation
Yuk Wah Wong and Raymond J. Mooney(Department of Computer Sciences The
University of Texas)
NAACL 2007
2本目。このお話は、MR(Meaning representations)という機械に命令をするために用意された言語を自然言語に変換するのにSMT(統計的機械学習)の知識を使ってみましょう、というお話で、MRと自然言語の対訳コーパスがあれば構築できるよう。NAACLのベストペーパーだったらしい。GIZA++を使ってアライメント(対訳の対応関係)を取って、取れたアライメントを用いてSCFG(あるCFGが来たら別のCFGに変換することを可能にするCFGの亜種。CFGのルールのペアがルールになる)を自動生成する、というSMTのお話をベースにしてます。自然言語だと読みやすさを考慮しなければならないので、読みやすさに関するスコアとしてTrigram言語モデルを入れて、読みやすくかつ、MRの意味に即した自然文を生成するということをしてます。
読みやすさに関する手法はSMTで使えるんじゃないんですかね。SMT全然触ってないのでわからないですけど。
ただし、この論文では、いろいろな改良をしているらしく、それでケースによっては15ポイントも性能があがってたりして、SMT関連はまだまだ知られていない知見が沢山あるような予感がします。
いろんな問題を翻訳とみる話は流行ってるのかな。この間も文と圧縮文への変換を翻訳と見ましょうという話があったし。まぁ面白そうではある。
機械学習勉強会 7/8
Augmenting Wikipedia with Named Entity Tags
Wisam Dakka,Silviu Cucerzan
Proceedings of IJCNLP2008
今日、桜の下で読んだ論文。
WikipediaのNE(Name Entity;固有表現)を人名、組織、地名、その他に分類しましょう、まぁ要するに固有表現分類ですが、素性はなにが効くんでしょうかというお話。
テキスト全体のBag-of-Words(BOW), AbstractのBag-of-Words, 最初の段落のBag-of-Words、あとInfoBoxやテーブルなどの構造化されたデータ(STRUCT)
あんまり知見として得られたことは判らないですね。結局のところテキスト全体のBOW最強ということくらい?でもBOWは素性数が他と比べて一桁多いので、いくら次元の呪いが考えられるといっても、この程度であれば、勝てるのは当然なんじゃないかなと思うんですが。。。それより、素性の数がだいぶ少ないSTRUCTが競争的であることのほうが驚きかな。
あと最後にCo-Trainingをしてるんですが、各学習器に用いている素性が、一方は性能が一番高かったもの、もう一方が一番性能が低かったものを使っているというのもなんかしっくりこない。性能でないと報告されているけど、当然じゃないのかな。
BOWでWordNetから引っ張ってきて、それを素性に使うとか、BOWに他のエントリがあったら、それも素性に含めるとかだったらまだ判るんだけど。。。