MacからDebianにsshでつないでscreenしてvimするとdeleteキーが使えない問題の解決方法

nowaのやつが消えていたので、無断ながら転載
http://ujihisa.nowa.jp/entry/958ccbb747

  • MacからDebian系にsshで接続
  • screenを起動
  • Deleteを押してもエラーが出るばかりで文字の消去ができない


.screenrcに

bindkey -k kD stuff \177

と入力して,screenを起動すればOK

輪講4/21 -2

Extracting Named Entities and Relating Them over Time Based on Wikipedia

Abhijit Bhole,Blaž Fortuna, Marko Grobelnik and Dunja Mladenić

Infomatica 31 2007 pp.463-468

固有表現(Name Entity;NE)同士の共起を測り、あるNEと関わりのあるNEをタイムラインで表示するというお話。例では人名と人名を扱ってました。

特に面白いことはなかったかなぁ。共起は何を使ったんだろうくらいかな。数値を見る限りではシンプソン係数ではなかったみたいだけど。

輪講4/21 -1

先週はcho-さんの発表で英語だったから紹介しなかった訳じゃないんだからね!

An Unsupervised Approach to Biography Production using Wikipedia
Fadi Biadsy,y Julia Hirschbergy and Elena Filatova*
ACL2008

Biography、すなわち自己紹介を人手で作るのはコストがかかりすぎるからWikipediaから自動生成しましょうというお話。
より厳密に言えば、Wikipediaからある人名に関係する文書を収集して、重要文選択で要約するというQuery-biased Multidocument Summarization.

面白いと思ったのは冗長性を除去するために、クラスタリングを活用したところ。
single-link nearest neighbor clusteringといって、各ノードからのリンクを一つに限定して距離的に近いノード同士をリンクで結ぶことで、クラスタに分割するという手法を用います。これを使って分かれたクラスタの中で最も高いスコアの文を要約の候補にします。

クラスタ数がデータ依存なのと、クラスタ自体が小さいなるので今回の手法では都合が良かったのかも。

テレビ

麻生さんが4月9日に新たな経済政策の取り組みについて講演していた動画が政府インターネットテレビで見つけました。すげえ面白い

http://nettv.gov-online.go.jp/prg/prg2519.html

エコと介護分野がアツかった

エコ

  • 小中高校にソーラーを取り付ける
  • ソーラーによる自家発電により余った電気の買い取り価格を政府の資金援助により2倍に
    • 約10年で元が取れる計算

介護

  • 介護分野の平均年収は他の分野の平均年収に比べ100万以上低い
  • キャリアアップの展望が立たない
  • 介護のための基金を確立
  • 介護報酬とは別に政府が上ずみ
  • キャリアに応じて待遇があがっていく仕組みへの変更
  • 都内の?介護施設を重点的に改善

その他

  • 景観工事による、観光の活性化
  • 漫画の海外での産業化
  • GDPから国民総所得(GNI)への転換
  • アジア単位での産業の発展


漫画に対して言及しているあたり麻生さんらしいというか。

輪講 4/7-2

Generation by Inverting a Semantic Parser That uses Statistical Machine Translation

Yuk Wah Wong and Raymond J. Mooney(Department of Computer Sciences The
University of Texas)

NAACL 2007

2本目。このお話は、MR(Meaning representations)という機械に命令をするために用意された言語を自然言語に変換するのにSMT(統計的機械学習)の知識を使ってみましょう、というお話で、MRと自然言語の対訳コーパスがあれば構築できるよう。NAACLのベストペーパーだったらしい。GIZA++を使ってアライメント(対訳の対応関係)を取って、取れたアライメントを用いてSCFG(あるCFGが来たら別のCFGに変換することを可能にするCFGの亜種。CFGのルールのペアがルールになる)を自動生成する、というSMTのお話をベースにしてます。自然言語だと読みやすさを考慮しなければならないので、読みやすさに関するスコアとしてTrigram言語モデルを入れて、読みやすくかつ、MRの意味に即した自然文を生成するということをしてます。

読みやすさに関する手法はSMTで使えるんじゃないんですかね。SMT全然触ってないのでわからないですけど。

ただし、この論文では、いろいろな改良をしているらしく、それでケースによっては15ポイントも性能があがってたりして、SMT関連はまだまだ知られていない知見が沢山あるような予感がします。

いろんな問題を翻訳とみる話は流行ってるのかな。この間も文と圧縮文への変換を翻訳と見ましょうという話があったし。まぁ面白そうではある。

機械学習勉強会 7/8

Augmenting Wikipedia with Named Entity Tags

Wisam Dakka,Silviu Cucerzan

Proceedings of IJCNLP2008

今日、桜の下で読んだ論文。

WikipediaのNE(Name Entity;固有表現)を人名、組織、地名、その他に分類しましょう、まぁ要するに固有表現分類ですが、素性はなにが効くんでしょうかというお話。

テキスト全体のBag-of-Words(BOW), AbstractのBag-of-Words, 最初の段落のBag-of-Words、あとInfoBoxやテーブルなどの構造化されたデータ(STRUCT)

あんまり知見として得られたことは判らないですね。結局のところテキスト全体のBOW最強ということくらい?でもBOWは素性数が他と比べて一桁多いので、いくら次元の呪いが考えられるといっても、この程度であれば、勝てるのは当然なんじゃないかなと思うんですが。。。それより、素性の数がだいぶ少ないSTRUCTが競争的であることのほうが驚きかな。

あと最後にCo-Trainingをしてるんですが、各学習器に用いている素性が、一方は性能が一番高かったもの、もう一方が一番性能が低かったものを使っているというのもなんかしっくりこない。性能でないと報告されているけど、当然じゃないのかな。

BOWでWordNetから引っ張ってきて、それを素性に使うとか、BOWに他のエントリがあったら、それも素性に含めるとかだったらまだ判るんだけど。。。