人口無能

前々から企んでいた人口無能を作り始める。きっかけはfriend:hmxのグループが演習で人口無能を作ってたから。
目標はid:namipikaのような日記を自動生成して、id:sorapikaに投稿すること。
基本方針は、

  1. id:namipikaの文章を取得
  2. 形態素分析
  3. マルコフモデルにする。(ある単語のあとにはどんな単語ことが多いかを調べる)
  4. 文章を自動生成
  5. はてダラで投稿

のつもり。
とりあえず、RSS経由で日記を取得して保存することろまで書いた。
RSSだと取得できる量が少ないから、本人に協力してもらって過去データをもらうか、HTMLから変換するかしようかな?
あと、なんでid:namipikaがターゲットかと言うと、

  • 比較的、文章が多い。図や表はノイズになる予感がしている
  • 更新頻度が高い
  • 比較的、内容が一定してる

と言ったあたりが理由。