人口無能
前々から企んでいた人口無能を作り始める。きっかけはfriend:hmxのグループが演習で人口無能を作ってたから。
目標はid:namipikaのような日記を自動生成して、id:sorapikaに投稿すること。
基本方針は、
- id:namipikaの文章を取得
- 形態素分析
- マルコフモデルにする。(ある単語のあとにはどんな単語ことが多いかを調べる)
- 文章を自動生成
- はてダラで投稿
のつもり。
とりあえず、RSS経由で日記を取得して保存することろまで書いた。
RSSだと取得できる量が少ないから、本人に協力してもらって過去データをもらうか、HTMLから変換するかしようかな?
あと、なんでid:namipikaがターゲットかと言うと、
- 比較的、文章が多い。図や表はノイズになる予感がしている
- 更新頻度が高い
- 比較的、内容が一定してる
と言ったあたりが理由。