2011年11月25日金曜日

やっぱりべたにtf-idfでやろうかな。

語の共起の統計情報に基づく文書からのキーワード抽出アルゴリズム
を読んだ。

精度としては、tf-idfと同じくらいのものらしい。
違いとしては、tf-idfでは比較対象となる文章群が必要になること。
この論文の方法では、比較対象が必要ない。

なんか重みづけとの区別なくなってきたが。
この辺とか役に立ちそう。
TFIDFを使ってwikipediaの各キーワードの特徴量を抽出
形態素解析と検索APIとTF-IDFでキーワード抽出


基本的なtf-idfの式で計算できる。

tf : 対象となる文書中の単語出現数 / 文書の総単語数
N :全てのドキュメント数
df :代表キーワード候補が含まれるドキュメントの数 (DF)、

・tfの意味は、文章中の対象の単語がいっぱい出てくれば、
その単語は重要とみなすということ。
・log~の意味は、対象の単語が他の文章になければ、
その単語の重要度を上げようということ。

つまり、得られたwの値が高いほど、N個の文書群の中で、
重要な単語であると考えられる。

※ tfの取り方はいくつかやり方が見つかったが、
文章の長さを考慮したこのやり方がいいと思った。
(長い文書ほど、重要語が出やすいだろうということ)



ということで、特徴ベクトルの変数の取り出し方
① tf-idfで重要語を抽出、それを特徴ベクトルの変数とする。
② 統計情報に基づき重要語を抽出、それを特徴ベクトルの変数とする。

どっちがいいんだろう。
わかりやすいtf-idfのほうからやってみるか。

0 件のコメント:

コメントを投稿