2011年11月24日木曜日

文章の長さが特徴ベクトルに与える影響の軽減 ~背景~

はてぶのようなサイトからテキストデータを持ってきて、
任意の文章と似ているものをランク付けするプログラムを書いてみた。
が、精度がいまいち。

文章の類似性を測る方法として、
いくつかの論文を読んで使われていた、
以下の方法を使っている。
形態素解析で文章中の単語を抽出。
その単語を変数とした特徴ベクトルを作成し、
測りたい2つの文章の特徴ベクトル間のコサインをとって
2つの文章の類似性とする。

検討しなければならないポイントは次の2つ。

① 比較したい文章の特徴をうまく特徴ベクトルに反映させるため、
特徴ベクトルの変数を何にするか検討する。

② さらに、文章の特徴をより強く反映させるため、
特徴ベクトルの重みづけをする。


今現在、精度に大きな影響を与えているのは、
①の特徴ベクトルの変数の選び方だと思う。
だって、はてぶからとった文章の名詞を全部、
特徴ベクトルの変数にしてるんだから。

つまり、同じ内容の文章でも、その文章の長さによって、
特徴ベクトルが変わってしまう。
これはいまいちいけてない。

で、調べてみたら、以下の論文が目に付いた。
語の共起の統計情報に基づく文書からのキーワード抽出アルゴリズム

まだちゃんと読んでないが、
「単語Aの文章中における出現確率」と
「単語Bが含まれる文中に、単語Aが出現する確率」とを比較し、
偏りが見られれば、単語Aと単語Bの意味的なつながりが
大きいと判断できるというもの。


これを使えば、ある1つの文章の中で重要な単語を、
ほかの文章と関係なく抽出することができる。
そうやって抽出した単語を特徴ベクトルの変数として使えば、
文章をその内容的に近いものを抽出できるようになるのでは?
ちょっと作ってみよう。

0 件のコメント:

コメントを投稿