2011年11月2日水曜日

テキストマイニングに関する論文を読んだ時のメモ

1、文書クラスタリングによるトピック抽出および課題発見
東工大橋本らが行っている研究。
ここでは、大量の文書をクラスタリングソフト(cluto)で系統樹を作成し、
さらにそれを分類することで、大量の情報をわかりやすい形にしようとしている。。

各文章毎に文章から代表的な単語を抽出して単語ベクトルを作成する。

クラスタリングソフトには、文書毎の単語の出現頻度(共起行列?)をわたし、
潜在的意味解析を行っているものと思われる。
bayonとかの中でもそれを行っているんだろうか。

2、社会課題発見のための文書クラスタリングとクラスタ評価指標
1の研究と同じ。「密度」や「中心度」に関してもう少し詳しく説明されている。


3、単語と意味属性との共起に基づく概念ベクトル生成手法
1で使われる単語ベクトルの概念が結構わかりやすく示されている。


4、新聞記事内容と株価変動の関連性の定量的分析
過去の新聞記事内容と株価の変動をひもづけておいて、
今の新聞記事の中から、株価の変動にかかわりそうな
記事を抽出する研究。
共起語に新聞から抽出した単語をそのまま使うのではなく、
単語間の意味的な依存関係を使っているみたい。


5、 主題語からの話題語自動抽出と、これに基づく Web 情報検索
1つの検索キーワード(主題語)から、一定の法則で話題語を抽出し、
主題語と話題語から検索されるWebページの特徴ベクトルと
主題語のみから検索されるWebページの特徴ベクトルを比較し、
近いものを検索結果とする研究。
これによりどの程度精度がよくなるかはわからないが、
面白い研究。

0 件のコメント:

コメントを投稿