2011年11月10日木曜日

決定木に関する論文を読んだ時のメモ

決定木の応用方法について調べた。

1、系列パターンを利用した決定木による自然言語における選択ルール獲得
ある文章中に「結構」という単語が出てきたとき、
それがどんな意味で使われているか
(論文中では、「かまわない」、「いらない」、「すばらしい」の3つ)を、
前後に現れる単語によって判断するためのルールを抽出する研究。

ルールの抽出には、決定木を利用する。
決定木とは、入力と出力の組み合わせを計算するもの。
入力が「AかつB」なら、出力は「X」
入力が「AかつBかつC」なら、出力は「Y」
みたいな選択ルールを抽出してくれる。

この論文では、前後に現れる単語の出現する順序の組み合わせを、
決定木の入力とし、系列パターンと呼んでいる(PrefixSpanというアルゴリズムで抽出)。
さらにこれを単語そのものだけでなく、単語の読み,原形,品詞,活用,型、
それぞれにおいて、系列パターンを抽出し、決定木の入力とする。
この結果、「結構の意味を分類する選択ルール」を決めることができる。

この選択ルールを使えば、「結構」を含む任意の文章から、
どの意味でつかわれているかを機械的に判断することができる。

この論文ではさらに、「話しているのが男か女かを判断するルール」を抽出している。
この決定木の入力には、文章の終助詞、代名詞を利用している。


2、決定木分析による都市型アミューズメント施設の来訪者特性評価
決定木の説明がよくされている。
この論文でやっているのは、
「どんな人がラーメンスタジアムに来るかを判断するルール」を作成している。
決定木の入力としては、過去に来訪した人の特徴を使っている。
具体的には、性別、年齢、職業、自宅からの距離などを使う。



3、決定木とQM法による職業意思決定過程分析
学生のうち「どんな人が自分の職業を決められているかのルール」を作成している。
決定木の入力には、学生の心理的状態を使っている。
これは、学生からとったアンケートを基に、
「未熟」、「混乱」、「猶予」、「模索」、「安直」と、
職業を決める際にありそうな心理的状態を数値化して利用している。


4、そのほか読んでないが。。
・健康維持のための室内温熱環境制御法の一提案
・データマイニングの手法を用いた定期歯科受診者の受診中断に関わる要因の分析
・ネットオークションの商品情報を用いた決定木学習による出品者の行動パターンの分類

すげー面白そうw。
つまり決定木を使ってできることは、
「経験的に因果関係のありそうな事柄を、定量的に評価する」ことか。
そういった意味では、ニューラルネットワークと近しいものを感じる。

0 件のコメント:

コメントを投稿