2011年10月31日月曜日

データクラスタリングツールbayon

bayonとclutoって2つを見つけた。
どうやら、clutoは商用利用に制限がある模様。


とりあえず、bayon。

bayonのチュートリアル

bayonを使った記録


1、インストール
# wget http://bayon.googlecode.com/files/bayon-0.1.0.tar.gz
# tar -xvzf bayon-0.1.0.tar.gz
# cd bayon-0.1.0
# ./configure
# make
# make install


2、インプットの準備
$ cat data.tsv
ドキュメントID1 (タブ) フレーズ (タブ) 値  (タブ) フレーズ (タブ) 値 ・・・
ドキュメントID2 (タブ) フレーズ (タブ) 値  (タブ) フレーズ (タブ) 値 ・・・
ドキュメントID3 (タブ) フレーズ (タブ) 値  (タブ) フレーズ (タブ) 値 ・・・
ドキュメントID4 (タブ) フレーズ (タブ) 値  (タブ) フレーズ (タブ) 値 ・・・
ドキュメントID5 (タブ) フレーズ (タブ) 値  (タブ) フレーズ (タブ) 値 ・・・


3、実行
$ bayon -n 3 -p data.tsv

3クラスタに分類する。

※ PHPから利用する事はできないですかね?。

0 件のコメント:

コメントを投稿