2011年3月23日水曜日

CaboChaのインストールwget~make installまで

結構、自然言語解析のセットアップにずっとてこずっていて、苦節5回にして、そろそろCaboChaとMeCabの環境がうまく構築できそうな気配である。

以下、CaboChaのダウンロードからmakeまでのコマンドです。

$ wget http://chasen.org/~taku/software/cabocha/src/cabocha-0.53.tar.gz
$ tar zxvf cabocha-0.53.tar.gz
$ cd cabocha-0.53/
$ ./configure --with-mecab-config=/usr/local/bin/mecab-config --with-yamcha-config=/usr/local/bin/yamcha-config --with-morphological-analyzer=mecab --with-charset=UTF8


ここで、makeしたい気持ちを抑えて、微妙にファイルを修正する。
修正するファイルはsrc/common.hです。
このファイルに#include <string.h>がないので追加してやる必要があります。

ファイル : src/common.hの47行目~

#include <set>
#include <stdexcept>
#include <algorithm>

/** added here **/
#include <string.h>
/** add end **/


/** added here **//** add end **/のあたりを追加する。

これでおもむろにmakeしてやる。
このmakeはかなり時間がかかる。使用しているマシンのスペックにも依存するだろうが、3回目以降のTRIEを構築している最中に10分くらいかかる。
だから、makeコマンドを打ったらコーヒー、紅茶、ココアの類を入れて(人によってはタバコでも吸いに行って)気長に待つことが寛容。


IPA-dicのモデルを読み込んで、YamChaを使用してTRIE構造を構築している時に時間がかかるらしい。

ちなみにYamChaのインストールにもくせがあるので、要注意。というかいつか記事を書きます。


Making Double-Array: 100% |*******************************************| 
Making TRIE        : 100% |*******************************************| 
Done!
rm -f IPA-dep.txtmodel
make[2]: ディレクトリ `/home/mike/src/cabocha-0.53/model' から出ます
Making all in tests
make[2]: ディレクトリ `/home/mike/src/cabocha-0.53/tests' に入ります
make[2]: `all' に対して行うべき事はありません.
make[2]: ディレクトリ `/home/mike/src/cabocha-0.53/tests' から出ます
Making all in doc
make[2]: ディレクトリ `/home/mike/src/cabocha-0.53/doc' に入ります
make[2]: `all' に対して行うべき事はありません.
make[2]: ディレクトリ `/home/mike/src/cabocha-0.53/doc' から出ます
Making all in libexec
make[2]: ディレクトリ `/home/mike/src/cabocha-0.53/libexec' に入ります
make[2]: `all' に対して行うべき事はありません.
make[2]: ディレクトリ `/home/mike/src/cabocha-0.53/libexec' から出ます
Making all in training
make[2]: ディレクトリ `/home/mike/src/cabocha-0.53/training' に入ります
echo "Usage: make CORPUS=Your-Corpus-File MODEL=Model-Prefix-Name train-dep/train-chunk/train-ne"
Usage: make CORPUS=Your-Corpus-File MODEL=Model-Prefix-Name train-dep/train-chunk/train-ne
make[2]: ディレクトリ `/home/mike/src/cabocha-0.53/training' から出ます
make[2]: ディレクトリ `/home/mike/src/cabocha-0.53' に入ります
make[2]: ディレクトリ `/home/mike/src/cabocha-0.53' から出ます
make[1]: ディレクトリ `/home/mike/src/cabocha-0.53' から出ます


これでmake完了。

あとはmake checksudo make installを残すのみ。


$ make check
            Ʊ����-D                        
            �յĸ���-D                      
            ���Բ���---------------------D
                ��̳����-------------------D
        �֥ƥ���ī��¦����-------D         |
                  ����������-D   |         |
                ���������٤Ȥ�-D |         |
                          ������-D         |
                          ��������-------D |
                                ����-D   | |
                                ������---D |
                                  ������-D |
                              ���������פ�-D
                                    �Ҥ٤���
EOS

make checkすると、謎の文字列が現れるが、これはおそらくEUC-JPの文字列をUTF8で表示したパターンの文字化け。これはとりあえず、シカトする。



$ sudo make install


これでおしまい。

では、おもむろにcabochaで遊んでみようと思う。



$ cabocha -f1 -O1 -n1
そろそろCaboChaとMeCabの環境がうまく構築できそうな気配である。
そろそろ ソロソロ そろそろ 副詞-助詞類接続   O
CaboCha CaboCha CaboCha 名詞-一般   O
と ト と 助詞-並立助詞   O
MeCab MeCab MeCab 名詞-一般   O
の ノ の 助詞-連体化   O
環境 カンキョウ 環境 名詞-一般   O
が ガ が 助詞-格助詞-一般   O
うまく ウマク うまい 形容詞-自立 形容詞・アウオ段 連用テ接続 O
構築 コウチク 構築 名詞-サ変接続   O
でき デキ できる 動詞-自立 一段 連用形 O
そう ソウ そう 名詞-接尾-助動詞語幹   O
な ナ だ 助動詞 特殊・ダ 体言接続 O
気配 ケハイ 気配 名詞-一般   O
で デ だ 助動詞 特殊・ダ 連用形 O
ある アル ある 助動詞 五段・ラ行アル 基本形 O
。 。 。 記号-句点   O
EOS
3D対応モデルの任天堂3DSが発売された。
3 3 3 名詞-数   O
D D D 名詞-一般   O
対応 タイオウ 対応 名詞-サ変接続   O
モデル モデル モデル 名詞-一般   O
の ノ の 助詞-連体化   O
任天堂 ニンテンドウ 任天堂 名詞-固有名詞-組織   O
3 3 3 名詞-数   O
DS DS DS 名詞-固有名詞-組織   O
が ガ が 助詞-格助詞-一般   O
発売 ハツバイ 発売 名詞-サ変接続   O
さ サ する 動詞-自立 サ変・スル 未然レル接続 O
れ レ れる 動詞-接尾 一段 連用形 O
た タ た 助動詞 特殊・タ 基本形 O
。 。 。 記号-句点   O
EOS


おお、すばらしい。

0 件のコメント:

コメントを投稿