kakasi(案山子)インストール手順(ver2.3.4)
kakasi(案山子)インストール手順(ver2.3.4)
形態素解析ツールkakasi(案山子)を、centOS(5.8)にインストールしてみました。
はじめにkakasiについて
今までmecab,chasenと形態素解析としてインストール手順をまとめてきましたが、
kakasiも形態素解析ツールとして使われることがあります。
しかし、kakasiは本来は「漢字→かな(ローマ字)変換プログラム」です。
ただ、その際に「分かち書き」が行われるため、結果的に形態素解析も行っていることになるわけです。
そのため、kakasiの形態素解析はかなりシンプルです。辞書のインストールも不要です。
それでは、インストール手順を以下にまとめます。
手順1:ダウンロード&インストール
# cd /usr/local/src # wget http://kakasi.namazu.org/stable/kakasi-2.3.4.tar.gz # tar xvfz kakasi-2.3.4.tar.gz # cd kakasi-2.3.4 # ./configure # make # make install
これでインストール完了です。動作確認してみましょう。
動作確認
# echo "案山子を使って形態素解析をやってみる" | nkf -e | kakasi -w | nkf -w
↓このような表示になればOKです。
案山子 を 使って 形態素解析 を やってみる
かなりシンプルですね。
品詞や活用が不要であれば、このくらいでいいのかもしれません。
単語を抽出するだけとか。
補足
kakasiはmecab同様UTF対応していないので、kakasiへ渡す直前と、
kakasiから取得後に、文字列を各々utf8に変換しています。
UTF-8対応のモジュールもあるようなので、
いちいち面倒だという方はインストールした方がよいでしょう。
感想
形態素解析をちゃんとやるには役不足な印象です。
やはり、品詞やら活用がわかってこその形態素解析ですからね。
分かち書きはできるのでそれでよければ問題ないですね。