Tips

kakasi(案山子)インストール手順(ver2.3.4)

形態素解析ツールkakasi(案山子)を、centOS(5.8)にインストールしてみました。

はじめにkakasiについて

今までmecab,chasenと形態素解析としてインストール手順をまとめてきましたが、
kakasiも形態素解析ツールとして使われることがあります。
しかし、kakasiは本来は「漢字→かな(ローマ字)変換プログラム」です。
ただ、その際に「分かち書き」が行われるため、結果的に形態素解析も行っていることになるわけです。
そのため、kakasiの形態素解析はかなりシンプルです。辞書のインストールも不要です。

それでは、インストール手順を以下にまとめます。

手順1:ダウンロード&インストール

# cd /usr/local/src
# wget http://kakasi.namazu.org/stable/kakasi-2.3.4.tar.gz
# tar xvfz kakasi-2.3.4.tar.gz
# cd kakasi-2.3.4
# ./configure
# make
# make install

これでインストール完了です。動作確認してみましょう。

動作確認

# echo "案山子を使って形態素解析をやってみる" | nkf -e | kakasi -w | nkf -w

↓このような表示になればOKです。
案山子 を 使って 形態素解析 を やってみる

かなりシンプルですね。
品詞や活用が不要であれば、このくらいでいいのかもしれません。
単語を抽出するだけとか。

補足

kakasiはmecab同様UTF対応していないので、kakasiへ渡す直前と、
kakasiから取得後に、文字列を各々utf8に変換しています。
UTF-8対応のモジュールもあるようなので、
いちいち面倒だという方はインストールした方がよいでしょう。

感想

形態素解析をちゃんとやるには役不足な印象です。
やはり、品詞やら活用がわかってこその形態素解析ですからね。
分かち書きはできるのでそれでよければ問題ないですね。

AIやビックデータ解析に興味を持った時のはじめの一歩

独学で学ぶ-pythonプログラミング 連載目次

Recent News

Recent Tips

Tag Search