Tips

chasen(茶筌)インストール手順(ver2.4.5)

形態素解析ツールchasen(茶筌)を、centOS(5.8)にインストールしてみました。
インストール手順を以下にまとめます。

手順1:「Darts(C++ Template Library)」をDL&インストール

# cd /usr/local/src
# wget http://chasen.org/~taku/software/darts/src/darts-0.32.tar.gz
# tar xvfz darts-0.32.tar.gz
# cd darts-0.32
# ./configure
# make
# make check
# make install

※参考サイト:
http://chasen.org/~taku/software/darts/
(Dartsの説明)

手順2:「libiconv(文字コード変換機能用ライブラリ)」をDL&インストール

※libiconvの有無の確認手順:
「iconv -V」でバージョンが出てくればインストール済みなので、本工程は飛ばしてOK。

# cd /usr/local/src
# wget http://ftp.yz.yamagata-u.ac.jp/pub/GNU/libiconv/libiconv-1.13.1.tar.gz
(libiconvをインターネット上で探してDL)
# tar xvfz libiconv-1.13.1.tar.gz
# cd libiconv-1.13.1
# ./configure
# make
# make install
# ldconfig

手順3:「chasen(形態素解析ソフト)」のインストール

※chasen-2.4.5をインストール。
wgetで取れなかったので、一旦下記URLからソースを落として、SCPでアップしました。
http://sourceforge.jp/projects/chasen-legacy/releases/?package_id=5861
(ダウンロード)

# cd /usr/local/src
# tar xvfz chasen-2.4.5.tar.gz
# cd chasen-2.4.5
# ./configure
# make
# make install

※参考サイト:
http://chasen.naist.jp/hiki/ChaSen/?%C3%E3%E4%A5%A4%CE%C7%DB%C9%DB
(茶筌のサイト)

手順4:「ipadic(辞書ソフト)」のインストール

# cd /usr/local/src
# wget http://chasen.naist.jp/stable/ipadic/ipadic-2.7.0.tar.gz
# tar xvfz ipadic-2.7.0.tar.gz
# cd ipadic-2.7.0
# ./configure
# make
# make install

手順5:文字コード変換用shellスクリプト作成

chasenはEUCで実装されているのでLinuxがUTF8環境の場合は対応が必要。
下記のスクリプト(ファイル名はなんでもよい)を任意のディレクトリに作成する(今回はroot直下)

# cd /root
# vi euc2utf8.sh
(下記のシェルスクリプトをコピペしてから保存(:wq))

[/root/euc2utf8.sh] #!/bin/sh
for file in *.dic *.cha
do
if [ -f $file ]; then
echo $file
nkf -w $file > tmpfile
mv tmpfile $file
fi
done
exit

実行権限をつけておく。
# chmod 755 /root/euc2utf8.sh

手順6:辞書を生成する

# cd /usr/local/src/ipadic-2.7.0
# /root/euc2utf8.sh
# `chasen-config –mkchadic`/makemat -i w
# `chasen-config –mkchadic`/makeda -i w chadic *.dic
# make install

手順7:chasenrcの文字コードを変換

# cd /usr/local/etc/
# nkf –utf8 chasenrc > chasenrc.tmp
# mv chasenrc chasenrc.org
# mv chasenrc.tmp chasenrc

※chasenrcのインストール場所が/usr/local/etcではなく、/usr/etcだったりする場合もあります。chasenrcの場所がわからない場合は、findコマンドを使って検索してみましょう。
※参考サイト:
http://news.mynavi.jp/column/yetanother/045/
(ipadicインストールの流れがわかりやすくまとまっている)

以上でchasenインストールは完了。

手順8:動作確認

# echo “茶筌で形態素解析ができるかやってみます。” | chasen -iw

↓こんな感じで出てきたらOK
茶筌 チャセン 茶筌 名詞-一般
で デ で 助詞-格助詞-一般
形態素 ケイタイソ 形態素 名詞-一般
解析 カイセキ 解析 名詞-サ変接続
が ガ が 助詞-格助詞-一般
できる デキル できる 動詞-自立 一段 基本形
か カ か 助詞-副助詞/並立助詞/終助詞
やっ ヤッ やる 動詞-自立 五段・ラ行 連用タ接続
て テ て 助詞-接続助詞
み ミ みる 動詞-非自立 一段 連用形
ます マス ます 助動詞 特殊・マス 基本形
。 。 。 記号-句点
EOS

[完]

AIやビックデータ解析に興味を持った時のはじめの一歩

独学で学ぶ-pythonプログラミング 連載目次

Recent News

Recent Tips

Tag Search