namazuで作る、PDF、Word、Excel全文検索システム 第2回
タイトルとは関係のない文字コード部分でかなりはまっていました。
ようやく解決したので、翻ってこの記事に着手します。
手順0.環境&事前準備
・使用OSはCentOS5.9
・Apache、nkf、kakasi、namazuがインストール済み
・namazuのインデックスが作成済み(mknmzコマンド)
よくわからなければ、
前回の記事をご覧ください。
手順1.xpdfとxpdf-japaneseをインストール
これでPDFが検索できるようになります。
# cd /usr/local/src # wget ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.03.tar.gz # wget ftp://ftp.foolabs.com/pub/xpdf/xpdf-japanese.tar.gz # tar xvfz xpdf-3.03.tar.gz # cd xpdf-3.03 # ./configure # make # make install
※make時に「g++: コマンドが見つかりませんでした」とエラーが出たら、次のコマンドを実行しましょう。
# yum install gcc-c++
※日本語対応用にxpdf-japaneseもインストールしておきましょう。
# tar xvfz xpdf-japanese.tar.gz # cd xpdf-japanese # mkdir -p /usr/local/share/xpdf/japanese # cp -R * /usr/local/share/xpdf/japanese # cat add-to-xpdfrc >> /usr/local/etc/xpdfrc
※ちゃんとインストールできたかどうか、確認をしておきましょう。
# mknmz -C
一覧が表示されますので、表示結果の内、次の記述行をチェックしてください。
「application/pdf: pdf.pl」
ここで先頭に「 – (マイナス)」 がついていなければPDFが参照可能な状態ですのでOKです。
手順2.wvwareをインストール
これでword文書を検索できるようになります。
# cd /usr/local/src # wget http://jaist.dl.sourceforge.net/project/wvware/wv/1.2.4/wv-1.2.4.tar.gz # tar xvfz wv-1.2.4.tar.gz # cd wv-1.2.4 # ./configure
※ここでlibgsfがないというエラーが出る場合、libgsfをyumでインストールしましょう。
# yum install libgsf-devel.i386
yumでインストールすれば依存パッケージも一緒にインストールしてくれるのですが、
ソースからインストールしようとすると結構手間でした。
libgsfインストール用にintltoolが必要、
intltoolインストール用にXML::Parserが必要、
XML::Parserインストール用にexpat-develが必要、という感じです。
これらを逆から順々にインストールしていかないと
wvwareのconfigureにたどり着けませんでした。
なので、特に必須でない方はyumでインストールしておいた方がいいかもしれませんね。
configureが通ったら、make、make installを実行しましょう。
# make # make install
※ちゃんとインストールできたかどうか、確認をしておきましょう。
# mknmz -C
一覧が表示されますので、表示結果の内、次の記述行をチェックしてください。
「application/msword: msword.pl」
ここで先頭に「 – (マイナス)」 がついていなければWordが参照可能な状態ですのでOKです。
手順3.xlhtmlをインストール
最後にExcel,PPTの検索を有効にしましょう。
# cd /usr/local/src # wget http://www.asahi-net.or.jp/~yw3t-trns/namazu/xlhtml/xlhtml-0.5.1.tar.gz # tar xvfz xlhtml-0.5.1.tar.gz # cd xlhtml # ./configure # make # make install
※ちゃんとインストールできたかどうか、確認をしておきましょう。
# mknmz -C
一覧が表示されますので、表示結果の内、次の記述行をチェックしてください。
「application/excel: excel.pl」「application/powerpoint: powerpoint.pl」
ここで先頭に「 – (マイナス)」 がついていなければExcel,PowerPointが参照可能な状態ですのでOKです。
手順4.動作確認
ここまできたらmknmzコマンドで指定する検索ディレクトリにPDF,Excel,Word,PPTなどのファイルを配置して、
インデックスを作成しましょう。
# mknmz -O /usr/local/var/namazu/index/XXXXX/ [検索ディレクトリ][検索ディレクトリ]は仮です。
インデックスが作成できたらnamazuコマンドで検索です。
# namazu てすと /usr/local/var/namazu/index/XXXXX
無事検索されたら成功です。
次回は、冒頭に書きましたはまってしまったポイントであるnamazuの文字コードに関して、
対応方法とともにまとめたいと思います。