namazuで作る、PDF、Word、Excel全文検索システム 第2回

この記事は2013年9月26日に書かれたものです。内容が古い可能性がありますのでご注意ください。


namazuで作る、PDF、Word、Excel全文検索システム 第2回

タイトルとは関係のない文字コード部分でかなりはまっていました。
ようやく解決したので、翻ってこの記事に着手します。

手順0.環境&事前準備

・使用OSはCentOS5.9
・Apache、nkf、kakasi、namazuがインストール済み
・namazuのインデックスが作成済み(mknmzコマンド)
よくわからなければ、
前回の記事をご覧ください。

手順1.xpdfとxpdf-japaneseをインストール

これでPDFが検索できるようになります。

# cd /usr/local/src
# wget ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.03.tar.gz
# wget ftp://ftp.foolabs.com/pub/xpdf/xpdf-japanese.tar.gz
# tar xvfz xpdf-3.03.tar.gz
# cd xpdf-3.03
# ./configure
# make
# make install

※make時に「g++: コマンドが見つかりませんでした」とエラーが出たら、次のコマンドを実行しましょう。

# yum install gcc-c++

※日本語対応用にxpdf-japaneseもインストールしておきましょう。

# tar xvfz xpdf-japanese.tar.gz
# cd xpdf-japanese
# mkdir -p /usr/local/share/xpdf/japanese
# cp -R * /usr/local/share/xpdf/japanese
# cat add-to-xpdfrc >> /usr/local/etc/xpdfrc

※ちゃんとインストールできたかどうか、確認をしておきましょう。

# mknmz -C

一覧が表示されますので、表示結果の内、次の記述行をチェックしてください。
「application/pdf: pdf.pl」
ここで先頭に「 – (マイナス)」 がついていなければPDFが参照可能な状態ですのでOKです。

手順2.wvwareをインストール

これでword文書を検索できるようになります。

# cd /usr/local/src
# wget http://jaist.dl.sourceforge.net/project/wvware/wv/1.2.4/wv-1.2.4.tar.gz
# tar xvfz wv-1.2.4.tar.gz
# cd wv-1.2.4
# ./configure

※ここでlibgsfがないというエラーが出る場合、libgsfをyumでインストールしましょう。

# yum install libgsf-devel.i386

yumでインストールすれば依存パッケージも一緒にインストールしてくれるのですが、
ソースからインストールしようとすると結構手間でした。
libgsfインストール用にintltoolが必要、
intltoolインストール用にXML::Parserが必要、
XML::Parserインストール用にexpat-develが必要、という感じです。
これらを逆から順々にインストールしていかないと
wvwareのconfigureにたどり着けませんでした。
なので、特に必須でない方はyumでインストールしておいた方がいいかもしれませんね。

configureが通ったら、make、make installを実行しましょう。

# make
# make install

※ちゃんとインストールできたかどうか、確認をしておきましょう。
# mknmz -C
一覧が表示されますので、表示結果の内、次の記述行をチェックしてください。
「application/msword: msword.pl」
ここで先頭に「 – (マイナス)」 がついていなければWordが参照可能な状態ですのでOKです。

手順3.xlhtmlをインストール

最後にExcel,PPTの検索を有効にしましょう。

# cd /usr/local/src
# wget http://www.asahi-net.or.jp/~yw3t-trns/namazu/xlhtml/xlhtml-0.5.1.tar.gz
# tar xvfz xlhtml-0.5.1.tar.gz
# cd xlhtml
# ./configure
# make
# make install

※ちゃんとインストールできたかどうか、確認をしておきましょう。
# mknmz -C
一覧が表示されますので、表示結果の内、次の記述行をチェックしてください。
「application/excel: excel.pl」「application/powerpoint: powerpoint.pl」
ここで先頭に「 – (マイナス)」 がついていなければExcel,PowerPointが参照可能な状態ですのでOKです。

手順4.動作確認

ここまできたらmknmzコマンドで指定する検索ディレクトリにPDF,Excel,Word,PPTなどのファイルを配置して、
インデックスを作成しましょう。

# mknmz -O /usr/local/var/namazu/index/XXXXX/ [検索ディレクトリ]
[検索ディレクトリ]は仮です。

インデックスが作成できたらnamazuコマンドで検索です。

# namazu てすと /usr/local/var/namazu/index/XXXXX

無事検索されたら成功です。

次回は、冒頭に書きましたはまってしまったポイントであるnamazuの文字コードに関して、
対応方法とともにまとめたいと思います。

  • このエントリーをはてなブックマークに追加

PAGE TOP