TOP業務システム> オープンソース全文検索の導入
Ludia
高性能なオープンソース全文検索システム「Ludia」

第4回:Ludiaを体験

著者:NTTデータ  加納 寿浩   2007/1/30
1   2  3  4  次のページ
オープンソース全文検索の導入

   第3回では、オープンソースの全文検索システム「Ludia」を導入するための準備をすすめてきました。今回は、Ludiaに必要なソフトウェアいれ、実際に全文検索を行ってみます。

   さて、前回解説したようにLudiaのダウンロードが終わっていたら、それをFedora Core 6にインストールしていきます。現在、Ludiaはtarballでの提供のみですので、ソースからコンパイルしていきます。インストールは、MeCab、MeCab辞書、Senna、Ludiaの順序で行います。それでは、順に説明していきます。

Ludiaの解凍

   ludia-withdepsを解凍すると、Ludiaのソースがludia-0.9.0以下に展開されます。また、ludia-0.9.0/deps/以下にMeCabとMeCab辞書、Sennaのtarballが格納されます。


(画像をクリックすると別ウィンドウに拡大図を表示します)


MeCabのインストール

   MeCabをすでに導入されている場合、MeCabのバージョンを確認してください。Ver.0.91以前のバージョンの場合は、Ver.0.93を導入してください。Ver.0.91の場合、異常終了することがあります。

[postgres@cntd1952 ~]$ mecab -v
Mecab of 0.93

   では、MeCabとMeCab辞書をインストールします。なお、MeCabとMeCab辞書の文字セットは同一である必要があります。導入される環境に従って変更してください(値は、euc、sjis、utf8のいずれかになります)。

   まずは、MeCabをインストールします。


(画像をクリックすると別ウィンドウに拡大図を表示します)

   次にMeCabで使用する辞書をインストールします。ここでは、最新のIPA辞書を使用します。辞書は、単語インデックスを用いた全文検索時の適合率・再現率に大きな影響を与えます。辞書のメンテナンス(単語の追加など)は、IPA辞書がもっとも頻繁に行われているようです(とはいえ、年に1度程度です)。


(画像をクリックすると別ウィンドウに拡大図を表示します)

   以上で、MeCabのインストールは完了です。ここで、MeCabの動作確認をしておきます。

[postgres@cntd1952 deps]$ mecab
すもももももももものうち
すもも  名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
うち    名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS
桃から生まれた桃太郎
桃      名詞,一般,*,*,*,*,桃,モモ,モモ
から    助詞,格助詞,一般,*,*,*,から,カラ,カラ
生まれ  動詞,自立,*,*,一段,連用形,生まれる,ウマレ,ウマレ
た      助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
桃太郎  名詞,固有名詞,一般,*,*,*,桃太郎,モモタロウ,モモタロー
EOS
(ctl+c)

   MeCabが正しく動作しない場合、MeCabとMeCab辞書のインストールログを確認し、どこかでエラーが発生していないか確認してください。

1   2  3  4  次のページ


株式会社NTTデータ 加納 寿浩
著者プロフィール
株式会社NTTデータ  加納 寿浩
日本でも有数の大規模システム更改プロジェクトに企画段階からサービス開始まで従事。主にメインフレーム上のデータベース性能対策を行う。その後、該当システムのオープン化検証にて、オープン系DBMSの評価を行った。2005年から現職。Ludiaプロジェクトの立ち上げを行う。


INDEX
第4回:Ludiaを体験
オープンソース全文検索の導入
  Sennaの導入
  Ludiaの動作環境設定
  データの登録