サイト内のHTML、PDFを全文検索させるためにNamazuの他にある?
PDFで大量のドキュメントを公開しているサイトで、サイト内を全文検索させたいという希望がある。
昔ほどこの手の話題は無くなった気もする。
Googleが提供している「カスタム検索エンジン」を利用しているのだろうか。
www.google.co.jp/cse/
Google カスタム検索エンジンとは?
小規模サイトなら無料
基本機能への登録は無料
関連性の高い検索結果をすぐに取得
サイトのデザインに合わせて検索結果の外観をカスタマイズ
検索向け AdSense で、Google が表示する広告から収入を得る
大規模サイトや検索数が多いサイトは有料
必要に応じて細かい制御が可能
デザインの微調整の拡張(広告や Google ブランド表示のオプトアウトなど)は年間 100 ドルから
小規模および大規模企業のための強力な追加機能
有料版の詳細
www.google.com/work/search/products/gss.html
基本的にGoogle検索エンジンにインデックスされているページ・情報が検索対象になるので、SEO対策に有効かもしれない。それはSEO効果は別にして、正しく公開しているページやPDFファイルがインデックスされているのか?定期的に確認する作業(検索結果のタイトルが分かりやすく設定されているなど)が発生するからだ。
カスタム検索エンジンを利用しない全文検索の場合は、昔からある「全文検索システム Namazu」を利用するのではないのだろうか。
www.namazu.org/
Namazu は手軽に使えることを第一に目指した日本語全文検索シス テムです。CGI として動作させることにより小中規模の WWW 全文 検索システムを構築することができるほか、コマンドラインや Emacs上から利用するといった個人用途にも使えます。
ただシステムが古すぎる。ITバブルの前からあるシステムである。
完成したシステムと言えばそうかもしれない。セキュリティ的な更新以外は既に止まっているのだ。
そして、問題はcgi(Perl)で動作していることかもしれない。最近の若手にはPerlを触ったことがないスタッフもいるかもしれない。お問い合わせフォーム的なノリで、Namazuを構築してしまうと後々保守面で問題が発生するだろう。
レンタルサーバーを探せば、標準で利用できる会社もある。
どうせならJavaが得意な若手のスタッフでも、全文検索機能の設置と保守が容易にできるシステムの導入を検討してみるのも良いだろう。
そしてそれらを満たしている全文検索システムに「Apache Lucene」がある。
Lucene(ルシーン)は、Javaで記述された全文検索ソフトウェアである。あらかじめ蓄積した大量のデータから、指定したキーワードを探し出す機能を持つ。Javaのクラスライブラリとして提供される。
1000万ドキュメントくらいの規模まで1台のマシンで対応できる。それ以上を複数のマシンで分散検索できるようにするHadoopというサブプロジェクトがある。
lucene.apache.org/
古き好きシステムを利用するのも良し、新しいシステムを利用するのも良し、決定は担当の若手に任せてはどうだろうか。