fc2ブログ

fedora13 へ Namazu インストール

fedora13 へ Namazu をインストールしてみました

現状、いろいろなサーバーの構築実験をしてきましたが
実際にホームサーバーとして稼働したときに、
どこまでスペックが必要なのかを調べてみようと思い

デスクトップとして使用している fedora13 へ
サーバー機能を追加してみました

雑誌をPDFにした後、FTPでアップロードし、Namazu で検索するというようにして
みようと思います

CentOS のときとは異なり
サイト内検索システム構築(Namazu)
にもあるように、yum コマンドをつかって簡単にインストールできます

また、namazuでPDF,Office文書を検索可能にする
にあった xpdf の追加についても
yum install xpdf
を実行することで簡単にインストールできました

いままでは実験でしたが、これからは運用をしていくうえの問題点などを
書き込んでいこうと思います

もっとも、まだDNSなどの実験、tomcat サーバーの十件なども残っていますので
こちらも引き続き構築していこうと思います
スポンサーサイト



テーマ : Linux
ジャンル : コンピュータ

Namazu で PDF取扱い その5

Namazu の検索機能を改良するため、
PDF変換について調べてみました

スキャナーで取り込んだだけでは
Namazu で検索しても文字を認識して検索することができませんでした

この機能を改善するべく、検索して見た結果
PDF を HTML に変換する
にあるように、PDFファイルをHTMLへ変換してしまうか

もしくはOCRというものを使って、検索可能なタイプのPDFへ変換する
という方法になるようです

PDFファイルからHTMLへ変換するのに便利な
クセロ Reader ZERO
は、残念ながら配布が終了してしまったため
残る方法(GMail、pdftohtml)となるようです

もっとも、検索すれば他に方法があるのかもしれませんが...


それはさておき、もう一つのOCRについて調べてみました

私のメイン環境は Linux ですが、一応 Windows もあります

Linux の OCRソフトとしては
Tesseract OCR
というソフトがあるようです

ただ、まだ使ったことはないので、今回は説明は省きます

今回使った解決方法は、



を使った方法です

いちおう、Linux でも機体の認識はするのですが
なぜか両面スキャンができませんでした

しかたがないので、一旦 windows xp で両面スキャンをして
PDFファイルとして保存します

次に、このPDFファイルを付属のソフトウェアである
Scan Snap Organizer を使って検索可能なPDFへと変換します

そして、 FileZilla を使って FTPで Namazu を構築したサーバへ
送ります

あとは、一度サーバにログインし、
mknmz /var/www/html/snow -O /usr/local/var/namazu/index/snow/|nkf -w
として
インデックスを更新し、検索可能対象にします

ちなみに、/var/www/html/snow の部分については、
自分で作成した検索対象ファイルに置き換えてください

これで、PDFの中の文字列でも、ほぼ検索することができます

もっとも、スキャナーの解像度やOCRの変換などにも依存しますので
一概にすべてできますとは言えません

残る問題点としては、
検索対象がみつかっても
Namazu での検索結果が文字化けしてしまうこと

Linux でのドキュメントスキャナーがまだないこと

そして、Linux 環境での OCR 変換がまだできていないことです

まだまだすべて Linux とはいきませんが
徐々に改善していこうと思います

テーマ : Linux
ジャンル : コンピュータ

Namazu で PDF取扱い その34

Namazu で PDF を取り扱えるように設定をしたのですが
欠点が発覚しました

まず、初期の設定から変えないと、
2MBを超えるファイルは無条件に索引データベースに含まれなくなります

また、600KBを超えるファイルは無条件に索引データベースに含まれなくなります

この問題を解決するには
索引データベース作成用設定ファイル"mknmzrc"の編集

$FILE_SIZE_MAX~処理対象のファイルサイズの上限

$TEXT_SIZE_MAX~処理対象のテキストサイズの上限

を変更する必要性があります

vi /usr/local/etc/namazu/mknmzrc
でファイルを開き、
# $FILE_SIZE_MAX = 2000000;
の部分を変更します

このままだと、取扱い可能なのは2MBしかありません

かなり大きなファイルを使いたいので
$FILE_SIZE_MAX = 20000000000;
としました

さらに、
# $TEXT_SIZE_MAX = 600000;
では 600KBしか使えないので
$TEXT_SIZE_MAX = 60000000000;
としました

これで、検索対象から除外されることはなくなりました

もう一つの問題のほうが面倒で、こちらについてはまだ検討中です

スキャナーで取り込んだ雑誌をPDFに変換し
これをローカルサーバに入れておけば、本を探す手間が省けると
おもったのですが、
残念ながらただたんに、スキャナーで取り込んだだけでは
Namazu で検索しても文字を認識して検索することができませんでした

なんらかの方法で、この問題を解決して見ようと思います

テーマ : Linux
ジャンル : コンピュータ

Namazu で PDF取扱い その3

Namazu で PDF取扱い その2
での問題点
cgi 検索(ブラウザでの検索)での問題点が解決しました

このときの問題点は

なぜか
/var/www/html
に同じファイルが存在しないと、

Not Found
The requested URL /helllo.html was not found on this server.

となってしまうことでした

解決方法は
vi /usr/local/etc/namazu/namazurc
で namazurc を開き、

Replace /var/www/html/snow/ http://192.168.10.67/
の部分を
Replace /var/www/html/snow/ http://192.168.10.67/wiki/
とすることで解決できました

解決するにあたりNamazu のcgi 確認について
を参考にしました

これにより、Namazu の問題点が解決しました

コンテンツのアップロードには
FTP サーバ構築
のときに使った FileZilla を使い、アップロードします

テーマ : Linux
ジャンル : コンピュータ

Namazu で PDF取扱い その2

Namazu での PDF 取扱いに成功しました

PDFファイルを検索対象とする
を参考に行ってみました

NamazuでPDFを検索対象とするにはxpdfといったソフトウェアが必要らしいです

まず xdf をインストールします
wget ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02.tar.gz
tar xzvf xpdf-3.02.tar.gz
cd xpdf-3.02
./configure
make
make install

次に、xpdf-japanese をインストールします
wget ftp://ftp.foolabs.com/pub/xpdf/xpdf-japanese.tar.gz
mv xpdf-japanese.tar.gz /home/wiki/
cd /home/wiki/
tar zxvf xpdf-japanese.tar.gz
cd xpdf-japanese
mkdir -p /usr/local/share/xpdf/japanese
cp -R * /usr/local/share/xpdf/japanese/
cat add-to-xpdfrc >> /usr/local/etc/xpdfrc

これで、pdf が検索可能になりますが、
拡張子に .pdf がついていないと検索できませんでした

ためしに、.pdf がないファイルを検索してみましたが
検索できませんでした

どうやら、拡張子で検索しているようです

mknmz -C | grep pdf
で、成功しているかどうかがわかります

mknmzrcファイルに pdf を検索対象として加えるには
サイト内検索システム構築(Namazu)
をもとに行っているなら

$ALLOW_FILE = ".*\\.(?:$HTML_SUFFIX)";

の部分を
$ALLOW_FILE = ".*\\.(?:$HTML_SUFFIX)".
"|.*\\.pdf|.*\\.ps";
とすれば、検索対象になります

もっとも、まだこの段階では、cgi 検索(ブラウザでの検索)
のときに問題が残っているので、解決したらまとめようと思います

テーマ : Linux
ジャンル : コンピュータ

最新記事
検索フォーム
GREEハコニワ攻略サイト
リンク
カテゴリ
月別アーカイブ
フリーエリア
最新記事
FXプライムレート
最新コメント
最新トラックバック