FC2ブログ

Namazu で PDF取扱い その5

Namazu の検索機能を改良するため、
PDF変換について調べてみました

スキャナーで取り込んだだけでは
Namazu で検索しても文字を認識して検索することができませんでした

この機能を改善するべく、検索して見た結果
PDF を HTML に変換する
にあるように、PDFファイルをHTMLへ変換してしまうか

もしくはOCRというものを使って、検索可能なタイプのPDFへ変換する
という方法になるようです

PDFファイルからHTMLへ変換するのに便利な
クセロ Reader ZERO
は、残念ながら配布が終了してしまったため
残る方法(GMail、pdftohtml)となるようです

もっとも、検索すれば他に方法があるのかもしれませんが...


それはさておき、もう一つのOCRについて調べてみました

私のメイン環境は Linux ですが、一応 Windows もあります

Linux の OCRソフトとしては
Tesseract OCR
というソフトがあるようです

ただ、まだ使ったことはないので、今回は説明は省きます

今回使った解決方法は、



を使った方法です

いちおう、Linux でも機体の認識はするのですが
なぜか両面スキャンができませんでした

しかたがないので、一旦 windows xp で両面スキャンをして
PDFファイルとして保存します

次に、このPDFファイルを付属のソフトウェアである
Scan Snap Organizer を使って検索可能なPDFへと変換します

そして、 FileZilla を使って FTPで Namazu を構築したサーバへ
送ります

あとは、一度サーバにログインし、
mknmz /var/www/html/snow -O /usr/local/var/namazu/index/snow/|nkf -w
として
インデックスを更新し、検索可能対象にします

ちなみに、/var/www/html/snow の部分については、
自分で作成した検索対象ファイルに置き換えてください

これで、PDFの中の文字列でも、ほぼ検索することができます

もっとも、スキャナーの解像度やOCRの変換などにも依存しますので
一概にすべてできますとは言えません

残る問題点としては、
検索対象がみつかっても
Namazu での検索結果が文字化けしてしまうこと

Linux でのドキュメントスキャナーがまだないこと

そして、Linux 環境での OCR 変換がまだできていないことです

まだまだすべて Linux とはいきませんが
徐々に改善していこうと思います

スポンサーサイト



テーマ : Linux
ジャンル : コンピュータ

コメント

非公開コメント

最新記事
検索フォーム
GREEハコニワ攻略サイト
リンク
カテゴリ
月別アーカイブ
フリーエリア
最新記事
FXプライムレート
最新コメント
最新トラックバック