ニュースリリースや発表会で配布されるプレゼンテーション資料の山により、とある編集者の机の上はいつもごった返している。この状態をDR-5010Cは改善できるのだろうか?
アスキーで働く編集部員の机は、大きく2つに分かれる。スッキリと片付けられている机と、さまざまな資料やモノが乱雑に積み上げられていている机だ。ひどい編集者になると、もはやキーボードの設置スペースすらなくなり、引き出しを開けてそこにキーボードを置いて原稿を書いているという状況に陥っている。
![]() |
|---|
| 大量の資料の山に埋もれる、とある編集者の机。編集者にとって重要な仕事である校正のチェックを行なうスペースも当然のように皆無。キーボードを引き出しの上に置いて使っているのも異様だ。 |
こうして机の上を占領しているものは何なのだろう。アスキーで働く編集部員数十人の机を見て回ったところ、さまざまなメーカーやベンダーからファクスや郵送で送られてくるニュースリリース、あるいは発表会などで配布されるプレゼンテーション資料が圧倒的に多いことが分かった。ニュースリリースはWebサイトで公開されているケースがほとんどであるため、捨てればよさそうな気もするが、実はWebサイトでは全文が掲載されていないケースもあり、捨てられないこともあるとのこと。発表会などで配られる製品説明のためのプレゼン資料も重要な書類のため、保管しておかなければならない。
こうした紙の資料を何とかするのは、ドキュメントスキャナのもっとも得意とすることである。ここでは、キヤノンのドキュメントスキャナ「DR-5010C」を使い、さっそく紙の資料のデジタル化にチャレンジした。
こうした紙の資料のデジタル化で、非常に役立つのがOCRの機能だ。DR-5010Cに付属のソフトウェアである「CapturePerfect」には、標準でOCRの機能が搭載されている。今回はこれを利用し、スキャンした原稿の文字をOCRを使って読み取り、それを合成したPDFファイルを作成する。
設定は簡単だ。まず、CapturePerfectの「オプション」メニューから「PDFファイル設定」を選び、「OCR対象言語」を選択し、「OCR情報の付加」にチェックを入れた。これで、OCR情報付きのPDFを生成する準備は完了だ。
![]() |
|---|
| CapturePerfectで作成するPDFの設定画面。ここで「OCR情報の付加」にチェックを入れ、さらに「OCR対象言語」を選択する。(画像クリックで拡大) |
さっそく、ニュースリリースやプレゼン資料をスキャンしてみよう。まず、ニュースリリース資料をDR-5010Cにセットし、「スキャン」メニューから「バッチファイル」を選択、適当なファイル名を設定してスキャンを実行する。OCRを有効にすると文字認識に時間がかかり、読み取り速度は低下すると思っていたが、実際にはOCRを無効にしたときと比較して、まったくスピード低下はなかった。厳密な計測ではないが、17枚の資料を200dpi/24ビットカラーで取り込んだところ、OCRを無効にした状態で約24秒、有効にして約25秒という結果だった。これなら、わざわざOCRを無効にすることなく、つねに有効にした状態でまったく問題ない。この辺りも、DR-5010Cの大きなセールスポイントだろう。
さて、できあがったPDFをAcrobat Readerで開き、「編集」メニューから「検索」を選択すると、検索用のサイドバーが表示されるので、探したい文字を入力する。
![]() |
|---|
| Acrobat Readerを使ってPDFファイルを開き、検索を行なったところ。OCR情報が付加されていれば、ドキュメント内から指定された文字列を検索できる。(画像クリックで拡大) |
このPDFにはOCR情報が付加されており、検索を行なうと入力した文字がOCR情報の中から探し出され、左側の画像が反転される。また、サイドバー内には検索文字列が含まれる箇所が一覧表示され、クリックすると該当する場所にジャンプするという機能もある。数十ページからなる、大きなPDFファイルを生成したとき、読みたい箇所がどこにあるのかを目視で探すのは大変だが、DR-5010CならこのようにOCR情報をPDFに埋め込み、簡単に検索を実行できるというわけだ。
さらにOCR付きのPDFにする大きなメリットとして、PC内にある大量のPDFから特定の文字列で検索できることが挙げられる。PC内に数十、そして数百とニュースリリースがたまっていくと、いくらタイトルを分かりやすく付けていても、目的のニュースリリースやプレゼン資料を探し出すのは大変な作業だ。しかしテキストデータが埋め込まれたPDFであれば、大量のファイルの中から指定された文字列を含むファイルを検索する環境を簡単に構築できる。
たとえば、Windows XPに標準で搭載されている全文検索エンジンである「インデックスサービス」を使う方法だ。標準ではPDFに未対応だが、アドビシステムズが配布している「Adobe PDF IFilter v6.0」を組み込むことにより、PDFを検索対象にすることができる。これで、たとえば「ドキュメントスキャナ」を含むすべてのPDFを検索する、といったことが可能になる。
![]() |
|---|
| Adobe PDF IFilter v6.0をWindowsに組み込み、実際に検索した。指定された文字列を含むPDFをHDD内から探し出してくれるため、過去の資料でも素早く参照できる。 |
このほかにもPDFの全文検索を実現するソフトは、有償/無償を問わずに多数提供されている。たとえばPDFを含むさまざまなファイルの全文検索を実現する「Google Desktop」などで、こうした環境を実現できる。
もう1つ、OCRによってテキストデータをPDFに埋め込むメリットとして、テキストデータのクリップボードへのコピーが可能になることが挙げられる。テキスト情報が付加されたPDFは、テキスト選択ツールを使ってワープロなどのように文字列を選択し、コピーすることが可能だ。これにより、たとえば製品のスペックなどを引用する際、ニュースリリースの内容をコピー&ペーストすることにより、ケアレスミスを防げるメリットがある。
DR-5010Cを導入したことにより、編集者の机の上に散乱していた資料はすべてPCの中にPDFとして収められ、久しぶりに机の表面が現われた。また、机がきれいになっただけでなく、目的のニュースリリースや製品資料を簡単に探し出せるようになったことで作業時間の短縮も実現し(徹夜がなくなるわけではない)、資料の引用も容易になった。もちろん、こうしたメリットは編集者に限った話ではない。大量の紙の資料の管理に悩んでいるのなら、ぜひDR-5010Cを使ってほしい。キーワードによる検索で大量の資料の中から目的のものを探し出す、あるいは既存の資料のテキストを再利用できる、テキスト付きPDFの大きな利点を実感できるはずだ。
![]() |
|---|
| DR-5010Cを使って各種資料を一気にスキャン。キーボードが元の位置(机の上)に戻り、さらに校正を行なうためのスペースも確保された。 |
|
|
||||
|
|
|
|
|
|
|
|
||||