ADOBE ACROBAT 活用ガイド

> 活用ガイドTOP
ACROBATを使ってみよう!  実際に使いながら学ぶ仕事への活用法

5. 紙文書の電子化 - OCRを使用して検索可能なPDFにする
3D Professional Standard


Acrobatの[OCRを使用してテキストを認識]を実行すると、スキャナから読み込んだ紙文書をテキストとして認識できるようになります。企業内の膨大な紙文書をAdobe PDFに変換すれば、管理コストや保管スペースを大幅に削減できるだけでなく、社内のネットワークを通じて全員が情報を共有し、検索や、情報の再利用も容易に行えます。

サンプルのダウンロード
最初にこのページで使うサンプルをダウンロードしてください。

※OCRテスト用のスキャン文書サンプルが添付されています。

pdf-icon

*Adobe Acrobat 8.1 Professional/Standard Windows版およびAcrobat 3D Version 8をご利用のお客様は、こちらからOCRアップデートをご利用ください。

紙文書をスキャンして直接PDFに変換する

Acrobatからスキャナを使用して紙文書をスキャンし、PDFファイルを直接作成できます。
Windows XPでは、Acrobat は TWAIN スキャナドライバと Windows Image Acquisition(WIA)ドライバをサポートしますので、ほとんどのスキャナをAcrobatから直接利用することができます。

スキャナからPDFを作成
  1. [ファイル]メニュー>[PDF の作成]>[スキャナ]を選択するか、[文書]メニュー>[スキャナからPDFを作成]を選択するか、ツールバーにある [PDF の作成]タスクボタンから[スキャナ]を選択します。
Acrobat Scan ダイアログ
  1. [Acrobat Scan]ダイアログボックスで、基本的なスキャンオプションを選択します。
  2. [検索可能にする(OCRを実行)]にチェックを入れ、必要に応じて「スキャナオプション」と、詳細設定(「最適化オプション」および「テキスト認識」の設定)を行います。

    *このとき、[PDF/A準拠にする]にチェックを入れておくと、文書の長期保存に適した国際標準規格であるPDF/A(下記コラム参照)に準拠したPDFとして保存できます。
OCR適用後
  1. スキャンと同時にOCR処理が実行され、検索可能なテキストとして認識されます。

スキャナオプションについて

  • [入力] - [スキャナオプション]*
    スキャナが選択されている場合のみスキャナオプションダイアログボックスが表示され、スキャナが利用可能な原稿サイズや、スキャナ固有のインターフェイスを使用するか否かといった設定を行うことができます。*Windows版のみ
  • [文書] - [最適化オプション]
    画像設定の最適化オプションダイアログボックスでは、スキャンした画像をPDF用にフィルタ処理し、圧縮する方法を設定します。通常はデフォルト設定で十分ですが、設定をカスタマイズして、画像の品質を向上させたり、ファイルサイズを小さくしたり、スキャンの問題を解決したりできます。
  • [文書] - [テキスト認識-設定]オプション
    OCR処理を適用して文字認識を行う際のオプションを設定できます。

スキャン済みの文書をPDF化してOCRを適用する

スキャン文書を開く
  1. スキャン済みの文書(画像)をAcrobatで開きます。

    *TIFF、JPEG(jpg)、BMPといった画像形式は、直接Acrobatで開くことができ、Acrobatで開くと自動的にPDFに変換されます。
OCRテキスト認識
  1. [文書]メニュー>[OCRテキスト認識]>[OCRを使用してテキストを認識]を選択します。

テキスト認識ダイアログ
  1. [テキスト認識]ダイアログボックス>から必要に応じて設定の編集を行い、[OK]ボタンをクリックします。

    *[OCRの設定] - [OCRの言語]で日本語を選択すると、スキャン文書の上に透明テキストを重ることによって、PDFを検索可能な画像として処理します。[画像のダウンサンプリング]では、OCR処理後のスキャン文書を設定に応じてダウンサンプリング(圧縮)してファイルサイズを軽くします。
OCR実行中
  1. OCR処理が実行され、スキャン文書を検索可能なテキストとして利用できるようになります。

Tips コラム:OCRに関するヒント 3D Professional Standard

OCRの精度を上げるためのスキャンに関するヒント

  • OCR処理に最適な解像度
    OCR処理を行う場合、72ppi 以上の入力解像度が必要になり、600ppi を超える入力解像度は 600ppi 以下にダウンサンプリングされます。
    ほとんどのページでは、300ppi の白黒スキャンで変換に最適なテキストが生成されます。150ppi では、OCRの精度が少し低下し、フォント認識エラーが増えます。400ppi 以上の解像度では、処理が遅くなり、圧縮ページのサイズが大きくなります。ページに判読不可能なテキストや9ポイント以下の小さい文字が多数含まれている場合は、解像度を上げてスキャンします。 可能であれば、白黒でスキャンします。

OCRをバッチ処理で自動化する 3D Professional

シーケンスの編集

  • Acrobatのバッチ処理の機能を使用して、スキャン文書をまとめてOCR処理することができます。[アドバンスト]メニュー>[文書処理]>[バッチ処理]からシーケンス(自動化する作業)の編集を行い、この中から予め定義された作業を組み合わせることによって、Acrobatで処理を自動化させることができます。OCRも、このシーケンスのひとつとして予め登録されていますので、複数のスキャン文書に対して、一括でOCRを適用することができます。

Tips コラム:電子文書の長期保存

文書の長期保存に適したPDF

  • Adobe PDFは、仕様が100%公開されたオープンなフォーマットであり、またアドビシステムズはISOによるPDFの標準化の促進を目的として最新PDFの全仕様をAIIM(国際画像情報協会)に譲渡すると発表しています。過去の紙文書や資料をすべてPDFに変換しておけば、情報の検索や再利用も容易に行え、企業全体の資産として共有できます。

電子文書の長期保存 - PDF/A

  • アドビは、ISO(国際標準化機構)、ANSI(アメリカ規格協会)、AIIM(国際画像情報協会)といった主要な標準化団体や協会のメンバーとして、PDFに関する様々な標準化への取り組みを行っています。PDF/Aは、「電子文書の長期保存」を規定するISO規格として、2005年に標準化された規格です。Acrobatを使用すれば、PDF/Aに準拠したPDFを作成できます。

*本コンテンツは、Windows版を元に解説しています。Macintosh版では一部の機能が制限される場合があります。

  • Acrobat 3D Version 8 Acrobat 3D Version 8
  • Acrobat 8 Professional Acrobat 8 Professional
  • Acrobat 8 Standard Acrobat 8 Standard
  • Adobe Reader Adobe Reader