なぜPDFなのに検索できないの?→それは文字認識されていないから!検索できるようにする方法・OCRソフトについても解説

PDFのはずなのに、検索できない!!と困っている方に向けて作成した記事です。

当ブログではタブレットを使用した勉強法を紹介しているのですが、とてもよくある質問がこれなんです。

「PDFのはずなのに検索できない!!」

「写真・スクリーンショットをとってPDF作成アプリでPDFにしたのに検索できない!」

これらの疑問の答えは

「PDFは基本的に画像!検索できるようにするにはテキストを埋め込む必要がある!!」

です。

この記事では、

  • PDFが検索できる仕組み
  • 検索できるPDFと検索できないPDFの違い
  • 検索できないPDFを検索できるようにする方法

を紹介していきます。

目次

なぜPDFの文字は検索できるの??

PDFが検索できるのは、

「PDFの中に(透明な)テキストが埋め込まれているから」

です。

PDFは基本的に写真と同じ画像です。文字を写真にとったものと同じ状態です。

この文字の位置に一致させてテキストを埋め込んであるので、検索できるというわけです。

テキストというのはこのブログの文字のように、機械で表示されたりしている状態です。ワードで打ち込んだ文字やラインやメールで打ち込んだ文字はテキストですね。テキストなら機械が扱えるので検索したりできます。

この埋め込まれている文字は「透明テキスト」と呼ばれたりします。

間違いやすいポイントとして、GoodnotesなどのノートアプリやPDF Expert、DocumentsなどのPDFリーダーの「検索機能」は、埋め込まれたテキストを検索してれる機能であって、画像上の文字を勝手に認識して検索可能にしてくれるわけではありません。

検索できるPDFと検索できないPDFがあるのはなんで??

PDFが検索できるかどうかは、テキストが埋め込んであるのかどうかで決まります。

ではなぜ、テキストが埋め込まれているものと埋め込まれていないものがあるのでしょうか?

パソコンやスマホで文字を打ってPDFを作成した場合

パソコンで文字を打って作成したPDFの場合には作成した人がどのように処理したかで決まります。

PDFを作成した段階では、ワードで打ち込んだようなテキストの状態であったはずです。

これをテキストを残した状態でPDFにしたか、画像のような状態でPDFにしたか、完成したPDFが検索できるかどうか決まるわけです。

必ずしも作成した人が意地悪で検索できなくしたわけではなく、使っているソフトの問題で検索できるPDFにできなかった場合もあります。

紙をスキャンしてPDFにした場合

混乱しやすいのが、このスキャンしてPDFにした場合です。写真やスクリーンショットをPDFにした場合もここに該当します。スマホのスキャンアプリもです。

このスキャンしてPDFにした場合は基本的に画像の状態です。なので検索はできません。

スキャンしたPDFで検索できるものを使っている人を知っている方もいると思いますが、それは後で紹介するテキストを埋め込むソフトを使って処理している場合です。

検索できないPDFを検索できるようにする方法

では検索できないPDFを検索できるようにするにはどうすればよいかを解説します。

先程紹介したように、PDFを検索できるようにするにはテキストを埋め込む必要があるのでした。

これを行うソフト(パソコン用アプリ)があります。

これを一般的にOCRソフトといいます。

現状ではiPhone/iPadやAndroidのアプリ単体で、完成したPDFを検索できるようにするアプリはまだありません。つまり、パソコンが無いとPDFを検索できるように処理することは出来ません。

OCRとは、日本語で光学文字認識のことで、要するに画像上の文字を機械に一回読み上げてもらう機能のことです。

画像では検索できないので、画像に写っている文字を1個1個認識して読み上げ、テキストにしてPDFに透明な状態で埋め込むことで検索できるようになります。

この一連の流れを文字認識処理OCR化、OCR処理といったりします。

文字認識=OCR と思ってもらってOKです。

PDFを読み込んでOCR処理を行ってくれるのがOCRソフトというわけです。

OCRソフトを使ってPDFを処理しておけば、検索できないPDFも検索できるようになります。

「検索できないPDFを検索できるPDFにするには?」という疑問の答えは「OCRソフトをゲットして、PDFに透明テキストを埋め込むこと」ということです。

PDFを検索できるようにするために必要なもの

ここまでで紹介したPDFを検索可能にするためのOCR処理に必要なものは

  • パソコン
  • 文字認識ソフト(=OCRソフト)

です。

パソコンは基本的にはWindowsがおすすめですが、Macでも大丈夫です。(筆者もMacです。)

というのもWindowsのほうがソフトの種類が多く、安いからです。

ソフトの選択肢としては、

windowsのパソコンならコストパフォーマンス的に読み取り革命がおすすめです。

[amazon asin=”B0091L3FDS” kw=”読取革命Ver.15 製品版”]


Macの場合には、Acrobatというものが選択肢になります。

[amazon asin=”B0771JTRDQ” kw=”Adobe Acrobat Pro DC 12か月版(2019年最新PDF)Windows/Mac対応オンラインコード版”]

Amazonで見てもらえばわかるのですが、結構高いんですよね。

特にMacの場合には、一年契約での金額になるので何年も使おうと思うとかなり高い。

Mr.Pad
Mr.Pad

ちなみにもっと安いOCRソフトもあったりしますが、日本語の読み取りはソフトの世界ではかなり難しい機能みたいですので、しっかり性能を調べてから購入するのがおすすめです。先程紹介した二つは日本語の文字認識にも定評があるので、間違いない二つです。


スキャナーを買うとOCRソフトもついてきて一石二鳥

スキャナーを買うとOCRソフトが付いているものがあります。

スキャナーは紙をスキャンすればPDFにできて、とても便利です。

スキャナーについているOCRソフトはスキャンしたPDFしか処理出来ないという機能制限がついているので、注意が必要です。

スキャナー付属のOCRソフトの場合、すでに持っているPDFを検索可能にしたいときにはもう一度スキャンする必要があります。データでしかない場合には一度印刷してスキャンすれば解決出来ますが、面倒です。そういう状態の方は、さきほど紹介したようなOCRソフトを単独で購入するのがおすすめです。

ついているOCRソフトは高性能なので、紙をスキャンしたい場合には結構おすすめです。

↑こんな感じで束でセットできるので、大量の書類も楽々スキャンできます。

筆者が使用しているスキャナーは、Epson製のDS570という機種です。

USB接続モデルでよければ3万3千円ほどでこのタイプではリーズナブルです。

[amazon asin=”B01LD5IE4O” kw=”エプソン スキャナー DS-530 (シートフィード/A4両面)”]

メジャーどころでは、ScanSnpという機種もあります。ちょっとお値段は上がって5万円近くです。

[amazon asin=”B07HHZJKS3″ kw=”富士通 PFU ドキュメントスキャナー ScanSnap iX1500 (両面読取/ADF/4.3インチタッチパネル/Wi-Fi対応)”]

上で紹介した、2つのスキャナーにはOCRソフトもついていますので、スキャンして作成したPDFであれば検索可能なPDFにできます。

パソコンがないけど検索可能なPDFにしたい場合

パソコンを持っていいない方も検索可能なPDFにすることは可能です。ただ、パソコンよりは効率が落ちたり制限がかかってしまうのが現状です。

将来的にはPDFのOCR処理をアプリでできるようになると思いますので、早く実現するといいですね。

ScanSnap cloudを活用する

ScanSnap Cloudというものを使うと、クラウド上(インターネット上で)処理を行ってくれるので、パソコンが無くてもスマホやタブレットを利用して検索可能なPDFを作成することができます。

https://www.pfu.fujitsu.com/imaging/scansnap-cloud/system.html#function

非常に便利な機能ですが、制限があります。

検索可能なPDFは月に500ページまでしか作成しかできません。

分厚い本だと1冊で500ページに達してしまうので、使い方によってはあまり使い物になりませんし、使い方によってはとても役に立つ機能です。

自分の使い方に応じて、活用してみてください。

対応機種は以下の通り

https://www.pfu.fujitsu.com/imaging/scansnap-cloud/system.html#functionより引用

これらの機種からスキャンしたPDFであれば、スマホやタブレット経由でアップロードして検索可能なPDFにすることができます。

ix1500: 束でセットできるタイプ

ScanSnap最高ランクの機種です。パソコン用のOCRソフトもついています。

モニター付きで操作がわかりやすいのも魅力です。

[amazon asin=”B07HHZJKS3″ kw=”富士通 PFU ドキュメントスキャナー ScanSnap iX1500 (両面読取/ADF/4.3インチタッチパネル/Wi-Fi対応)”]

ix500: 束でセットできるタイプ

ScanSnapix1500の前機種です。ix1500が出るまでは家庭用スキャナーの代表として人気が高く、評判もすこぶる良い機種です。ix1500より安く、安定した性能を期待できます。

[amazon asin=”B00T2B5L52″ kw=”富士通 ScanSnap iX500 (A4/両面)”]

ix100: 一枚ずつ手差しタイプ

手差しタイプなので、大量の紙をスキャンするには時間がかかりますが、少量の紙をスキャンする用としてはとても優秀です。

[amazon asin=”B00T2B5Q66″ kw=”富士通 スキャナー ScanSnap FI-IX100A”]

iPhone/iPadのスキャンアプリを利用する

iPhone/iPadのスキャンアプリを使えば、カメラを使ったスキャンを行って、クラウド上(インターネット上)にPDFを一度アップロードして検索可能なPDFを作成する必要があります。

こちらの方法のデメリットは、カメラによるスキャンなので、スキャンに時間がかかることです。

この方法の詳細は↓の記事で詳しく紹介しています。

まとめ

PDFを検索可能にするにはまだまだ手間がかかりますが、検索可能なPDFはとても便利です。

もし、アプリだけで検索可能なPDFを作成できるものを見つけた方がいれば、お問い合わせから教えていただけると助かります。

筆者

知ってますか?AmazonもApple製品公式です.
ポイントは日々変動します,今日はお得な日かも?
気になるものがあればチェック!!

iPad Pro/iPad Air/iPad/iPad mini
Apple watch SE/Apple watch/
Air Pods Pro/Macbook Air/

この記事が気に入ったら
フォローしてね!

シェアしてもらえるとモチベになります!
  • URLをコピーしました!

コメント

コメント一覧 (1件)

  • おまえらだけは違法だな。

    お前らだけはバカか。

    スキャン依頼が違法なら、代行サービスを堂々とやる業者なんておらん。

コメントする

CAPTCHA


目次