フリーで日本語文章のPDFのOCRおすすめソフト

この記事は3分で読めます

PDFで資料を入手したはいいけれど、その内容を手でパソコンに打ち込むのは面倒。。。
PDFに書かれている文章を自動的に抽出してテキスト文字にできたら楽ですよね。

おすすめOCRソフトはGoogle Docs

オススメの理由

以降の「OCRソフトの選び方」にも出てきますが、
精度も高いですし、かかる時間も短時間、共有設定なども簡単で使い勝手が良いからです。
そして、なにより無料なのでお試しで使いやすいです。

利用にあたってGoogleアカウントが必要

Google DocsはGoogleのサービスの1つです。
利用にあたってはGoogleアカウントが必要になります。
例えば、Gmailを使われていればGoogleアカウントを既に取得済みなので、すぐ使い始められます。

Googleアカウントの取得方法

以下のアドレスにアクセスし、アカウントを作成することができます。
https://accounts.google.com/signup?hl=ja

利用方法

  1. Google Docsの画面を開く
  2. 新規ボタンクリック
  3. ファイルのアップロードをクリック
  4. PDFファイルを指定する (注意事項: ファイルサイズは最大2MBです)

10

スポンサードリンク

OCR実験結果

実験素材

今回は、以下の6種類の素材を用意しました。

横書きセキュリティなしゴシック体

横書きセキュリティなしゴシック体

横書きセキュリティなしゴシック体

横書きセキュリティなし明朝体

横書きセキュリティなし明朝体

横書きセキュリティなし明朝体

横書きセキュリティありゴシック体

横書きセキュリティありゴシック体

横書きセキュリティありゴシック体

横書きセキュリティあり明朝体

横書きセキュリティあり明朝体

横書きセキュリティあり明朝体

縦書きセキュリティなしゴシック体

縦書きセキュリティなしゴシック体

縦書きセキュリティなしゴシック体

縦書きセキュリティなし明朝体

縦書きセキュリティなし明朝体

縦書きセキュリティなし明朝体

実験結果(どれだけOCR成功したか示す)

今回のPDFは全て100%読み込みが成功しました。
もともとMicrosoft Wordで作成したドキュメントをPDFに加工したものを
素材として活用したので、上手く読み込めたのかもしれません。
もし、ドキュメントが紙で、スキャンしたPDFデータだと、読み込みの成功率が落ちると思います。

明朝体とゴシック体、フォントによって読み込みの成功率に違いがあるか調査

今回のPDFは全て読み込み成功したので、違いはありませんでした。
明朝体よりもゴシック体の方がより、読み込みやすくなるのではと思います。

OCRソフトの選び方

精度が高い

PDFでの文字の表示状態にもよる。タイピングされた文字であり、
かつ元データを紙でスキャンしたPDFだと紙が歪んだ影響で
文字に歪みや、文字がかすれていたり、濃淡があると読み取りに影響があります。

かかる時間

これはPDFの文章量に応じて時間がかかります。

読み込み後の使い勝手

読み込んだ後に、共有するなど、使い勝手が良いツールをオススメします。
Google Docsなら、共有設定が簡単に行えます。

インストール必要か

Google Docsのようなウェブサービスであれば、インストール不要なので、使いやすいです。
インストールが必要なソフトウェアの場合は、
インストール不要なツールに比べてパソコンの動作が遅くなる原因になります。

そもそもOCRは必要?

PDFは読み取り許可になっていれば、OCR使わずとも、文字抽出することができます。
PDFファイルの設定情報を確認し、文字抽出が可能か確認をしてください。

お名前(苗字のみ)
メールアドレス



スポンサードリンク

  • このエントリーをはてなブックマークに追加

関連記事

コメント

  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

スポンサードリンク

自己紹介

みなさま初めまして。けいたろうです。

これまで自分で試してきた方法の中で、行動力を高める方法やマインドを教えます。

詳しくは、自己紹介をご覧ください。
  • このエントリーをはてなブックマークに追加
  • LINEで送る