2019年04月30日更新
GoogleのOCR(光学式文字認識)でPDFや画像をテキストに文字起こしする方法!
PDFや画像中の文字はOCRを使えば、効率的にテキストに文字起こしが可能です。OCRソフトは製品版からフリーソフトまで沢山ありますが、おすすめはGoogleドライブのOCR機能です。今日はGoogleのOCRでPDFや画像から文字起こしする方法を紹介します。
目次
GoogleドライブがあればOCRソフトは不要?
PDFや紙媒体の資料、画像の中の文字を日本語テキストデータに文字起こしする際はOCRが欠かせません。このOCRを使うと大量のPDFや紙媒体の資料もわざわざ手入力する時間と労力をかけることなく、テキストに文字起こしが可能になります。
そのため製品版やフリーのOCRソフトが沢山市場に出回っています。ですがわざわざOCRソフトを入手しなくてもGoogleドライブにはOCRが標準の機能として備わっていることをご存知でしょうか?
OCR(光学式文字認識)で日本語テキストを抽出
OCRとは、Optical Character Recognition/Readerの略で日本語では光学式文字認識という機能です。画像ファイルやPDFファイルを読み込み、そのデータの中から文字の輪郭を抽出、その輪郭がどの文字にあてはまるか判断しテキストとして変換する機能です。画像からテキストに文字起こしが可能なので、書類や黒板の写メをとり、OCRでパソコンにテキストデータとして保存するという使い方も可能です。
ですが、漢字の「二」とカタカナの「ニ」や、漢字の「一」と音引きの「ー」を混同したり、読み取れず記号やスペースが散見されるなど、OCR(光学式文字認識)ソフトの性能や読み込むファイルの状態によって文字認識の精度に違いがあります。
GoogleドライブとGoogleドキュメントを使う
GoogleドライブのOCR(光学式文字認識)機能は、数あるOCRソフトと比べて文字認識の精度が高いと最近注目を集めています。
文字認識の精度の高さ以外にも、改めてソフトを購入したりインストールしたりする必要もなく、GoogleアカウントとGoogleドライブ、Googleドキュメントがあればテキストの文字起こしが可能です。さらに使い方も簡単で難しい手順を踏む必要もありません。
GoogleドライブによるOCR(文字起こし)の使い方
GoogleドライブでのOCR(光学式文字認識)機能による日本語テキストの文字起こしの使い方を具体的に説明していきます。
GoogleドライブのOCR機能を使う
まずはGogleドライブ< drive.google.com>を開きます。Googleドライブを使用するにはGoogleアカウントが必要ですので、まだGoogleのアカウントを持っていない場合は、下記のリンクを参考にしてアカウントを作成して下さい。
今回はGoogleドライブの説明は省略します。使い方などの詳細は下記のリンクを参照して下さい。
ファイルをGoogleドライブにアップロード
GoogleドライブにOCR(光学式文字認識)機能で日本語テキストを文字起こししたいファイルをアップロードします。Googleドライブへのアップロードの方法は2通りあります。
①ファイルの入っているフォルダからGoogleドライブへドロップさせる方法(上の画像)と、②Googleドライブ上で右クリックし、「ファイルをアップロード」からテキスト抽出したいファイルを指定する方法(下の画像)の2つです。
右クリックしてアップロードする方法は、まずGoogleドライブの緑の枠内で右クリックし、「ファイルをアップロード」をクリックします。(緑の枠は右クリックするエリアの説明のために追加しています。実際にはGoogleドライブに緑の枠の表示はありません。)
フォルダが開きますので、日本語テキストに文字起こしさせたいファイルをダブルクリック、またはファイルを選択してから「開く/open」をクリックします。
どちらのやり方でもファイルのGoogleドライブへのアップロードが開始されると小さいウィンドウが開き、「アップロードしています」と表示されます。
アップロードにかかる時間はファイルの重さやパソコンの状態、ネットの通信速度にも影響されますが、アップロードが完了すると、ウィンドウが「アップロード完了」に変わります。このウインドウは「✖」で閉じて構いません。
Googleドライブへのファイルのアップロードが完了しました。
ファイルをGoogleドキュメントで開く
日本語テキストにしたい対象ファイルをクリックで選択してから右クリックし、「アプリを開く」から「Googleドキュメント」をクリックします。
すぐに画面が切り替わりGoogleドキュメントで指定されたファイルのデータの読み込みが開始されます。
Googleドキュメントがファイルのデータの読み込みが完了すると、新しいタブでGoogleドキュメントが開きます。データから読み込んだGoogleドキュメントの内容を見てみましょう。
まずは画像ファイル(Jpeg)をGoogleドキュメントで開いた場合です。Googleドキュメントの先頭には、Googleドライブに保存してGoogleドキュメントで読み込んだ画像ファイルがそのまま画像として貼り付けられています。
そのままGoogleドキュメントを下にスクロールするとOCR(光学式文字認識)機能によって文字起こしされた日本語がテキストデータをして表示されています。(文字の色とサイズはGoogleのOCR(光学式文字認識)機能で自動行われたものです。)
画像ファイル(Jpeg)と同じ内容のPDFファイルをGoogleドライブのOCRで日本語テキストの読み込みをし、Googleドキュメントで開いたものが上の画像です。画像ファイル(Jpeg)からOCRで日本語を読み込むと元の画像ファイルがそのまま貼り付けられてから日本語のテキストデータが表示されていました。
一方PDFファイルからOCRで日本語テキストの文字起こしを行った場合、PDFファイルの元データは画像として貼り付けられておらず、PDFから日本語の文字だけが読み込まれています。
ここまでが、GoogleドライブのOCR(光学式文字認識)機能の使い方となります。使い方の中でOCR(光学式文字認識)機能を使うといった指示を一切行っていません。ですがGoogleが自動でOCR機能を使い自動でテキストを抽出し文字起こしが行われました。これが使い方が簡単と言われる理由です。
形式を指定してダウンロード
Googleドキュメントで読み込んだ日本語テキストのファイルをダウンロードします。OCRソフトによってはダウンロードの形式がテキスト形式のみだったりしますが、Googleの場合はMicrosoft Wordやテキスト形式など形式が選べます。今回はMicrosoft Wordでダウンロードしてみましょう。
Googleドキュメントの「ファイル」>「形式を指定してダウンロード」から「Microsoft Word(.docx)」をクリックします。
Microsoft Word形式でパソコンにダウンロードが完了しました。
もし、ダウンロードせずにGoogleドキュメントを閉じてしまっても、あわてる必要はありません。OCR機能で日本語テキストに文字起こしされた、さきほど確認したままの内容でGoogleドライブにGoogleドキュメントとして保存されていますので、あとからでもダウンロードが可能です。
GoogleのOCRの文字認識の精度とは?
ソフトをダウンロードせずともGoogleのOCR機能を使って画像からテキストの文字起こしができることが確認できました。ですが、気になるのがGoogleのOCR機能の文字認識の精度です。
日々向上している
GoogleのOCR機能、文字認識の精度は日々向上しています。それにはGoogleならではの特徴が関係しています。
クラウドサービスのため最新版が使える
GoogleドライブのOCR機能はそもそもGoogleドライブがクラウドサービスです。そのため他のOCRソフトのようにソフトのダウンロードやアップデートを行う必要がなく、常に最新版を使うことができます。
AIの学習機能により精度向上が期待できる
昨今話題のAI(人工知能)はGoogleにとっても例外ではなく、むしろGoogleは積極的にAI関連のサービス向上に注力しています。現時点ですでに他のOCRソフトに比べて文字判別の精度が高いと評価を受けているGoogleドライブのOCR機能は利用者が増えれば増えるだけ、AIの学習機能によってさらに文字認識の精度は向上するでしょう。
GoogleのOCRで精度を上げるポイント
GoogleのOCR(光学式文字認識)機能の向上を待つばかりでなく、使用する側でも文字認識の精度を上げるためのコツやポイントがあります。
対象のファイル形式を確認する
GooogleドライブのOCR機能を利用するには、抽出可能なファイル形式が決められています。対象ファイルについては次項「GoogleのOCRの対象ファイル」で詳しくお話しします。
テキストを抽出したい箇所を切り取る
画面のほとんどがイラストだったり、文字認識させてテキストを抽出したい箇所が決まっている場合は、そのテキストに変換させたい箇所のみをOCR機能にかけた方が精度は上がります。また、1つのファイルに文字の向きが一定方向でないものは、テキストを抽出したい箇所の文字の向きを一定にさせた方が精度が上がります。
GoogleのOCRの対象ファイル
GoogleドライブのOCR機能の使い方には、文字認識の確立を上げるための、Googleが推奨するファイルの形式や文字のサイズ、画質などがあります。OCRで上手く読み込めない場合は参考にして下さい。
形式
まずはファイルの形式です。
JPEG・PNG・GIF・PDF
GoogleドライブのOCR機能が使えるのは、ファイル形式がJPEG (ジェイペグ)、PNG (ピング)、GIF (ジフ)、PDF(ピーディーエフ)の4形式です。例えばMicrosoft Wordに画像を貼り付けてGoogleドキュメントで開いてもOCR機能は働きません。ただ画像データが貼り付けられているだけのGoogle度油面とが開きます。
ファイルサイズ
ファイルのサイズが大きすぎてもOCRがうまく機能しません。ファイルサイズが大きい場合はイラストなど日本語テキストの文字起こしに必要ないものを削除し、テキストを抽出したい箇所を切り取ってからOCR機能にかけることをおすすめします。
2MB以下
Googleドライブでは2MB以下のサイズを推奨しています。ファイルサイズに不安がある場合は事前にファイルのサイズを確認してからGoogleドライブへアップロードしましょう。
気をつけたいのがフォルダでのファイルサイズの表示です。ファイルのプロパティを開いたりフォルダで詳細表示をしても表示されているサイズはKBです。2MB=2048KBとなりますので、ファイルのサイズは2000KB程度までと覚えておくと良いでしょう。
解像度
10px以上
Googleドライブで推奨されている、OCRが文字認識し、一定の精度を保つために必要な解像度10pxです。これはテキストの高さが10pxということです。この場でテキストの10pxの高さを表示するのはそれぞれのパソコンによって変わってくるため難しいですが、目安として新聞の文字より大きくすれば文字認識度は上がります。
文字に関しては10px以上というサイズ以外にも、フォントや文字の向きが文字認識の精度に大きくかかわってきます。画像やPDFで受け取るファイルなので自分ではどうにもできませんが、Googleが推奨するフォントはArial や Times New Roman、MS のような一般的なフォントです。
毛筆体のような文字自体に霞んでいる箇所があったりする場合はどうしても精度が下がります。
また、一枚の画像ファイルの中の文字の向きが揃っていない場合も文字認識の精度が下がります。この場合は、一番多い文字数の向きをまっすぐにするか、それぞれの向きを切り取ってそれぞれにOCR機能で読み込みをするか、文字の量によって決めましょう。
画質
画質によってもOCRでのデータ読み込みは精度に影響を受けます。
明るさやコントラストに注意
画像の明るさは均一で、コントラストがはっきりしている画像がOCRの解像には適しています。また、画像と文字が重なっていてさらに画像と文字が同系色の場合は文字認識の精度は下がります。明るさコントラストは多少なら画像の加工で改善できますので少し手を加えてからOCRで読み込みましょう。
GoogleのOCRでPDFや画像をテキストに変換してみよう
ペーパーレスによる画像ファイルやPDFファイルの増加に伴い、OCRの需要はより一層の高まりを見せています。GoogleのOCRは使い方が簡単で、文字認識の精度も確実に上がってきています。他のOCRソフトの使い方が難しかったり文字認識の精度に不満があった人も、仕事の効率を高めるために是非GoogleのOCRを活用して下さい。