校正時にトラブルになる「OCRの問題」とは何か?用語と対処法を解説

2023年2月10日

文章を校正してもらった際に、「OCRの問題なのか、テキストが変でした」と言われたことはないでしょうか?
今回は、OCRの意味と、OCRによるトラブルおよびその対処法を解説していきます。

OCRとは何か?

校正の際に問題になる「OCR」とは、「Optical Character Recognition(光学文字認識)」のことを指しています。
たとえば、手書きの文字や印刷された文字を読み込み、電子的な文字情報にする機械がありますが、その機械に使われている技術がOCRです。

最近では、画像やPDFの文字起こしをするアプリケーションも様々あります。これらの技術はOCRとは異なるのですが、それらも含めて「OCR」と呼ばれることもあります。

OCRは何故使われるのか?

OCRはどのような場面で使用されるのでしょうか?
たとえば、会社のパンフレットと同じ内容で、Webページを作成するとします。
本来であれば、パンフレットを作成した際の原稿データを使用し、Webページを作成するのが安全です。
しかし、時にはパンフレットを作成した際の原稿データを紛失したり、誤って削除してしまったりすることがあります。
その場合は、印刷されたパンフレットの情報を見ながら、再度原稿を作成する必要があります。

印刷されているテキスト情報を手で入力していくのは面倒であるため、OCRを使い、文字起こしをすることがあります。

同様に、Webページに掲載した画像の中のテキストを、何かしらのツールによって文字起こしすることもあります。

OCRの問題

OCRは手作業による文字起こしの負担を軽減してくれる便利な技術ではありますが、様々な問題も抱えています。
ここからはその一例を紹介していきます。

濁点と半濁点の間違い

OCRなどを使い、機械的に文字起こしをした場合、濁点と半濁点を間違えていることが多々あります。
たとえば「バンジー」という文字が小さく、機械が正しく読み取れなかったため、「パンジー」という文字を出力してしまうことがあります。

残念ながら、この問題を簡単に解決する方法はないため、機械的に文字起こしをした後は、濁点と半濁点を取り違えていないか、目視で確認する必要があります。

余分なスペース

機械的に文字起こしをすると、余分なスペースが文章に追加されていることがあります。
システムは文字の間隔なのか、それともスペースがあるのかを判断することができないため、このような問題が発生してしまいます。

機械的に文字起こしをした際には、半角スペースや全角スペースがないかページ内検索し、不要な箇所でヒットしないかどうかを確認するとよいでしょう。

記号の間違い

機械的に文字起こしをすると、記号の取り違えも頻発します。
OCRなどのシステムは「-(マイナス)」と「―(ダッシュ)」など、似ている記号の違いを識別することは不得意です。

この問題も簡単には解決できないため、目視で原稿を確認するだけでなく、意図した記号になっているか、ページ内検索を駆使しながら確認する必要があります。

さいごに

今回はOCRの紹介と、OCRや類似技術を使って文字起こしをする際の問題点を紹介してきました。
上述のとおり、機械的に文字起こしをした後も、目視で確認しなければならず、記号の違いなどの差を調べながら校正を進めるのは困難です。

最近ではシステムによる文字起こしの精度も上がってきたものの、手入力をしたほうが最終的な労力が少なくて済むということは少なくありません。
正確な情報を望むのであれば、機械だけにたよらず、急がば回れで対応していくとよいでしょう。

参考