光学式文字認識

ウィキペディアから、無料の百科事典
ナビゲーションにジャンプ 検索にジャンプ

ポータブルスキャナーを使用したスキャンおよびリアルタイム光学式文字認識(OCR)のプロセスのビデオ。

光学式文字認識または光学式文字リーダーOCR)は、入力、手書き、または印刷されたテキスト画像を、スキャンされたドキュメント、ドキュメントの写真、シーン写真(たとえば風景写真の看板や看板​​のテキスト)または画像に重ねられたサブタイトルテキスト(例:テレビ放送から)。[1]

パスポート文書、請求書、銀行明細書、コンピューター化された領収書、名刺、郵便物、静的データの印刷物、または適切な文書など、印刷された紙のデータ記録からのデータ入力の形式として広く使用されています。これは、印刷物をデジタル化する一般的な方法です。テキストを電子的に編集、検索、よりコンパクトに保存、オンラインで表示し、認知コンピューティング機械翻訳、(抽出された)テキストから音声、キーデータ、テキストマイニングなどの機械プロセスで使用できるようにします。OCRは、パターン認識人工知能コンピュータービジョンの研究分野です

初期のバージョンでは、各キャラクターの画像を使用してトレーニングし、一度に1つのフォントで作業する必要がありました。現在、ほとんどのフォントで高度な認識精度を実現できる高度なシステムが一般的であり、さまざまなデジタル画像ファイル形式の入力がサポートされています。[2]一部のシステムは、画像、列、およびその他の非テキストコンポーネントを含む、元のページに非常に近いフォーマットされた出力を再現できます。

歴史

初期の光学式文字認識は、電信と視覚障害者のための読書装置の作成を含む技術にまでさかのぼることができます。[3] 1914年、エマヌエルゴールドバーグは、文字を読み取り、それらを標準の電信コードに変換するマシンを開発しました。[4]同時に、エドマンド・フルニエ・ダルベは、印刷されたページ上を移動すると特定の文字や文字に対応するトーンを生成するハンドヘルドスキャナーであるオプトフォンを開発しました。[5]

1920年代後半から1930年代にかけて、エマヌエルゴールドバーグは、光学コード認識システムを使用してマイクロフィルムアーカイブを検索するための「統計的機械」と呼ばれるものを開発しました。1931年に彼は発明のために米国特許番号1,838,389を与えられました。この特許はIBMによって取得されました。

視覚障害のあるユーザー

1974年、レイ・カーツワイルはKurzweil Computer Products、Inc.を設立し、事実上すべてのフォントで印刷されたテキストを認識できるオムニフォントOCRの開発を続けました(カーツワイルはオムニフォントOCRの発明で有名ですが、 1960年代後半から1970年代にかけてのCompuScanを含む企業[3] [6])。Kurzweilは、このテクノロジーの最良の用途は、視覚障害者用の読書機を作成することであると判断しました。これにより、視覚障害者はコンピューターにテキストを読み上げることができます。このデバイスには、 CCD フラットベッドスキャナーという2つの実現技術の発明が必要でした。音声合成シンセサイザー。1976年1月13日、成功した完成品は、カーツワイルと全米盲人連盟の指導者が率いる広く報道された記者会見で発表されました[要出典] 1978年、カーツワイルコンピュータプロダクツは光学式文字認識コンピュータプログラムの商用バージョンの販売を開始しました。LexisNexisは最初の顧客の1つであり、法的文書やニュース文書を初期のオンラインデータベースにアップロードするプログラムを購入しました。2年後、カーツワイルは会社をゼロックスに売却しました。ゼロックスは、紙からコンピューターへのテキスト変換をさらに商業化することに関心を持っていました。Xeroxは最終的にScansoftとしてスピンオフしました、ニュアンスコミュニケーションズと合併しました

2000年代に、OCRは、サービスとしてオンライン(WebOCR)、クラウドコンピューティング環境、およびスマートフォンでの外国語標識のリアルタイム翻訳などのモバイルアプリケーションで利用できるようになりましたスマートフォンとスマートグラスの登場により OCRは、デバイスのカメラを使用してキャプチャされたテキストを抽出するインターネット接続のモバイルデバイスアプリケーションで使用できるようになりました。オペレーティングシステムにOCR機能が組み込まれていないこれらのデバイスは、通常、OCR APIを使用して、デバイスによってキャプチャおよび提供された画像ファイルからテキストを抽出します。[7] [8]OCR APIは、抽出されたテキストを、元の画像で検出されたテキストの場所に関する情報とともにデバイスアプリに返し、さらに処理(テキスト読み上げなど)または表示します。

ラテン文字、キリル文字、アラビア文字、ヘブライ文字、インド語、ベンガル語(バングラ語)、デーバナーガリー文字、タミル語、中国語、日本語、韓国語の文字を含む、 さまざまな商用およびオープンソースのOCRシステムが最も一般的な書記体系で利用できます。

アプリケーション

OCRエンジンは、領収書OCR、請求書OCR、小切手OCR、法定請求書OCRなど、さまざまな種類のドメイン固有のOCRアプリケーションに発展してきました。

それらは以下のために使用することができます:

  • 小切手、パスポート、請求書、銀行取引明細書、領収書などのビジネス文書のデータ入力
  • 自動ナンバープレート認識
  • 空港では、パスポートの認識と情報抽出のために
  • 自動保険文書の重要な情報の抽出[要出典]
  • 交通標識認識[9]
  • 名刺情報を連絡先リストに抽出する[10]
  • プロジェクトグーテンベルク本のスキャンなど、印刷されたドキュメントのテキストバージョンをより迅速に作成します
  • 印刷されたドキュメントの電子画像を検索可能にする(例:Googleブックス)
  • 手書きをリアルタイムで変換してコンピューターを制御する(ペンコンピューティング
  • CAPTCHAアンチボットシステムを打ち負かしますが、これらはOCRを防ぐために特別に設計されています[11] [12] [13]目的は、CAPTCHAアンチボットシステムの堅牢性をテストすることでもあります。
  • 視覚障害のあるユーザーのための支援技術
  • リアルタイムで変化する車両設計に適したCAD画像をデータベースで特定することにより、車両の指示を記述します。
  • スキャンしたドキュメントを検索可能なPDFに変換して検索可能にする

タイプ

OCRは通常、静的ドキュメントを分析する「オフライン」プロセスです。オンラインOCRAPIサービスを提供するクラウドベースのサービスがあります。手書きの動きの分析は、手書き認識への入力として使用できます[14]この手法では、単にグリフや単語の形を使用するのではなく、セグメントが描画される順序、方向、ペンを下に置いたり持ち上げたりするパターンなどの動きをキャプチャできます。この追加情報により、エンドツーエンドのプロセスをより正確にすることができます。この技術は、「オンライン文字認識」、「動的文字認識」、「リアルタイム文字認識」、および「インテリジェント文字認識」とも呼ばれます。

テクニック

前処理

OCRソフトウェアは、認識が成功する可能性を高めるために、画像を「前処理」することがよくあります。テクニックは次のとおりです。[15]

  • デスキュー–スキャン 時にドキュメントが適切に配置されていない場合、テキストの行を完全に水平または垂直にするために、ドキュメントを時計回りまたは反時計回りに数度傾ける必要がある場合があります。
  • スペックル 除去–正と負のスポットを削除し、エッジを滑らかにします
  • 二値化–画像をカラーまたはグレースケールから白黒に変換します(2つの色があるため、「二値画像」と呼ばれます)。2値化のタスクは、テキスト(またはその他の必要な画像コンポーネント)を背景から分離する簡単な方法として実行されます。[16]ほとんどの商用認識アルゴリズムは、より簡単であることが証明されているため、バイナリイメージでのみ機能するため、2値化のタスク自体が必要です。[17]さらに、二値化ステップの有効性は、文字認識段階の品質に大きく影響し、特定の入力画像タイプに使用される二値化の選択において慎重な決定が行われます。バイナリ結果を取得するために採用される2値化方法の品質は、入力画像のタイプ(スキャンされたドキュメント、シーンテキストイメージ、履歴劣化ドキュメントなど)によって異なるためです。[18] [19]
  • 行の削除–非グリフボックスと行をクリーンアップします
  • レイアウト分析または「ゾーニング」–列、段落、キャプションなどを個別のブロックとして識別します。複数列のレイアウトテーブルで特に重要です。
  • 線と単語の検出–単語と文字の形状のベースラインを確立し、必要に応じて単語を区切ります。
  • スクリプト認識–多言語ドキュメントでは、スクリプトは単語のレベルで変更される可能性があるため、特定のスクリプトを処理するために適切なOCRを呼び出す前に、スクリプトを識別する必要があります。[20]
  • 文字の分離または「セグメンテーション」–文字ごとのOCRの場合、画像のアーティファクトが原因で接続されている複数の文字を分離する必要があります。アーティファクトのために複数の部分に分割された単一の文字を接続する必要があります。
  • アスペクト比スケールを正規化する[21]

固定ピッチフォントのセグメンテーションは、垂直グリッド線が黒い領域と交差することが最も少ない場所に基づいて、画像を均一なグリッドに位置合わせすることによって比較的簡単に実行されます。プロポーショナルフォントの場合、文字間の空白が単語間の空白よりも大きくなることがあり、垂直線が複数の文字と交差する可能性があるため、より高度な手法が必要です。[22]

テキスト認識

コアOCRアルゴリズムには2つの基本的なタイプがあり、候補文字のランク付けされたリストを生成する場合があります。[23]

  • マトリックスマッチングでは、画像を保存されているグリフとピクセルごとに比較します。「パターンマッチング」、「パターン認識」、または「画像相関」とも呼ばれます。これは、入力グリフが画像の残りの部分から正しく分離されていること、および保存されているグリフが同様のフォントで同じ縮尺であることに依存しています。この手法は、タイプライターで記述されたテキストで最適に機能し、新しいフォントが検出された場合はうまく機能しません。これは、初期の物理的なフォトセルベースのOCRが直接実装した手法です。
  • 特徴抽出は、グリフを線、閉ループ、線の方向、線の交点などの「特徴」に分解します。抽出機能により、表現の次元が減少し、認識プロセスが計算効率が向上します。これらの機能は、文字の抽象的なベクトルのような表現と比較されます。これは、1つ以上のグリフプロトタイプに縮小される可能性があります。コンピュータビジョンでの特徴検出の一般的な手法は、このタイプのOCRに適用できます。これは、「インテリジェントな」手書き認識および実際に最も最新のOCRソフトウェアで一般的に見られます。[24] k最近傍アルゴリズムなどの最近傍分類器画像の特徴を保存されているグリフの特徴と比較し、最も近いものを選択するために使用されます。[25]

CuneiformTesseractなどのソフトウェアは、文字認識に2パスアプローチを使用します。2番目のパスは「適応認識」と呼ばれ、最初のパスで高い信頼性で認識された文字の形状を使用して、2番目のパスの残りの文字をより適切に認識します。これは、通常とは異なるフォントや、フォントが歪んでいる(たとえば、ぼやけている、色あせている)低品質のスキャンに有利です。[22]

最新のOCRソフトウェアには、Google Docs OCR、ABBYY FineReader、Transymが含まれます。[26] OCRopusやTesseractのような他のものは、単一の文字に焦点を合わせる代わりに、テキストの全行を認識するように訓練された ニューラルネットワークを使用します。

反復OCRと呼ばれる新しい手法は、ページレイアウトに基づいてドキュメントをセクションに自動的にトリミングします。OCRは、ページレベルのOCR精度を最大化するために、可変文字信頼レベルしきい値を使用してセクションに対して個別に実行されます。この方法については、米国特許庁から特許が発行されています[27]。

OCRの結果は、米国議会図書館が管理する専用のXMLスキーマである標準化されたALTO形式で保存できますその他の一般的な形式には、hOCRおよびPAGEXMLが含まれます。

光学式文字認識ソフトウェアのリストについては、光学式文字認識ソフトウェアの比較を参照してください。

後処理

出力がレキシコン (ドキュメント内での出現が許可されている単語のリスト)によって制約されている場合は、OCRの精度を高めることができます。[15]これは、たとえば、英語のすべての単語、または特定の分野のより技術的な用語集である可能性があります。この手法は、適切な名詞のように、ドキュメントにレキシコンにない単語が含まれている場合に問題になる可能性がありますTesseractは、辞書を使用して文字のセグメンテーションステップに影響を与え、精度を向上させます。[22]

出力ストリームはプレーンテキストストリームまたは文字のファイルですが、より高度なOCRシステムでは、ページの元のレイアウトを保持し、たとえば、ページの元の画像と検索可能なテキスト表現の両方を含む注釈付きPDFを生成できます。 。

「近傍分析」では、特定の単語が一緒に見られることが多いことに注意することで、共起頻度を利用してエラーを修正できます。[28]たとえば、「ワシントンDC」は、一般的に「ワシントンDOC」よりも英語ではるかに一般的です。

スキャンされる言語の文法の知識は、たとえば、単語が動詞または名詞である可能性が高いかどうかを判断するのにも役立ち、精度を高めることができます。

レーベンシュタイン距離アルゴリズムは、OCR APIからの結果をさらに最適化するために、OCR後処理でも使用されています。[29]

アプリケーション固有の最適化

近年、[いつ?]主要なOCRテクノロジープロバイダーは、特定のタイプの入力をより効率的に処理するためにOCRシステムを微調整し始めました。アプリケーション固有の用語集を超えて、ビジネスルール、標準表現、 [説明が必要]、またはカラー画像に含まれる豊富な情報を考慮することで、パフォーマンスが向上する可能性があります。この戦略は「アプリケーション指向OCR」または「カスタマイズOCR」と呼ばれ、ライセンスプレート請求書スクリーンショットIDカード運転免許証、および自動車製造のOCRに適用されています。

New York Timesは、OCRテクノロジーを独自のツールであるDocument Helperに適合させました。これにより、インタラクティブなニュースチームは、レビューが必要なドキュメントの処理を高速化できます。彼らは、記者が内容をレビューする準備として、1時間あたり5,400ページもの量を処理できると述べています。[30]

回避策

改良されたOCRアルゴリズム以外の手段で文字認識の問題を解決するためのいくつかの手法があります。

より良い入力を強制する

OCR-AOCR-BMICRフォントなどの特殊なフォントは、正確に指定されたサイズ、間隔、および特徴的な文字形状を備えているため、銀行小切手処理での文字起こしの精度を高めることができます。ただし、皮肉なことに、いくつかの著名なOCRエンジンは、ArialやTimes New Romanなどの一般的なフォントでテキストをキャプチャするように設計されており、一般的に使用されているフォントとは大きく異なる特殊なフォントでテキストをキャプチャすることはできません。Google Tesseractは新しいフォントを認識するようにトレーニングできるため、OCR-A、OCR-B、MICRフォントを認識できます。[31]

「くし形フィールド」は、人間がより読みやすく書くことを奨励する事前に印刷されたボックスです–ボックスごとに1つのグリフ。[28]これらは多くの場合、OCRシステムで簡単に削除できる「ドロップアウトカラー」で印刷されます。[28]

Palm OSは、「グラフィティ」と呼ばれる特殊なグリフのセットを使用しました。これは、印刷された英語の文字に似ていますが、プラットフォームの計算が制限されたハードウェアで認識しやすいように簡略化または変更されています。ユーザーは、これらの特別なグリフの書き方を学ぶ必要があります。

ゾーンベースのOCRは、画像をドキュメントの特定の部分に制限します。これは、「テンプレートOCR」と呼ばれることがよくあります。

クラウドソーシング

クラウドソーシングで人間に文字認識を実行させると、コンピューター駆動のOCRのように画像をすばやく処理できますが、コンピューターを介して取得した画像よりも画像の認識精度が高くなります。実用的なシステムには、AmazonMechanicalTurkreCAPTCHAが含まれます。フィンランド国立図書館は、ユーザーが標準化されたALTO形式のOCRedテキストを修正するためのオンラインインターフェイスを開発しました。[32]クラウドソーシングは、文字認識を直接実行するのではなく、ソフトウェア開発者を招待して、たとえばランク順トーナメントを使用して画像処理アルゴリズムを開発するためにも使用されています。[33]

精度

米国エネルギー省(DOE)の委託により、情報科学研究所(ISRI)は、機械で印刷された文書を理解するための自動化技術の改善を促進する使命を帯びており、1992年から最も権威のあるOCR精度の年次テストを実施しました。 1996年まで。[34]

ラテン文字のタイプライターによるテキストの認識は、鮮明な画像が利用できる場合でも、100%正確ではありません。19世紀および20世紀初頭の新聞のページの認識に基づくある研究では、商用OCRソフトウェアの文字ごとのOCR精度は81%から99%まで変化すると結論付けました。[35]完全な精度は、人間によるレビューまたはデータディクショナリ認証によって達成できます。手書き、筆記体の手書き、および他のスクリプトで印刷されたテキスト(特に、1つの文字に対して多くのストロークを持つ東アジア言語の文字)の認識を含む他の領域は、依然として活発な研究の対象です。MNISTデータベースは、手書き数字を認識するシステムの機能をテストするために一般的に使用されます。

精度率はいくつかの方法で測定でき、それらの測定方法は報告される精度率に大きく影響する可能性があります。たとえば、単語コンテキスト(基本的に単語の辞書)を使用して存在しない単語を検出するソフトウェアを修正しない場合、1%(99%の精度)の文字エラー率は5%(95%の精度)のエラー率になる可能性があります)またはさらに悪いことに、各単語全体が誤った文字なしで認識されたかどうかに基づいて測定されます。[36]ニューラルネットワークベースの手書き認識ソリューションでは、十分な大きさのデータセットを使用することが非常に重要です。一方、自然なデータセットの作成は非常に複雑で時間がかかります。[37]

古いテキストのデジタル化に固有の問題の例は、OCRが「longs」と「f」文字を区別できないことです。[38]

手書きのテキストをその場で認識するためのWebベースのOCRシステムは、近年、商用製品としてよく知られるようになりました[いつ?]Tablet PCの履歴を参照)。きちんとした、きれいな手書きの文字で80%から90%の精度率は、ペンコンピューティングソフトウェアによって達成できますが、その精度率は、ページごとに数十のエラーに変換されるため、このテクノロジは非常に限られたアプリケーションでのみ役立ちます。[要出典]

筆記体のテキストの認識は活発な研究分野であり、認識率は手書きのテキストよりもさらに低くなっています。一般的な草書体のより高い認識率は、文脈情報または文法情報を使用しないと不可能になる可能性があります。たとえば、辞書から単語全体を認識することは、スクリプトから個々の文字を解析しようとするよりも簡単です。小切手の金額行(常に書き出された数字)を読み取ることは、小さい辞書を使用すると認識率を大幅に向上させることができる例です。個々の筆記体の形状自体には、すべての手書きの筆記体を正確に(98%以上)認識するのに十分な情報が含まれていません。[要出典]

ほとんどのプログラムでは、ユーザーが「信頼率」を設定できます。これは、ソフトウェアが目的のレベルの精度を達成していない場合、手動レビューのためにユーザーに通知できることを意味します。

OCRスキャンによって発生するエラーは、「スカンノ」と呼ばれることもあります(「タイプミス」という用語との類推による)。[39] [40]

Unicode

OCRをサポートする文字は、バージョン1.1のリリースとともに、1993年6月 にUnicode標準に追加されました。

これらの文字の一部は、MICROCR-A、またはOCR-Bに固有のフォントからマッピングされています。

光学式文字認識[1] [2]
公式Unicodeコンソーシアムコードチャート(PDF)
  0 1 2 3 4 5 6 7 8 9 A B C D E F
U + 244x
U + 245x
ノート
1. ^ Unicodeバージョン14.0以降
2. ^灰色の領域は、割り当てられていないコードポイントを示します

も参照してください

参照

  1. ^ オンデマンド、HPEヘブン。「OCRドキュメント」2016年4月15日にオリジナルからアーカイブされました。
  2. ^ オンデマンド、HPEヘブン。「未定義」2016年4月19日にオリジナルからアーカイブされました。
  3. ^ a b Schantz、Herbert F.(1982)。OCR、光学式文字認識の歴史[バーモント州マンチェスターセンター]:認識技術ユーザー協会。ISBN 9780943072012
  4. ^ Dhavale、Sunita Vikrant(2017年3月10日)。高度な画像ベースのスパム検出およびフィルタリング技術ペンシルベニア州ハーシー:IGIグローバル。p。91. ISBN 97816831801422019年9月27日取得
  5. ^ d'Albe、EEF(1914年7月1日)。「タイプリーディングオプトフォンについて」王立協会の議事録A:数学的、物理的および工学的科学90(619):373–375。Bibcode1914RSPSA..90..373D土井10.1098/rspa.1914.0061
  6. ^ 「OCRの歴史」。データ処理マガジン12:46。1970。
  7. ^ 「AndroidでOCRを使用して画像からテキストを抽出する」2015年6月27日。2016年3月15日のオリジナルからアーカイブ。
  8. ^ 「[チュートリアル]GoogleGlassのOCR」2014年10月23日。2016年3月5日のオリジナルからアーカイブ。
  9. ^ Qing-An Zeng(2015年10月28日)。ワイヤレス通信、ネットワーキング、およびアプリケーション:WCNA2014の議事録スプリンガー。ISBN 978-81-322-2580-5
  10. ^ 「[javascript]LinkedIn会社検索のためのOCRとエンティティ抽出の使用」2014年7月22日。2016年4月17日のオリジナルからアーカイブ。
  11. ^ 「キャプチャをクラックする方法」andrewt.net。2006年6月28日2013年6月16日取得
  12. ^ 「ビジュアルCAPTCHAを壊す」Cs.sfu.ca. 2002年12月10日2013年6月16日取得
  13. ^ John Resig(2009年1月23日)。「JohnResig–JavaScriptのOCRとニューラルネット」Ejohn.org 2013年6月16日取得
  14. ^ Tappert、CC; スエン、CY; 若原徹(1990)。「オンライン手書き認識の最先端」パターン分析と機械知能に関するIEEEトランザクション12(8):787 . doi10.1109/34.57669S2CID42920826_ 
  15. ^ a b 「光学式文字認識(OCR)–仕組み」Nicomsoft.com 2013年6月16日取得
  16. ^ セズギン、メフメット; Sankur、Bulent(2004)。「画像しきい値手法と定量的パフォーマンス評価に関する調査」(PDF)ジャーナルオブエレクトロニックイメージング13(1):146 . Bibcode2004JEI....13..146S土井10.1117/1.16313152015年10月16日にオリジナル(PDF)からアーカイブされました2015年5月2日取得
  17. ^ グプタ、マヤR .; ジェイコブソン、ナサニエルP .; ガルシア、エリックK.(2007)。「歴史的文書を検索するためのOCR二値化と画像前処理」(PDF)パターン認識40(2):389. Bibcode2007PatRe..40..389G土井10.1016/j.patcog.2006.04.0432015年10月16日にオリジナル(PDF)からアーカイブされました2015年5月2日取得
  18. ^ トリーア、Oeivind Due; Jain、Anil K.(1995)。「2値化手法の目標指向評価」(PDF)パターン分析と機械知能に関するIEEEトランザクション17(12):1191–1201。土井10.1109/34.476511 2015年5月2日取得
  19. ^ ミリアエフ、セルゲイ; バリノバ、オルガ; ノビコバ、タチアナ; コーリ、プッシュミート; レンピツキー、ビクター(2013)。「自然画像のエンドツーエンドのテキスト理解のための画像の2値化」(PDF)ドキュメント分析と認識(ICDAR)2013第12回国際会議:128–132。土井10.1109/ICDAR.2013.33ISBN  978-0-7695-4999-6S2CID8947361  _ 2015年5月2日取得
  20. ^ Pati、PB; ラマクリシュナン、AG(1987年5月29日)。「単語レベルのマルチスクリプト識別」。パターン認識文字29(9):1218〜1229。土井10.1016/j.patrec.2008.01.027
  21. ^ 「OpenCVの基本的なOCR|Damiles」Blog.damiles.com。2008年11月20日2013年6月16日取得
  22. ^ a b c レイスミス(2007)。「TesseractOCRエンジンの概要」(PDF)2010年9月28日にオリジナル(PDF)からアーカイブされました2013年5月23日取得
  23. ^ 「OCRの紹介」Dataid.com 2013年6月16日取得
  24. ^ 「OCRソフトウェアのしくみ」OCRWizard。2009年8月16日にオリジナルからアーカイブされました2013年6月16日取得
  25. ^ 「openCVによる基本的なパターン認識と分類|Damiles」Blog.damiles.com。2008年11月14日2013年6月16日取得
  26. ^ Assefi、Mehdi(2016年12月)。「サービスとしてのOCR:Google Docs OCR、Tesseract、ABBYY FineReader、およびTransymの実験的評価」ResearchGate
  27. ^ 「最高のOCR技術がデータの99.91%をキャプチャする方法」www.bisok.com 2021年5月27日取得
  28. ^ a b c 「OCRドキュメントスキャンはどのように機能しますか?」そのことを説明します。2012年1月30日2013年6月16日取得
  29. ^ 「画像からテキストを抽出するときにOCRAPIからの結果を最適化する方法は?-Haven OnDemandDeveloperCommunity」2016年3月22日にオリジナルからアーカイブされました。
  30. ^ Fehr、Tiff、 10分未満で900ページのコーエン文書をどのように高速化したか、Times Insider、ニューヨークタイムズ、2019年3月26日
  31. ^ 「あなたのTesseractを訓練しなさい」あなたの正八胞体を訓練します2018年9月20日2018年9月20日取得
  32. ^ 「オンラインインタラクティブOCRテキストエディタのポイントは何ですか?-Fenno-Ugrica」2014年2月21日。
  33. ^ Riedl、C .; Zanibbi、R .; マサチューセッツ州ハースト; 朱、S .; メニエッティ、M .; Crusan、J .; Metelsky、I .; Lakhani、K.(2016年2月20日)。「特許における図と部品ラベルの検出:画像処理アルゴリズムの競争ベースの開発」。文書分析と認識に関する国際ジャーナル19(2):155 . arXiv1410.6751土井10.1007/s10032-016-0260-8S2CID11873638_ 
  34. ^ 「元々UNLV/ISRIからのOCR精度を評価するためのコードとデータ」Googleコードアーカイブ。
  35. ^ ホーリー、ローズ(2009年4月)。「それはどれほど良くなることができますか?大規模な歴史的な新聞デジタル化プログラムにおけるOCR精度の分析と改善」D-Libマガジン2014年1月5日取得
  36. ^ スエン、CY; プラモンドン、R .; Tappert、A .; トーマスセン、A .; ワード、JR; 山本健一(1987年5月29日)。手書きおよびコンピュータアプリケーションにおける将来の課題手書きとコンピュータアプリケーションに関する第3回国際シンポジウム、モントリオール、1987年5月29日2008年10月3日取得
  37. ^ Ayda Mohseni、Reza Azmi、Arvin Maleki、Kamran Layeghi(2019)。ニューラルネットワークベースの手書きソリューションにおける合成データセットと自然データセットの比較ITCT。{{cite book}}:CS1 maint:複数の名前:著者リスト(リンク
  38. ^ Sarantos Kapidakis、Cezary Mazurek、Marcin Werla(2015)。電子図書館の研究と先端技術スプリンガー。p。257. ISBN 97833192459282018年4月3日取得{{cite book}}:CS1 maint:複数の名前:著者リスト(リンク
  39. ^ Atkinson、Kristine H.(2015)。「製薬特許のための非特許文献の再発明」。製薬特許アナリスト4(5):371–375。土井10.4155/ppa.15.21PMID26389649_ 
  40. ^ http: //www.hoopoes.com/jargon/entry/scanno.shtmlデッドリンク

外部リンク