「Extract Text From Image」ステップにて画像からテキストを抽出する際のOCR言語を変更する方法

フォローする

概要

DAの「Extract Text From Image」ステップにて画像のテキストを認識する際のOCR言語には、デフォルトで英語が設定されています。言語がテキストに対応していないなどの理由で他の言語へ変更したい場合、下記の手順を参照してください。

作業手順

1.必要な言語の「.traineddata」ファイルを下記の外部URLからダウンロードする。
※日本語のファイルは「jpn.traineddata」です。

<外部URL>
https://github.com/tesseract-ocr/tessdata/tree/3.04.00


2.手順1でダウンロードした「.trained」ファイルを、DASのインストールディレクトリの「tessdata」フォルダに配置する。
※古いファイルがある場合は削除するか、ファイル名を変更してから新しいファイルを配置してください。

<例>デフォルトパス

■Ver.10.3以前

C:\Program Files (x86)\Kapow DeviceAutomation{バージョン}\DeviceAutomationService\lib\tessdata


■Ver.10.4以降

C:\Program Files (x86)\Kofax RPA DesktopAutomation {バージョン} \DesktopAutomationService\lib\tessdata


3.
Windowsタスクバー通知領域のDASアイコンを右クリックする。

4.「Configure」をクリックする。

mceclip0.png


5.「OCR」タブをクリックする。

6.「Default OCR language」項目にて手順1でダウンロードした言語を選択する。

7.「Save and Restart」 ボタンをクリックする。

mceclip1.png 


注意事項

使用する言語データファイルに関して、
User’s Guideには以下のリンクが記載されていますが、

<外部URL>
https://github.com/tesseract-ocr/tessdata

上記リンク先の日本語のファイル(jpn.traineddata)を使用した場合、
Desktop Automation.log内に、以下のエラーが発生する事例が報告されています。

〇エラー例

2020-06-30 15:07:41,482 [7] ERROR DAS - ParamsModel::Unknown parameter …
2020-06-30 15:07:41,483 [7] ERROR DAS - ParamsModel::Incomplete line 
2020-06-30 15:07:41,483 [7] ERROR DAS - ParamsModel::Unknown parameter …
2020-06-30 15:07:41,484 [7] ERROR DAS - ParamsModel::Unknown parameter ″


日本語以外のデータでは同様の事象は報告されておりませんが、
製品内部で使用しているOCRエンジンのバージョンの都合上、
User's Guideに記載されているデータではなく、
本ナレッジに記載している以下のデータをご利用下さい。

<外部URL>
https://github.com/tesseract-ocr/tessdata/tree/3.04.00

参考

・「Nine-Grid Image Finder」機能を使用した文字の抽出については『DAにて動的に変わる部分の値を抽出する方法』を参照してください。

・「Tree Mode」のISAで使用するOCR言語の変更方法については『ISAで使用されるOCR言語の変更、追加方法』を参照してください。

区分 確認Ver
手順 10.4.0.2
0人中0人がこの記事が役に立ったと言っています

コメント

0件のコメント

記事コメントは受け付けていません。