ISAで使用されるOCR言語の変更、追加方法

フォローする

概要

DAやChromiumのIntelligent Screen Automation(ISA)で使用されるOCR言語には、デフォルトで英語が設定されています。言語の変更や追加方法については、下記手順を参照してください。

作業手順

1.変更、追加する言語の「.traineddata」ファイルを下記の外部URLからダウンロードする。
※日本語のファイルは「jpn.traineddata」です。

<外部URL>
https://github.com/tesseract-ocr/tessdata/tree/3.04.00


2.手順1でダウンロードした「.traineddata」ファイルを「tessdata」フォルダにコピーする。
※ISAをDAにて使用する場合と、Chromiumにて使用する場合で対象フォルダが異なります。
下記のフォルダパス例を参考にしてください。

■DAでISAを使用する場合
DAのインストールフォルダの「tessdata」フォルダ

<Ver.10.3>

C:\Program Files (x86)\Kapow DeviceAutomation {バージョン} \DeviceAutomationService\lib\tessdata


<Ver.10.4以降>

C:\Program Files (x86)\Kofax RPA DesktopAutomation {バージョン} \DesktopAutomationService\lib\tessdata

 
■ChromiumでISAを使用する場合
BizRobo! のインストールフォルダの「tessdata」フォルダ

 C:\Program Files\Kofax RPA{バージョン}\nativelib\hub\windows-x32\{ID}\lib\tessdata

 

3.「isa.cfg」ファイルを任意の場所に移動する。
※ISAをDAにて使用する場合と、Chromiumにて使用する場合で対象ファイルが異なります。
それぞれのファイルの格納場所については、下記のファイルパス例を参考にしてください。また、実施前にはファイルのバックアップを作成してください。
なお、Ver.10.4以降ではファイル名が「isa_v1.cfg」に変更されています。

<参考記事>
ユーザーガイド「UI 認識言語の変更または追加」の対象ファイル名がVer.10.4では異なる

■DAでISAを使用する場合

 <Ver.10.3>

C:\Program Files (x86)\Kapow DeviceAutomation {バージョン}\DeviceAutomationService\lib\isa.cfg


<Ver.10.4以降>

C:\Program Files (x86)\Kofax RPA DesktopAutomation {バージョン}\DesktopAutomationService\lib\ isa_v1.cfg


■ChromiumでISAを使用する場合

 C:\Program Files\Kofax RPA{バージョン}\nativelib\hub\windows-x32\{ID}\lib\isa_v1.cfg

 
4.手順3で任意の場所に移動した「isa.cfg」ファイルをテキストエディタで開く。

5. 「isa.cfg」ファイルの「ocr_language」パラメータを編集する。
※「ocr_language」パラメータに設定する文字列は、手順1でダウンロードしたファイルの「.traineddata 」拡張子を除いたファイル名です。

 <例>
ダウンロードしたファイルが「jpn.traineddata」の場合は「jpn」

下記は 言語を英語から日本語に変更する場合と、日本語を追加する場合の例です。参考にしてください。

・変更前の「ocr_language」パラメータ

ocr_language = eng


<例>言語を日本語に変更する場合
engをjpnに置き換えます。

 ・変更後

ocr_language = jpn


<例>言語に日本語を追加する場合
プラス記号を使用してjpnを追加します。

・変更後

ocr_language = eng+jpn


6.ファイルを保存して閉じる。

7.編集したファイルを元の格納場所に戻す。

8.対象のアプリケーションを再起動する。

■DAでISAを使用する場合
DASを再起動してください。

■ChromiumでISAを使用する場合
RSもしくはDSを再起動してください。

注意事項

使用する言語データファイルに関して、
User’s Guideには以下のリンクが記載されていますが、

<外部URL>
https://github.com/tesseract-ocr/tessdata

上記リンク先の日本語のファイル(jpn.traineddata)を使用した場合、
Desktop Automation Service.log内に、以下のエラーが発生する事例が報告されています。

エラー例

2020-06-30 15:07:41,482 [7] ERROR DAS - ParamsModel::Unknown parameter …
2020-06-30 15:07:41,483 [7] ERROR DAS - ParamsModel::Incomplete line 
2020-06-30 15:07:41,483 [7] ERROR DAS - ParamsModel::Unknown parameter …
2020-06-30 15:07:41,484 [7] ERROR DAS - ParamsModel::Unknown parameter ″


日本語以外のデータでは同様の事象は報告されておりませんが、
製品内部で使用しているOCRエンジンのバージョンの都合上、
User's Guideに記載されているデータではなく、
本ナレッジに記載している以下のデータをご利用下さい。

<外部URL>
https://github.com/tesseract-ocr/tessdata/tree/3.04.00

参考

「Extract Text From Image」ステップにて画像からテキストを抽出する際のOCR言語を変更する方法
ISA(Intelligent Screen Automation)の説明
ISAの要素(各属性)の説明

 

区分 確認Ver
手順 10.4.0.2

 

1人中1人がこの記事が役に立ったと言っています

コメント

0件のコメント

記事コメントは受け付けていません。