ISAで使用されるOCR言語の変更、追加方法

フォローする

概要

DAやChromiumのIntelligent Screen Automation(ISA)で使用されるOCR言語には、デフォルトで英語が設定されています。言語の変更や追加方法については、下記手順を参照してください。

注意事項

  • 日本語のファイル(jpn.traineddata)を使用する場合

    使用する言語データファイルに関して、User’s Guideには以下のリンクが記載されていますが、
    <外部URL>
    https://github.com/tesseract-ocr/tessdata
    上記リンク先の日本語のファイル(jpn.traineddata)を使用した場合、Desktop Automation Service.log内に、以下のエラーが発生する事例が報告されています。

    エラー例
    2020-06-30 15:07:41,482 [7] ERROR DAS - ParamsModel::Unknown parameter …
    2020-06-30 15:07:41,483 [7] ERROR DAS - ParamsModel::Incomplete line 
    2020-06-30 15:07:41,483 [7] ERROR DAS - ParamsModel::Unknown parameter …
    2020-06-30 15:07:41,484 [7] ERROR DAS - ParamsModel::Unknown parameter ″
    日本語以外のデータ同様の事象は報告されておりませんが、
    製品内部で使用しているOCRエンジンのバージョンの都合上、
    User's Guideに記載されているデータではなく、
    本ナレッジに記載している以下のデータをご利用下さい。

    <外部URL>
    https://github.com/tesseract-ocr/tessdata/tree/3.04.00

  • ロボットの実行への影響
     設定した言語によって文字の認識結果が変化する場合があります。
     一例としまして、下図の通り、認識結果に差異が生じます。 

    また、「英語+日本語」といったように複数言語で設定した場合、単数言語で設定された場合に比べて、ロボット処理に時間を要する場合があります。

作業手順

  1. 変更、追加する言語の「.traineddata」ファイルを下記の外部URLからダウンロードする。
    ※日本語のファイルは「jpn.traineddata」です。
    <外部URL>
    https://github.com/tesseract-ocr/tessdata/tree/3.04.00

  2. 手順1でダウンロードした「.traineddata」ファイルを「tessdata」フォルダにコピーする。
    ※ISAをDAにて使用する場合と、Chromiumにて使用する場合で対象フォルダが異なります。
    下記のフォルダパス例を参考にしてください。
    • DAでISAを使用する場合
      Ver.10.4まではDAのインストールフォルダの「tessdata」フォルダ
      • <Ver.10.3>
        C:\Program Files (x86)\Kapow DeviceAutomation {バージョン} \DeviceAutomationService\lib\tessdata
      • <Ver.10.4>
        C:\Program Files (x86)\Kofax RPA DesktopAutomation {バージョン} \DesktopAutomationService\lib\tessdata

      Ver.10.7以降はProgramData配下の「tessdata」フォルダ
      • <Ver.10.7以降>
        C:\ProgramData\Kofax RPA\{バージョン}\lib\tessdata
    • ChromiumでISAを使用する場合
      BizRobo! のインストールフォルダの「tessdata」フォルダ
      C:\Program Files\Kofax RPA{バージョン}\nativelib\hub\windows-x32\{ID}\lib\tessdata
  3. 「isa.cfg」ファイルを任意の場所に移動する。
    ※ISAをDAにて使用する場合と、Chromiumにて使用する場合で対象ファイルが異なります。
    それぞれのファイルの格納場所については、下記のフォルダパス例を参考にしてください。
    また、実施前にはファイルのバックアップを作成してください。
    なお、Ver.10.4以降ではファイル名が「isa_v1.cfg」に変更されています。

    <参考記事>
    ユーザーガイド「UI 認識言語の変更または追加」の対象ファイル名がVer.10.4では異なる
    • DAでISAを使用する場合
      • <Ver.10.3>
        C:\Program Files (x86)\Kapow DeviceAutomation {バージョン} \DeviceAutomationService\lib
      • <Ver.10.4>
        C:\Program Files (x86)\Kofax RPA DesktopAutomation {バージョン} \DesktopAutomationService\lib
      • <Ver.10.7以降>
        C:\ProgramData\Kofax RPA\{バージョン}\lib
    • ChromiumでISAを使用する場合
       C:\Program Files\Kofax RPA{バージョン}\nativelib\hub\windows-x32\{ID}\lib
  4. 手順3で任意の場所に移動した「isa.cfg」ファイルをテキストエディタで開く。
  5. 「isa.cfg」ファイルの「ocr_language」パラメータを編集する。
    ※「ocr_language」パラメータに設定する文字列は、手順1でダウンロードしたファイルの「.traineddata 」拡張子を除いたファイル名です。
    • <例>
      ダウンロードしたファイルが「jpn.traineddata」の場合は「jpn」
      下記は 言語を英語から日本語に変更する場合と、日本語を追加する場合の例です。参考にしてください。
      • 変更前の「ocr_language」パラメータ
        ocr_language = eng
        • 言語を日本語に変更する場合
          engをjpnに置き換えます。
          変更後
          ocr_language = jpn
        • 言語に日本語を追加する場合
          プラス記号を使用してjpnを追加します。
          変更後
          ocr_language = eng+jpn
  6. ファイルを保存して閉じる。
  7. 編集したファイルを元の格納場所に戻す。
  8. 対象のアプリケーションを再起動する。
    • DAでISAを使用する場合
      DASを再起動してください。

    • ChromiumでISAを使用する場合
      RSもしくはDSを再起動してください。

参考

「Extract Text From Image」ステップにて画像からテキストを抽出する際のOCR言語を変更する方法
ISA(Intelligent Screen Automation)の説明

ISAの要素(各属性)の説明

10.7のユーザーズガイドでDA用「.traineddata」ファイルのパスが誤っている

 

区分 確認Ver
手順 10.4.0.2

 

コメント

0件のコメント

記事コメントは受け付けていません。