「Extract Text From Image」ステップにて画像からテキストを抽出する際のOCR言語を変更する方法

フォローする

DAの「Extract Text From Image」ステップにて画像のテキストを認識する際のOCR言語には、デフォルトで英語が設定されています。言語がテキストに対応していないなどの理由で他の言語へ変更したい場合、下記の手順を参照してください。


手順

1.必要な言語の「.traineddata」ファイルを下記の外部URLからダウンロードする。
※日本語のファイルは「jpn.traineddata」です。

<外部URL>
https://github.com/tesseract-ocr/tessdata


2.手順1でダウンロードした「.trained」ファイルを、DASのインストールディレクトリの「tessdata」フォルダに配置する。
※古いファイルがある場合は削除するか、ファイル名を変更してから新しいファイルを配置してください。

<例>デフォルトパス

■Ver.10.3以前

C:\Program Files (x86)\Kapow DeviceAutomation{バージョン}\DeviceAutomationService\lib\tessdata


■Ver.10.4以降

C:\Program Files (x86)\Kofax RPA DesktopAutomation {バージョン} \DesktopAutomationService\lib\tessdata


3.
Windowsタスクバー通知領域のDASアイコンを右クリックする。

4.「Configure」をクリックする。

mceclip0.png


5.「OCR」タブをクリックする。

6.「Default OCR language」項目にて手順1でダウンロードした言語を選択する。

7.「Save and Restart」 ボタンをクリックする。

mceclip1.png 


「Nine-Grid Image Finder」機能を使用した文字の抽出については『DAにて動的に変わる部分の値を抽出する方法』を参照してください。

「Tree Mode」のISAで使用するOCR言語の変更方法については『ISAで使用されるOCR言語の変更、追加方法』を参照してください。

0人中0人がこの記事が役に立ったと言っています

コメント

0件のコメント

記事コメントは受け付けていません。