tesseract を使用したOCR向けに学習データを画像・フォント(テキスト)から作成する

jTessBoxEditor をインストール。(要JRE)

1.テキストから作成する場合

TIFF Generator タブから任意のテキストを入力し、フォントを選択してGenerateを押す。

#Output でディレクトリを確認または選択しておく。

#隣の小さいボックスに任意の3文字を入力。

## 後ほどTesseractで言語を指定するキーとなる。通常は eng とか jpn とか対応した言語の文字を入力?

Tiffファイルが作成されるので必要があればBox EditorタブでTiffを読み込んで修正。

Trainerタブで Training Data の所で作成したTiffを読み込んで Train with Existing Box を選択し Run。

すると Output ディレクトリに" tessdata" 内に学習データができるので

デフォルトの場合 /usr/shere/tesseract/4.00/tessdata 以下にコピー

 

2.画像から作成の場合(1のデータに画像から追加学習)

#画像をもとにイチから作るのは今回の目的でなかったのでやってませんのですみませんが他を参照ください。

# 1を飛ばすか適当なデータを作ってからやればできるかも?

1で指定した出力ディレクトリに同じような名前の png など画像を用意。

tesseract eng.test.exp*.png eng.test.exp* -l eng batch.nochop makebox

* は同じ数字

実行するとBoxデータが作成される。

jTessBoxEditorで読み込んで修正。

そのまま Trainer タブで同じくRunすると勝手にさっきのデータに追加で学習されるみたい。

 

# ググったところもっと良さそうな最新のやりかたもあるようですが

動きがよくわからないのでなるべく手動で実施してみました。

# 細かいところは面倒なので"あとで"追記するかもしれません。