Tesseract


| Следующая

app-text/tesseract

tesseract - консольный OCR движок.

Описание

Tesseract является качественным консольным OCR движком с открытым исходным кодом. В настоящий момент программа работает с UTF-8, поддержка языков (включая русский с версии 3.0) осуществляется с помощью дополнительных модулей.

Существуют несколько графических интерфейсов (GUI) для программы: gImageReader, OCRFeeder, YAGF.

Синтаксис

tesseract imagename outbase [-l язык] [-psm N] [configfile ...]

Опции

imagename

The name of the input image. Most image file formats (anything readable by Leptonica) are supported.

outbase

The basename of the output file (to which the appropriate extension will be appended). By default the output will be named outbase.txt.

-l lang

The language to use. If none is specified, English is assumed. Multiple languages may be specified, separated by plus characters. Tesseract uses 3-character ISO 639-2 language codes. (See LANGUAGES)

-psm N

Set Tesseract to only run a subset of layout analysis and assume a certain form of image. The options for N are:

-v

Returns the current version of the tesseract(1) executable.

configfile

The name of a config to use. A config is a plaintext file which contains a list of variables and their values, one per line, with a space separating variable from value. Interesting config files include:

 o   hocr - Output in hOCR format instead of as a text file.

 

---

 

Я распознал такой командой

tesseract azk.png azk.txt -l rus