Project

General

Profile

ABBYFolder

ВНИМАНИЕ! Это предварительное описание! Работа над материалом НЕ ЗАКОНЧЕНА!

Файл настройки аналогично docero-tesseract.xml выкладывается в каталог config домена glassfish и называется docero-abbyfolder.xml его содержимое:

 
 <?xml version="1.0" encoding="UTF-8"?>
 <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
 <properties>
 <comment>DOCERO SYSTEM PROPERTIES</comment>
 <entry key="ExportFolder">C:\Java\test</entry>
 <entry key="ImportFolder">C:\Java\test</entry>
 <entry key="ImportExtention">doc</entry>
 </properties>
где:
  • ExportFolder - каталог в который выгружается графический файл для распознавания внешней системой
  • ImportFolder - каталог в котором ожидается результат распознавания
  • ImportExtention - расширение имени файла с удачным результатом

При индексации, найденный графический файл или встроенная картинка в индексируемый файл выкладываются в каталог экспорта как файл с уникальным именем без расширения. Результат распознавания ожидается в каталоге импорта (он может совпадать с каталогом экспорта).

Если в каталоге импорта обнаружен файл с тем же уникальным именем и с расширением соответствующим удачному результату, то текст из этого файла используется при индексации. Если в каталоге импорта обнаружен файл с другим расширением того же уникального имени, то считается что распознание файла не удалось или невозможно.
При любом результате в каталоге импорта удаляются все файлы с данным именем и любым расширением, так же проверяется что в каталоге экспорта файл удалён, если нет, то он удаляется.

В качестве результирующего формата файла, для внешней системы распознавания, рекомендуется использовать форматы PDF, MS Word, Open Document или XML. Выбор текстового файла может привести к тому что система не сможет определить его кодировку.

Если настроены обе системы распознавания и Tesseract, и AbbyFolder предпочтение будет дано второй, но мы не исключаем что для некоторых будущих задач мы будем отдавать предпочтение первой.