Project

General

Profile

Техническая документация

В этом разделе публикуются подробности для разработчиков и админов.

  • Для тех, кто хочет творить — для себя или для всех. Уголок разработчика, который мы надеемся достроить до дворца!
  • Configure — конфигурирование

Индексирование

В нашем проекте к Apache Tika мы добавили свой парсер TesseractParser, который позволяет с помощью Google Tesseract извлечь текст из графических файлов форматов jpeg, gif, tiff, bmp.
Работают и сложные примеры. Например, если файл MS Word содержит текст и картинку (с текстом), то извлечённый текст будет содержать и текст из документа и текст из картинки в том порядке как они расположены в файле.
  • Tesseract — пример установки и настройки

Начиная с версии Доцеро 1.2.7 также можно использовать ABBYY FineReader Hot Folders .

Модули сторонних разработчиков

Apache Tika

Модуль занимается извлечением текста из файлов с помощью парсеров (parsers) для множества форматов файлов. На текущий момент поддерживаются:
  • HTML
  • XML (в том числе XHTML)
  • Microsoft Office OOXML (MS Office 2010), Compound Document format (XLS, DOC, PPT)
  • ODF
  • PDF
  • RTF
  • Java class files and archives
  • MBOX (used by many email archives and Unix-style mailboxes)

более подробно см. http://tika.apache.org/0.8/formats.html