Техническая документация¶
В этом разделе публикуются подробности для разработчиков и админов.
- Для тех, кто хочет творить — для себя или для всех. Уголок разработчика, который мы надеемся достроить до дворца!
- Configure — конфигурирование
- Состав версий — сборки, изменения в модулях.
- Репозитории — что и где лежит
- Сервер дистрибутивов и прочих материалов, документации и пр.
- Тонкости эксплуатации — "грабли" и прочие советы.
- LifeCycle — периодические задачи
Индексирование¶
В нашем проекте к Apache Tika мы добавили свой парсер TesseractParser, который позволяет с помощью Google Tesseract извлечь текст из графических файлов форматов jpeg, gif, tiff, bmp.Работают и сложные примеры. Например, если файл MS Word содержит текст и картинку (с текстом), то извлечённый текст будет содержать и текст из документа и текст из картинки в том порядке как они расположены в файле.
- Tesseract — пример установки и настройки
Начиная с версии Доцеро 1.2.7 также можно использовать ABBYY FineReader Hot Folders .
Модули сторонних разработчиков¶
- Использование WebDAV в СЭД Доцеро
Apache Tika¶
Модуль занимается извлечением текста из файлов с помощью парсеров (parsers) для множества форматов файлов. На текущий момент поддерживаются:- HTML
- XML (в том числе XHTML)
- Microsoft Office OOXML (MS Office 2010), Compound Document format (XLS, DOC, PPT)
- ODF
- RTF
- Java class files and archives
- MBOX (used by many email archives and Unix-style mailboxes)
более подробно см. http://tika.apache.org/0.8/formats.html