LINUX.ORG.RU

Tika


1

0

Всего сообщений: 2

Apache Tika 1.2

Группа Open Source

Вышла новая версия библиотеки Apache Tika, предназначенной для извлечения текста, вложений и метаданных из документов в различных распространенных форматах. В настоящий момент библиотека поддерживает несколько десятков форматов, в том числе офисные документы Microsoft (OLE и OOXML), OpenDocument, PDF и другие.

Основные изменения в этой версии:

  • добавлен режим сервера, позволяющий обращаться к Tika с использованием простого REST API (HTTP);
  • большие улучшения в поддержке документов Apple iWork;
  • новая библиотека для определения языка и кодировки текста, основанная на алгоритме определения языка/кодировки Mozilla.org;
  • декомпрессия XZ и Pack200;
  • возможность указать пароль для расшифровки зашифрованного документа в утилите командной строки;
  • исправлено большое количество ошибок, в том числе проблема с извлечением не-OLE вложений в офисных документах.

>>> Подробности

 ,

maxcom ()

Еще новости

2011