LINUX.ORG.RU

Apache Tika 1.0

 , ,


0

1

Вышла версия 1.0 Apache Tika — библиотеки и утилит для извлечения текста и метаданных из распространенных бинарных форматов. Tika создавалась как подпроект библиотеки полнотекстового поиска Apache Lucene.

Tika поддерживает офисные форматы Microsoft (OLE и OOXML), OpenDocument, Apple iWork, PDF, RTF, ePub и FB2, MIME (mailbox) и др. Поддерживается извлечение метаданных из аудио-форматов и изображений, распаковка некоторых популярных форматов архивов.

Основные изменения по сравнению с 0.10:

  • RTF: поддержка гиперссылок
  • MS Word: поддержка Unicode дефисов
  • Outlook: извлечение вложенных файлов
  • MS Office: увеличение скорости
  • OpenOffice: извлечение верхних и нижних колонтитулов
  • PDF: корректное извлечение параграфов и опциональная поддержка аннотаций
  • Определение языка/кодировки текстов: добавлена поддержка белорусского, каталонского, эсперанто, галийского, литовского, румынского, словацкого, словенского и украинского языков (русский язык и популярные в России кодировки поддерживаются и в предыдущих версиях Tika)
  • Работа и конфигурация в OSGi окружении
  • Удалены API, объявленные устаревшими в предыдущих версиях

>>> Подробности

★★★★★

Проверено: timur_dav ()

>Tika поддерживает офисные форматы Microsoft (OLE и OOXML), OpenDocument, Apple iWork, PDF, RTF, ePub и FB2, MIME (mailbox) и др. Поддерживается извлечение метаданных из аудио-форматов и изображений, распаковка некоторых популярных форматов архивов.

Она с Solr или Nutch работает?

luke ★★★★ ()

>Определение языка/кодировки текстов: поддержка белорусского, каталонского, эсперанто, галийского, литовского, румынского, словацкого, словенского и украинского языков
Т.е., без русского?

tmplsr ()
Ответ на: комментарий от luke

> Nutch

Вроде может реальный язык текста определять через какой-то плагин, который дергает тику.

shahid ★★★★★ ()

руский языка в ударе

Вышла версия 1.0 Apache Tika — библиотеки и утилит для извлечения... набор утилит для извлечения или одна утилитА?

drfaust ★★★★★ ()

Определение языка/кодировки текстов: добавлена поддержка белорусского

Годно. Файная навіна!

LexArt ★★ ()

Хорошая либа. Но жииирная, но тормознааая...

AVL2 ★★★★★ ()
Ответ на: комментарий от AVL2

пробуй свежую версию - поддержка многих форматов стала быстрее

maxcom ★★★★★ ()

какие распространенные бинарные форматы имеются в виду?

anonymous_sapiens ★★★★ ()

Бинарный текст

Вышла версия 1.0 Apache Tika — библиотеки и утилит для извлечения текста и метаданных из распространенных бинарных форматов.

Tika поддерживает офисные форматы Microsoft (OLE и OOXML), OpenDocument, Apple iWork, PDF, RTF, ePub и FB2, MIME (mailbox) и др.

TheLibertyMan ()

Apache Tit'ka 1.0

сабж

anonymous ()

Прочитал название как «Апаче-Титька» ))))

anonymous ()

Мне бы файлы формата MS Ofiice Word 97-2003 сконвертировать в какой-нить fb2 или просто HTML, но чтобы со всеми таблицами и формулами. Этот Tika справится?

Wizard_ ★★★★★ ()
Ответ на: комментарий от Wizard_

Есть вариант через утилиту unoconv из опенофиса, но она безбожно глючит.

Wizard_ ★★★★★ ()

Отличная вещь кстати, юзаем как полнотекстовый поиск по документам в системе.

jreznot ()
Ответ на: комментарий от Wizard_

формулы помоему никто не умеет корректно извлекать.

Таблицы и HTML будет, но оформление почти не будет перенесено (хотя для чтения это может и лучше)

maxcom ★★★★★ ()
Ответ на: комментарий от maxcom

Под формулами имеется в виду MS Equation и т.п.?

frob ★★★★★ ()
Ответ на: комментарий от anonymous

Да нет.

Во первых, Тика вообще ничего сама не делает. Это слой абстракции, который позволяет единообразно обращаться к разным вытаскивателям метаинформации из файлов.

Реально работает POI и pdfbox, первый из которых и можно было бы сравнить с libextractor.

AVL2 ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.