Apache Tika 1.0

0

1

Вышла версия 1.0 Apache Tika — библиотеки и утилит для извлечения текста и метаданных из распространенных бинарных форматов. Tika создавалась как подпроект библиотеки полнотекстового поиска Apache Lucene.

Tika поддерживает офисные форматы Microsoft (OLE и OOXML), OpenDocument, Apple iWork, PDF, RTF, ePub и FB2, MIME (mailbox) и др. Поддерживается извлечение метаданных из аудио-форматов и изображений, распаковка некоторых популярных форматов архивов.

Основные изменения по сравнению с 0.10:

RTF: поддержка гиперссылок
MS Word: поддержка Unicode дефисов
Outlook: извлечение вложенных файлов
MS Office: увеличение скорости
OpenOffice: извлечение верхних и нижних колонтитулов
PDF: корректное извлечение параграфов и опциональная поддержка аннотаций
Определение языка/кодировки текстов: добавлена поддержка белорусского, каталонского, эсперанто, галийского, литовского, румынского, словацкого, словенского и украинского языков (русский язык и популярные в России кодировки поддерживаются и в предыдущих версиях Tika)
Работа и конфигурация в OSGi окружении
Удалены API, объявленные устаревшими в предыдущих версиях

>>> Подробности

Ссылка

← Проект Apache Harmony закрыт

Spring 0.83 →

maxcom сегодня в ударе.

luke ★★★★★
(08.11.11 15:22:32 MSK)

>Tika поддерживает офисные форматы Microsoft (OLE и OOXML), OpenDocument, Apple iWork, PDF, RTF, ePub и FB2, MIME (mailbox) и др. Поддерживается извлечение метаданных из аудио-форматов и изображений, распаковка некоторых популярных форматов архивов.

Она с Solr или Nutch работает?

luke ★★★★★
(08.11.11 15:23:34 MSK)

>Определение языка/кодировки текстов: поддержка белорусского, каталонского, эсперанто, галийского, литовского, румынского, словацкого, словенского и украинского языков
Т.е., без русского?

~~tmplsr~~ ☆
(08.11.11 15:25:17 MSK)

Ответ на: комментарий от luke 08.11.11 15:22:32 MSK

maxcom сегодня в ударе.

Скор накручивает :-)

Ok ★
(08.11.11 15:26:57 MSK)

Ссылка

Ответ на: комментарий от tmplsr 08.11.11 15:25:17 MSK

Русский язык там давно есть

maxcom ★★★★★
(08.11.11 15:28:01 MSK) автор топика

Ссылка

Ответ на: комментарий от luke 08.11.11 15:23:34 MSK

Solr тянет с собой Tika

maxcom ★★★★★
(08.11.11 15:29:16 MSK) автор топика

Ссылка

Ответ на: комментарий от luke 08.11.11 15:23:34 MSK

> Nutch

Вроде может реальный язык текста определять через какой-то плагин, который дергает тику.

shahid ★★★★★
(08.11.11 15:30:07 MSK)

Ссылка

руский языка в ударе

Вышла версия 1.0 Apache Tika — библиотеки и утилит для извлечения... набор утилит для извлечения или одна утилитА?

drfaust ★★★★★
(08.11.11 15:36:18 MSK)

Определение языка/кодировки текстов: добавлена поддержка белорусского

~~Годно.~~ Файная навіна!

~~LexArt~~ ★★
(08.11.11 17:24:02 MSK)

Ссылка

Хорошая либа. Но жииирная, но тормознааая...

~~AVL2~~ ★★★★★
(08.11.11 17:45:06 MSK)

Ответ на: комментарий от AVL2 08.11.11 17:45:06 MSK

пробуй свежую версию - поддержка многих форматов стала быстрее

maxcom ★★★★★
(08.11.11 17:56:08 MSK) автор топика

Ссылка

Java?

~~terminator~~
(08.11.11 18:10:43 MSK)

Ссылка

какие распространенные бинарные форматы имеются в виду?

anonymous_sapiens ★★★★★
(08.11.11 18:12:10 MSK)

Ссылка

Бинарный текст

Вышла версия 1.0 Apache Tika — библиотеки и утилит для извлечения текста и метаданных из распространенных бинарных форматов.

Tika поддерживает офисные форматы Microsoft (OLE и OOXML), OpenDocument, Apple iWork, PDF, RTF, ePub и FB2, MIME (mailbox) и др.

TheLibertyMan
(08.11.11 18:17:10 MSK)

Ссылка

Apache Tit'ka 1.0

сабж

anonymous
(08.11.11 18:18:12 MSK)

Ответ на: Apache Tit'ka 1.0 от anonymous 08.11.11 18:18:12 MSK

Уж лучше тогда 3.0 :D

joy4eg ★★★★★
(08.11.11 19:31:37 MSK)

Ссылка

Спасибо, пригодится.

~~XoFfiCEr~~ ★★☆☆
(08.11.11 20:49:31 MSK)

Ссылка

Прочитал название как «Апаче-Титька» ))))

anonymous
(08.11.11 21:08:32 MSK)

Ссылка

Мне бы файлы формата MS Ofiice Word 97-2003 сконвертировать в какой-нить fb2 или просто HTML, но чтобы со всеми таблицами и формулами. Этот Tika справится?

Wizard_ ★★★★★
(08.11.11 23:36:28 MSK)

Ответ на: комментарий от Wizard_ 08.11.11 23:36:28 MSK

Есть вариант через утилиту unoconv из опенофиса, но она безбожно глючит.

Wizard_ ★★★★★
(08.11.11 23:37:54 MSK)

Ссылка

Отличная вещь кстати, юзаем как полнотекстовый поиск по документам в системе.

jreznot ★
(09.11.11 00:22:03 MSK)

Ссылка

Ответ на: комментарий от Wizard_ 08.11.11 23:36:28 MSK

формулы помоему никто не умеет корректно извлекать.

Таблицы и HTML будет, но оформление почти не будет перенесено (хотя для чтения это может и лучше)

maxcom ★★★★★
(09.11.11 09:02:21 MSK) автор топика

Ответ на: комментарий от maxcom 09.11.11 09:02:21 MSK

Понятно. Спасибо за информацию, посмотрю.

Wizard_ ★★★★★
(09.11.11 13:26:00 MSK)

Ссылка

Ответ на: комментарий от maxcom 09.11.11 09:02:21 MSK

Под формулами имеется в виду MS Equation и т.п.?

frob ★★★★★
(10.11.11 08:15:59 MSK)

Ссылка

Это аналог http://www.gnu.org/s/libextractor/ ?

anonymous
(10.11.11 08:37:36 MSK)

Ответ на: комментарий от anonymous 10.11.11 08:37:36 MSK

Да нет.

Во первых, Тика вообще ничего сама не делает. Это слой абстракции, который позволяет единообразно обращаться к разным вытаскивателям метаинформации из файлов.

Реально работает POI и pdfbox, первый из которых и можно было бы сравнить с libextractor.

~~AVL2~~ ★★★★★
(10.11.11 14:11:33 MSK)