LINUX.ORG.RU
 
maxcom

Apache Tika 1.0


0

1

Вышла версия 1.0 Apache Tika — библиотеки и утилит для извлечения текста и метаданных из распространенных бинарных форматов. Tika создавалась как подпроект библиотеки полнотекстового поиска Apache Lucene.

Tika поддерживает офисные форматы Microsoft (OLE и OOXML), OpenDocument, Apple iWork, PDF, RTF, ePub и FB2, MIME (mailbox) и др. Поддерживается извлечение метаданных из аудио-форматов и изображений, распаковка некоторых популярных форматов архивов.

Основные изменения по сравнению с 0.10:

  • RTF: поддержка гиперссылок
  • MS Word: поддержка Unicode дефисов
  • Outlook: извлечение вложенных файлов
  • MS Office: увеличение скорости
  • OpenOffice: извлечение верхних и нижних колонтитулов
  • PDF: корректное извлечение параграфов и опциональная поддержка аннотаций
  • Определение языка/кодировки текстов: добавлена поддержка белорусского, каталонского, эсперанто, галийского, литовского, румынского, словацкого, словенского и украинского языков (русский язык и популярные в России кодировки поддерживаются и в предыдущих версиях Tika)
  • Работа и конфигурация в OSGi окружении
  • Удалены API, объявленные устаревшими в предыдущих версиях

>>> Подробности


[#]  
luke

maxcom сегодня в ударе.

** ()
[#]  
luke

>Tika поддерживает офисные форматы Microsoft (OLE и OOXML), OpenDocument, Apple iWork, PDF, RTF, ePub и FB2, MIME (mailbox) и др. Поддерживается извлечение метаданных из аудио-форматов и изображений, распаковка некоторых популярных форматов архивов.

Она с Solr или Nutch работает?

** ()
[#]  
tmplsr

>Определение языка/кодировки текстов: поддержка белорусского, каталонского, эсперанто, галийского, литовского, румынского, словацкого, словенского и украинского языков
Т.е., без русского?

()
[#] Ответ на: комментарий от luke 08.11.2011 15:22:32  
Ok

> maxcom сегодня в ударе.

Скор накручивает :-)

* ()
[#] Ответ на: комментарий от tmplsr 08.11.2011 15:25:17  
maxcom

Русский язык там давно есть

***** ()
[#] Ответ на: комментарий от luke 08.11.2011 15:23:34  
shahid

> Nutch

Вроде может реальный язык текста определять через какой-то плагин, который дергает тику.

***** ()
[#]  
drfaust

руский языка в ударе

Вышла версия 1.0 Apache Tika — библиотеки и утилит для извлечения... набор утилит для извлечения или одна утилитА?

* ()
[#]  
>>-----Цитата---->>

Определение языка/кодировки текстов: добавлена поддержка белорусского

<<-----Цитата----<<

Годно. Файная навіна!

* ()
[#]  

Хорошая либа. Но жииирная, но тормознааая...

***** ()
[#] Ответ на: комментарий от AVL2 08.11.2011 17:45:06  
maxcom

пробуй свежую версию - поддержка многих форматов стала быстрее

***** ()
[#]  
anonymous_sapiens

какие распространенные бинарные форматы имеются в виду?

* ()
[#]  

Бинарный текст

>>-----Цитата---->>

Вышла версия 1.0 Apache Tika — библиотеки и утилит для извлечения текста и метаданных из распространенных бинарных форматов.

<<-----Цитата----<<
>>-----Цитата---->>

Tika поддерживает офисные форматы Microsoft (OLE и OOXML), OpenDocument, Apple iWork, PDF, RTF, ePub и FB2, MIME (mailbox) и др.

<<-----Цитата----<<
()
[#]  

Apache Tit'ka 1.0

сабж

anonymous ()
[#] Ответ на: Apache Tit'ka 1.0 от anonymous 08.11.2011 18:18:12  
joy4eg

Уж лучше тогда 3.0 :D

* ()
[#]  

Спасибо, пригодится.

* ()
[#]  

Прочитал название как "Апаче-Титька" ))))

anonymous ()
[#]  

Мне бы файлы формата MS Ofiice Word 97-2003 сконвертировать в какой-нить fb2 или просто HTML, но чтобы со всеми таблицами и формулами. Этот Tika справится?

* ()
[#] Ответ на: комментарий от Wizard_ 08.11.2011 23:36:28  

Есть вариант через утилиту unoconv из опенофиса, но она безбожно глючит.

* ()
[#]  
jreznot

Отличная вещь кстати, юзаем как полнотекстовый поиск по документам в системе.

* ()
[#] Ответ на: комментарий от Wizard_ 08.11.2011 23:36:28  
maxcom

формулы помоему никто не умеет корректно извлекать.

Таблицы и HTML будет, но оформление почти не будет перенесено (хотя для чтения это может и лучше)

***** ()
[#] Ответ на: комментарий от maxcom 09.11.2011 9:02:21  

Понятно. Спасибо за информацию, посмотрю.

* ()
[#] Ответ на: комментарий от maxcom 09.11.2011 9:02:21  
frob

Под формулами имеется в виду MS Equation и т.п.?

* ()
[#] Ответ на: комментарий от anonymous 10.11.2011 8:37:36  

Да нет.

Во первых, Тика вообще ничего сама не делает. Это слой абстракции, который позволяет единообразно обращаться к разным вытаскивателям метаинформации из файлов.

Реально работает POI и pdfbox, первый из которых и можно было бы сравнить с libextractor.

***** ()