LINUX.ORG.RU

Apache Tika 1.2


0

1

Вышла новая версия библиотеки Apache Tika, предназначенной для извлечения текста, вложений и метаданных из документов в различных распространенных форматах. В настоящий момент библиотека поддерживает несколько десятков форматов, в том числе офисные документы Microsoft (OLE и OOXML), OpenDocument, PDF и другие.

Основные изменения в этой версии:

  • добавлен режим сервера, позволяющий обращаться к Tika с использованием простого REST API (HTTP);
  • большие улучшения в поддержке документов Apple iWork;
  • новая библиотека для определения языка и кодировки текста, основанная на алгоритме определения языка/кодировки Mozilla.org;
  • декомпрессия XZ и Pack200;
  • возможность указать пароль для расшифровки зашифрованного документа в утилите командной строки;
  • исправлено большое количество ошибок, в том числе проблема с извлечением не-OLE вложений в офисных документах.

>>> Подробности


Наконец-то!

добавлен режим сервера, позволяющий обращаться к Tika с использованием простого REST API (HTTP);

djenterprise ()
Ответ на: комментарий от djenterprise

я его два года туда вставлял. Вставили, правда с заменой Jersey+JETTY на Apache CXF. Но все равно хорошо

maxcom ***** ()

О, как раз давно, но неспешно искал. Спасибо

dotbg **** ()

годная новость! спасибо.

ymn ***** ()

ура! архипользительная либа

PS кто знает прикрутили там m-box, или всё такая же бетка?

shty **** ()
Ответ на: комментарий от NoNameNoNumber
>>-----Цитата---->>

POI works closely with the Apache Tika text extraction library. Users may wish to simply utilise the functionality provided by Tika.

<<-----Цитата----<<
shty **** ()

но зачем нужен http-сервер? В парсилке то файлов?

cvs-255 ** ()
>>-----Цитата---->>

добавлен режим сервера

<<-----Цитата----<<

Ну это же Apache!

CYB3R ** ()

кто-то пробовал это прикручивать к поисковым движкам типа сфинкса для организации поиска по документам на предприятии?

awesome * ()

Для тех кто не в курсе: какое оно отношение имеет к Apache(тому что httpd)?

FeyFre ** ()
# apt-cache search tika
texlive-fonts-extra - TeX Live: Extra fonts

Думаю, достаточно. Этого нет в репозиториях. В основном, полагаю, из-за Pack200 (Sun^WOracle proprietary Java-machine feature) и из-за OLE/ActiveX.

powerpc * ()
Ответ на: комментарий от FeyFre

Никакого, кроме того что разрабатывается под эгидой того-же Apache software foundation.

Nagwal *** ()
Ответ на: комментарий от powerpc

Кто-то ставит явовские либы из репозитория дистрибутива? Знатные извращенцы.

Nagwal *** ()
Ответ на: комментарий от cvs-255

Честно говоря тоже не понимаю, нафига. Можно было сделать веб доступ отдельным проектом, по примеру lucene и solr.

Nagwal *** ()
Ответ на: комментарий от NoNameNoNumber

POI это библиотека работы с офисными документами — там и чтение структуры, и модификация, и запись. А Tika это такой общий интерфейс для вытаскивания текстов из разных форматов

maxcom ***** ()
Последнее исправление: maxcom (всего исправлений: 1)
Ответ на: комментарий от cvs-255
>>-----Цитата---->>

но зачем нужен http-сервер? В парсилке то файлов?

<<-----Цитата----<<

Во-первых для доступа из других языков программирования и скриптов. Command Line для этого не очень удобен т.к. tika долго стартует.

Во-вторых при большом потоке документов удобнее это держать отдельным сервером

maxcom ***** ()
Ответ на: комментарий от awesome
>>-----Цитата---->>

кто-то пробовал это прикручивать к поисковым движкам типа сфинкса для организации поиска по документам на предприятии?

<<-----Цитата----<<

Solr и ElasticSearch могут использовать Tika. Еще поддержка есть в Alfresco

maxcom ***** ()
Ответ на: комментарий от Nagwal
>>-----Цитата---->>

Для тех кто не в курсе: какое оно отношение имеет к Apache(тому что httpd)?

<<-----Цитата----<<
>>-----Цитата---->>

Никакого, кроме того что разрабатывается под эгидой того-же Apache software foundation.

<<-----Цитата----<<

Ну тогда, maxcom, реквестирую с этой новости, а также с остальных подобных новостей убрать к чертовой бабушке упоминание Apache как ненужное, не заслужено повышающее ЧСВ, и сбивающее с толку явление! Даже у Столмана такого ЧСВ нету(ха-ха, Richard Stallman GCC, Richard Stallman yet-another-GPLed-software). Да и ни Shuttleworth/Canonical Ubuntu, ни Spencer/Digium Asterisk мы не видим, а они имеют больше оснований вставить свои марки в названия продуктов чем ASF.

FeyFre ** ()
Ответ на: комментарий от FeyFre

Apache это уже давно не только веб-сервер. Кто не в курсе - ссзб.

Nagwal *** ()
Ответ на: комментарий от FeyFre

Это у тебя какие-то странные тараканы в голове. ASF кроме httpd занимается довольно большим количеством проектов, и некоторые интереснее старого веб-сервера

maxcom ***** ()
Ответ на: комментарий от maxcom
>>-----Цитата---->>

правда с заменой Jersey+JETTY на Apache CXF

<<-----Цитата----<<

ты так говоришь, как будто это плохо

djenterprise ()
Ответ на: комментарий от maxcom

Для доступа из других языков? http-сервер? Какой то уж очень оригинальный подход для доступа, напомню, к _библиотеке_.

cvs-255 ** ()
Ответ на: комментарий от maxcom
>>-----Цитата---->>

Это у тебя какие-то странные тараканы в голове. ASF кроме httpd занимается довольно большим количеством проектов, и некоторые интереснее старого веб-сервера

<<-----Цитата----<<

Дело собственно Ваше :) А на таких тараканах мир держится.
(тут было много букв, но я передумал)
В общем, с Вашей подачи, я теперь буду считать всё, что сидит(или впрыгивает сразу после рождения) в Инкубаторе - быдлоподелием, которое живо на свете только благодаря имени и репутации Инкубатора(и думаю что окажусь не таким уж и неправым).

FeyFre ** ()
Ответ на: комментарий от maxcom
>>-----Цитата---->>

mbox там есть, но на счет его качества не уверен

<<-----Цитата----<<

ну там оно да, было, но несколько в недопиленном виде (о чём честно сообщалось в приписке) :)

я им когда попытался сохранить аттачи из гигового ящика оно упало с out of memory, так и пришлось втыкать python в препроцессинг

я как с отпуска вернусь обязательно потыкаю в него палочкой, посмотрю, а ну как допилили, а так просто вдруг кто уже в курсе

shty **** ()

Опишите простой способ это использовать. Я не писатель на джаве, и вообще не писатель, могу я на пыхе или html написать страничку фронтэд и, заюзав обращения к Tika по HTTP, не париться?

muon * ()

API по HTTP НЕНАВИСТЬ!!! Идиотия на марше. Нафига если сервер локальный?

alx_me *** ()
Ответ на: комментарий от alx_me

Ну и дергай ее локально, как библиотеку. Кто мешает то?

Nagwal *** ()
Ответ на: комментарий от maxcom
>>-----Цитата---->>

tika долго стартует.

<<-----Цитата----<<

А как сделать, чтобы она висела в памяти, как при работе по http, но чтобы можно было нативно обращаться, как к библиотеке?

muon * ()