LINUX.ORG.RU

Apache Tika 1.2

 ,


0

1

Вышла новая версия библиотеки Apache Tika, предназначенной для извлечения текста, вложений и метаданных из документов в различных распространенных форматах. В настоящий момент библиотека поддерживает несколько десятков форматов, в том числе офисные документы Microsoft (OLE и OOXML), OpenDocument, PDF и другие.

Основные изменения в этой версии:

  • добавлен режим сервера, позволяющий обращаться к Tika с использованием простого REST API (HTTP);
  • большие улучшения в поддержке документов Apple iWork;
  • новая библиотека для определения языка и кодировки текста, основанная на алгоритме определения языка/кодировки Mozilla.org;
  • декомпрессия XZ и Pack200;
  • возможность указать пароль для расшифровки зашифрованного документа в утилите командной строки;
  • исправлено большое количество ошибок, в том числе проблема с извлечением не-OLE вложений в офисных документах.

>>> Подробности

★★★★★

Последнее исправление: Silent (всего исправлений: 3)

Наконец-то!

добавлен режим сервера, позволяющий обращаться к Tika с использованием простого REST API (HTTP);

djenterprise
()
Ответ на: комментарий от djenterprise

я его два года туда вставлял. Вставили, правда с заменой Jersey+JETTY на Apache CXF. Но все равно хорошо

maxcom ★★★★★
() автор топика

О, как раз давно, но неспешно искал. Спасибо

dotbg ★★★★
()

годная новость! спасибо.

ymn ★★★★★
()

ура! архипользительная либа

PS кто знает прикрутили там m-box, или всё такая же бетка?

shty ★★★★★
()
Ответ на: комментарий от NoNameNoNumber

POI works closely with the Apache Tika text extraction library. Users may wish to simply utilise the functionality provided by Tika.

shty ★★★★★
()

добавлен режим сервера

Ну это же Apache!

CYB3R ★★★★★
()

кто-то пробовал это прикручивать к поисковым движкам типа сфинкса для организации поиска по документам на предприятии?

awesome
()
# apt-cache search tika
texlive-fonts-extra - TeX Live: Extra fonts

Думаю, достаточно. Этого нет в репозиториях. В основном, полагаю, из-за Pack200 (Sun^WOracle proprietary Java-machine feature) и из-за OLE/ActiveX.

powerpc
()
Ответ на: комментарий от powerpc

Кто-то ставит явовские либы из репозитория дистрибутива? Знатные извращенцы.

Nagwal ★★★★
()
Ответ на: комментарий от cvs-255

Честно говоря тоже не понимаю, нафига. Можно было сделать веб доступ отдельным проектом, по примеру lucene и solr.

Nagwal ★★★★
()
Ответ на: комментарий от NoNameNoNumber

POI это библиотека работы с офисными документами — там и чтение структуры, и модификация, и запись. А Tika это такой общий интерфейс для вытаскивания текстов из разных форматов

maxcom ★★★★★
() автор топика
Последнее исправление: maxcom (всего исправлений: 1)
Ответ на: комментарий от cvs-255

но зачем нужен http-сервер? В парсилке то файлов?

Во-первых для доступа из других языков программирования и скриптов. Command Line для этого не очень удобен т.к. tika долго стартует.

Во-вторых при большом потоке документов удобнее это держать отдельным сервером

maxcom ★★★★★
() автор топика
Ответ на: комментарий от awesome

кто-то пробовал это прикручивать к поисковым движкам типа сфинкса для организации поиска по документам на предприятии?

Solr и ElasticSearch могут использовать Tika. Еще поддержка есть в Alfresco

maxcom ★★★★★
() автор топика
Ответ на: комментарий от powerpc

У ASF все в порядке с лицензией и патентами

maxcom ★★★★★
() автор топика
Ответ на: комментарий от Nagwal

Для тех кто не в курсе: какое оно отношение имеет к Apache(тому что httpd)?

Никакого, кроме того что разрабатывается под эгидой того-же Apache software foundation.

Ну тогда, maxcom, реквестирую с этой новости, а также с остальных подобных новостей убрать к чертовой бабушке упоминание Apache как ненужное, не заслужено повышающее ЧСВ, и сбивающее с толку явление! Даже у Столмана такого ЧСВ нету(ха-ха, Richard Stallman GCC, Richard Stallman yet-another-GPLed-software). Да и ни Shuttleworth/Canonical Ubuntu, ни Spencer/Digium Asterisk мы не видим, а они имеют больше оснований вставить свои марки в названия продуктов чем ASF.

FeyFre ★★★★
()
Ответ на: комментарий от FeyFre

Apache это уже давно не только веб-сервер. Кто не в курсе - ссзб.

Nagwal ★★★★
()
Ответ на: комментарий от FeyFre

Это у тебя какие-то странные тараканы в голове. ASF кроме httpd занимается довольно большим количеством проектов, и некоторые интереснее старого веб-сервера

maxcom ★★★★★
() автор топика
Ответ на: комментарий от maxcom

правда с заменой Jersey+JETTY на Apache CXF

ты так говоришь, как будто это плохо

djenterprise
()
Ответ на: комментарий от maxcom

Для доступа из других языков? http-сервер? Какой то уж очень оригинальный подход для доступа, напомню, к _библиотеке_.

cvs-255 ★★★★★
()
Ответ на: комментарий от maxcom

Это у тебя какие-то странные тараканы в голове. ASF кроме httpd занимается довольно большим количеством проектов, и некоторые интереснее старого веб-сервера

Дело собственно Ваше :) А на таких тараканах мир держится.
(тут было много букв, но я передумал)
В общем, с Вашей подачи, я теперь буду считать всё, что сидит(или впрыгивает сразу после рождения) в Инкубаторе - быдлоподелием, которое живо на свете только благодаря имени и репутации Инкубатора(и думаю что окажусь не таким уж и неправым).

FeyFre ★★★★
()
Ответ на: комментарий от maxcom

mbox там есть, но на счет его качества не уверен

ну там оно да, было, но несколько в недопиленном виде (о чём честно сообщалось в приписке) :)

я им когда попытался сохранить аттачи из гигового ящика оно упало с out of memory, так и пришлось втыкать python в препроцессинг

я как с отпуска вернусь обязательно потыкаю в него палочкой, посмотрю, а ну как допилили, а так просто вдруг кто уже в курсе

shty ★★★★★
()

Опишите простой способ это использовать. Я не писатель на джаве, и вообще не писатель, могу я на пыхе или html написать страничку фронтэд и, заюзав обращения к Tika по HTTP, не париться?

muon ★★★★
()
Ответ на: комментарий от alx_me

Ну и дергай ее локально, как библиотеку. Кто мешает то?

Nagwal ★★★★
()
Ответ на: комментарий от maxcom

tika долго стартует.

А как сделать, чтобы она висела в памяти, как при работе по http, но чтобы можно было нативно обращаться, как к библиотеке?

muon ★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.