LINUX.ORG.RU

Импорт текста из документов

 , , ,


0

1

Ищу библиотеки, которые позволят вытащить из pdf,doc,docx,xls,xlsx текст без разметки.

Грубо говоря на входе - файл, на выходе все видимые открывшему этот файл спец.программой слова через пробел.

0) Сами библиотеки должны быть написаны на php

1) PEAR не предлагать

2) Редкие php-расширения, ставящиеся не на каждый хостинг - не предлагать.

★☆☆

Не PHP, так что просто в копилку.

Apache Tika. Самая обширная импортилка, которую знаю. Но написана на Java, на памяти сэкономить не получится.

anonymous ()

Вопрос с .doc закрыт этим

http://obninsk.name/obninsk_doc/

Работает не идеально, но лучше для моей задачи всё равно ничего не нашел.

Исследуем остальные форматы. Есть понимание что делать с docx и xlsx.

r_asian ★☆☆ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.