А как сконвертировать PDF в TXT (или HTML) без разрыва строк в абзацах?

1

2

Собственно, нужно научится конвертировать PDF в TXT (или HTML) без разрыва строк в абзацах. Давно у же мучаюсь и не знаю как это сделать.

Пробовал pdf2htmlEX и pdftotext с различными опциями. Ни то ни другое не умеет, или я опций не нащупал.

Я понимаю, что PDF - следствие версточного формата, и разрывы строк у него принудительные. Но может быть есть какой-то конвертор который интеллектуально видит абзацы и не разрывает строки на них?

Образец текста: http://mcst.ru/files/5616f6/f20cd8/50d174/000000/doklad_ao_mtsst_i_pao_ineum_...

Ссылка

← KDE 5 + hibernate

сохранить истори gajim в файл →

ИМХО в такой задаче без чего-нибудь типа opencv не обойтись.

ados ★★★★★
(15.05.16 22:43:51 MSK)

Ссылка

Скорее всего ты такой не найдёшь. Может проще будет отрендерить с хорошим разрешением и в tesseract засунуть?

anonymous
(15.05.16 23:19:03 MSK)

Ссылка

smallpdf.com

bookman900 ★★★★★
(15.05.16 23:33:30 MSK)

Вот как через tesseract получается. Ниже, в raw paste data можно посмотреть на ошибки распознавания. Распознавал со скриншота абзаца разрешением 1500х460 пикселов. Ентеры он делает, но это, по-моему, гораздо лучше чем копипаста.

anonymous
(15.05.16 23:39:34 MSK)