LINUX.ORG.RU

А как сконвертировать PDF в TXT (или HTML) без разрыва строк в абзацах?

 , ,


1

2

Собственно, нужно научится конвертировать PDF в TXT (или HTML) без разрыва строк в абзацах. Давно у же мучаюсь и не знаю как это сделать.

Пробовал pdf2htmlEX и pdftotext с различными опциями. Ни то ни другое не умеет, или я опций не нащупал.

Я понимаю, что PDF - следствие версточного формата, и разрывы строк у него принудительные. Но может быть есть какой-то конвертор который интеллектуально видит абзацы и не разрывает строки на них?

Образец текста: http://mcst.ru/files/5616f6/f20cd8/50d174/000000/doklad_ao_mtsst_i_pao_ineum_...

★★★★★

Последнее исправление: Xintrea (всего исправлений: 1)

ИМХО в такой задаче без чего-нибудь типа opencv не обойтись.

ados ★★★★★
()

Скорее всего ты такой не найдёшь. Может проще будет отрендерить с хорошим разрешением и в tesseract засунуть?

anonymous
()

Вот как через tesseract получается. Ниже, в raw paste data можно посмотреть на ошибки распознавания. Распознавал со скриншота абзаца разрешением 1500х460 пикселов. Ентеры он делает, но это, по-моему, гораздо лучше чем копипаста.

anonymous
()

ключ layout пробовал?

pdftotext -layout doklad_ao_mtsst_i_pao_ineum_kozhin.pdf doklad_ao_mtsst_i_pao_ineum_kozhin.txt

anonymous
()
Ответ на: комментарий от anonymous

ключ layout пробовал?

Пробовал, у меня с переносами делает.

Xintrea ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.