Собственно, нужно научится конвертировать PDF в TXT (или HTML) без разрыва строк в абзацах. Давно у же мучаюсь и не знаю как это сделать.
Пробовал pdf2htmlEX и pdftotext с различными опциями. Ни то ни другое не умеет, или я опций не нащупал.
Я понимаю, что PDF - следствие версточного формата, и разрывы строк у него принудительные. Но может быть есть какой-то конвертор который интеллектуально видит абзацы и не разрывает строки на них?
Образец текста: http://mcst.ru/files/5616f6/f20cd8/50d174/000000/doklad_ao_mtsst_i_pao_ineum_...