LINUX.ORG.RU

История изменений

Исправление ya-betmen, (текущая версия) :

На уровне пдф нет абзаца, есть текстовые блоки с разным положением на странице (иногда по блоку на слово). Но общая логика разбиения есть в отступах/красных строках, которые тоже сделаны через координаты. Поэтому выдирание текста превращает каждую строку в отдельный абзац. Вот думаю вдруг кто озаботился уже.

Исходная версия ya-betmen, :

На уровне пдф нет абзаца, есть текстовые блоки с разным положением на странице (иногда по блоку на слово). Но общая логика разбиения есть в отступах/красных строках. Поэтому выдирание текста превращает каждую строку в отдельный абзац.