Требуется превратить много файлов в формате HTML в формат TXT. С сохранением разбиения на абзацы. Как это лучше сделать?
Копирование текста из браузера плохо поддаётся автоматизации. elinks -dump рубит абзацы по 76 символов и вставляет номера гиперссылок (ширину можно менять, но тогда вставляет много пробелов в отцентрированный текст, и ширина ограничена). w3m -dump объединяет абзацы.
Что есть ещё?
Ответ: pyhtml2text -b 0 --ignore-links ....htm даёт желаемый результат.



