LINUX.ORG.RU

Как лучше конвертировать HTML в текст?

 ,


1

1

Требуется превратить много файлов в формате HTML в формат TXT. С сохранением разбиения на абзацы. Как это лучше сделать?

Копирование текста из браузера плохо поддаётся автоматизации. elinks -dump рубит абзацы по 76 символов и вставляет номера гиперссылок (ширину можно менять, но тогда вставляет много пробелов в отцентрированный текст, и ширина ограничена). w3m -dump объединяет абзацы.

Что есть ещё?

Ответ: pyhtml2text -b 0 --ignore-links ....htm даёт желаемый результат.

★★★★★

Последнее исправление: question4 (всего исправлений: 1)
Ответ на: комментарий от anonymous

pandoc очевиден?

Настолько очевиден, что в дистрибутиве несколько его пакетов, и все нестабильные.

question4 ★★★★★
() автор топика
$ trafilatura -u https://www.linux.org.ru/forum/general/18309577?lastmod=18309595
Требуется превратить много файлов в формате HTML в формат TXT. С сохранением разбиения на абзацы. Как это лучше сделать?
Копирование текста из браузера плохо поддаётся автоматизации. elinks -dump
рубит абзацы по 76 символов и вставляет номера гиперссылок (ширину можно менять, но тогда вставляет много пробелов в отцентрированный текст, и ширина ограничена). w3m -dump
объединяет абзацы.
Что есть ещё?
Ответ: pyhtml2text -b 0 --ignore-links ....htm
даёт желаемый результат.
theurs ★★
()
Последнее исправление: theurs (всего исправлений: 1)

Я делал своим скриптом. Там очень много нюансов, и в целом наилучшего подходящего всем решения заведомо не существует, только достаточно подходящие приближения. Самое главное блочные элементы разделять пустыми строками, а инлайны склеивать.

neumond ★★
()
Ответ на: комментарий от ofp

очевидно он советует вот это https://github.com/adbar/trafilatura

Который не справился с обработкой даже данной страницы — вывел только первый пост. И рвёт предложения при изменении форматирования ещё хуже elinks. Вот я и спрашиваю, что он пытался этим сказать.

question4 ★★★★★
() автор топика
Ответ на: комментарий от anonymous

https://github.com/mozilla/readability

Как его запускать? npm пользоваться пока не рискую, там сейчас каждый день что-то взламывают, дождусь пока волна ИИ-взломов спадёт.

Есть порты на другие языки

Как их искать? Название слишком распространённое.

question4 ★★★★★
() автор топика
Ответ на: комментарий от neumond

наилучшего подходящего всем решения заведомо не существует, только достаточно подходящие приближения

Поэтому я спросил, что сейчас есть и собирался перебирать. Первая же опробованная программа подошла :)

question4 ★★★★★
() автор топика
Ответ на: комментарий от question4

Ищи на гитхабе, я только пехепе версию юзал стороннюю.

https://github.com/gardenappl/readable попробуй например (я не проверял), думаю такого много.

Кстати, ридер режим в фф на Лоре почему то комменты не показывает, наверное крутить надо.

anonymous
()
Ответ на: комментарий от question4

Хотя если у тебя все файлы на входе гарантированно без мусора и с четкой структурой, то смысла в readability нет, он для другого.

anonymous
()
  • Markdown
Пустая строка (два раза Enter) начинает новый абзац. Знак '>' в начале абзаца выделяет абзац курсивом цитирования.
Внимание: прочитайте описание разметки Markdown.
Используйте Ctrl-Enter для размещения комментария