Как лучше конвертировать HTML в текст?

cli, html

Требуется превратить много файлов в формате HTML в формат TXT. С сохранением разбиения на абзацы. Как это лучше сделать?

Копирование текста из браузера плохо поддаётся автоматизации. elinks -dump рубит абзацы по 76 символов и вставляет номера гиперссылок (ширину можно менять, но тогда вставляет много пробелов в отцентрированный текст, и ширина ограничена). w3m -dump объединяет абзацы.

Что есть ещё?

Ответ: pyhtml2text -b 0 --ignore-links ....htm даёт желаемый результат.

← Не запускается exim4-base.service в Astra Linux 1.8.5.46

Почему сайты некоторые не открываются по айпи? →

очевидный pandoc очевиден?

anonymous
(02.06.26 21:11:59 MSK)

$ pandoc input.html \
  -f html \
  -t markdown_strict \
  --wrap=none \
  -o output.txt

$ pip install html2text
$ html2text \
  --body-width=0 \
  --ignore-links \
  --ignore-images \
  input.html > output.txt

gagarin0 ★
(02.06.26 21:12:00 MSK)

Ответ на: комментарий от gagarin0 02.06.26 21:12:00 MSK

pip install html2text

Спасибо, оно.

question4 ★★★★★
(02.06.26 21:22:51 MSK) автор топика

Ответ на: комментарий от anonymous 02.06.26 21:11:59 MSK

pandoc очевиден?

Настолько очевиден, что в дистрибутиве несколько его пакетов, и все нестабильные.

question4 ★★★★★
(02.06.26 21:24:53 MSK) автор топика

$ trafilatura -u https://www.linux.org.ru/forum/general/18309577?lastmod=18309595
Требуется превратить много файлов в формате HTML в формат TXT. С сохранением разбиения на абзацы. Как это лучше сделать?
Копирование текста из браузера плохо поддаётся автоматизации. elinks -dump
рубит абзацы по 76 символов и вставляет номера гиперссылок (ширину можно менять, но тогда вставляет много пробелов в отцентрированный текст, и ширина ограничена). w3m -dump
объединяет абзацы.
Что есть ещё?
Ответ: pyhtml2text -b 0 --ignore-links ....htm
даёт желаемый результат.

theurs ★★
(03.06.26 16:01:04 MSK)
Последнее исправление: theurs 03.06.26 16:01:33 MSK (всего исправлений: 1)

Ответ на: комментарий от theurs 03.06.26 16:01:04 MSK

Расшифруй.

question4 ★★★★★
(03.06.26 18:04:05 MSK) автор топика

Ответ на: комментарий от question4 03.06.26 18:04:05 MSK

очевидно он советует вот это https://github.com/adbar/trafilatura

ofp ★★
(03.06.26 18:15:45 MSK)

Я делал своим скриптом. Там очень много нюансов, и в целом наилучшего подходящего всем решения заведомо не существует, только достаточно подходящие приближения. Самое главное блочные элементы разделять пустыми строками, а инлайны склеивать.

neumond ★★
(03.06.26 18:18:42 MSK)

https://github.com/mozilla/readability

Есть порты на другие языки

anonymous
(03.06.26 19:21:11 MSK)

Ответ на: комментарий от ofp 03.06.26 18:15:45 MSK

очевидно он советует вот это https://github.com/adbar/trafilatura

Который не справился с обработкой даже данной страницы — вывел только первый пост. И рвёт предложения при изменении форматирования ещё хуже elinks. Вот я и спрашиваю, что он пытался этим сказать.

question4 ★★★★★
(03.06.26 20:33:54 MSK) автор топика

Ответ на: комментарий от anonymous 03.06.26 19:21:11 MSK

https://github.com/mozilla/readability

Как его запускать? npm пользоваться пока не рискую, там сейчас каждый день что-то взламывают, дождусь пока волна ИИ-взломов спадёт.

Есть порты на другие языки

Как их искать? Название слишком распространённое.

question4 ★★★★★
(03.06.26 20:39:14 MSK) автор топика

Ответ на: комментарий от neumond 03.06.26 18:18:42 MSK

наилучшего подходящего всем решения заведомо не существует, только достаточно подходящие приближения

Поэтому я спросил, что сейчас есть и собирался перебирать. Первая же опробованная программа подошла :)

question4 ★★★★★
(03.06.26 20:41:20 MSK) автор топика

Ответ на: комментарий от question4 03.06.26 20:39:14 MSK

Ищи на гитхабе, я только пехепе версию юзал стороннюю.

https://github.com/gardenappl/readable попробуй например (я не проверял), думаю такого много.

Кстати, ридер режим в фф на Лоре почему то комменты не показывает, наверное крутить надо.

anonymous
(03.06.26 20:47:08 MSK)

Ответ на: комментарий от anonymous 03.06.26 20:47:08 MSK

ридер режим в фф на Лоре почему то комменты не показывает, наверное крутить надо.

Наверное, стоит занести баг на ФФ :)

question4 ★★★★★
(03.06.26 20:50:46 MSK) автор топика

Ответ на: комментарий от question4 03.06.26 20:50:46 MSK

https://github.com/eafer/rdrview

Их там десятки вариантов, этот заявляет

The code is closely adapted from the Firefox version and the output is expected to be mostly equivalent.

anonymous
(03.06.26 20:52:18 MSK)

Ответ на: комментарий от question4 03.06.26 20:50:46 MSK

Хотя если у тебя все файлы на входе гарантированно без мусора и с четкой структурой, то смысла в readability нет, он для другого.

anonymous
(03.06.26 21:00:14 MSK)

Ответ на: комментарий от anonymous 03.06.26 20:52:18 MSK

https://github.com/eafer/rdrview

И тоже показывает только первый пост :)

question4 ★★★★★
(04.06.26 04:16:51 MSK) автор топика
Последнее исправление: question4 04.06.26 04:17:02 MSK (всего исправлений: 1)

14 июля 2026 г.

Очевидно, надо игнорироать теги, и CSS. Попробую реализовать в коде. Да каком нахрен коде, регулярными выражениями решаемо. Но - завтра. Сейчас право - не-хо-чу.

cadaber ★★
(14.07.26 14:06:42 MSK)
Последнее исправление: cadaber 14.07.26 14:10:42 MSK (всего исправлений: 1)

Всё зависит от html. Универсального варианта нет. Потому что есть html который работает с js и css, которые меняют его поведение.

В плохих вариантах надо хеадлесс браузер брать или плагины к нему делать. Если ситуёвина чуть лучше, то всякие бьютифул супы и свои парсеры. Если ещё лучше то pandoc/pyhtml2text и иже с ними.

peregrine ★★★★★
(14.07.26 15:45:54 MSK)

Ответ на: комментарий от peregrine 14.07.26 15:45:54 MSK

Всё зависит от html. Универсального варианта нет. Потому что есть html который работает с js и css, которые меняют его поведение.

С самого начала упомянул, что elinks и w3m видят весь текст. То есть не самый тяжёлый случай.

Хотя «режим чтения» от FF не справился почему-то. И многочисленные инструменты на его основе тоже.

бьютифул суп

Спасибо, учту на будущее.

question4 ★★★★★
(14.07.26 16:54:18 MSK) автор топика

Ответ на: комментарий от cadaber 14.07.26 14:06:42 MSK

регулярными выражениями решаемо.

Почему-то такой подход традиционно считается неверным. Как вечный двигатель или сжатие случайных данных :)

question4 ★★★★★
(14.07.26 16:56:03 MSK) автор топика
Последнее исправление: question4 14.07.26 17:15:35 MSK (всего исправлений: 1)

man lynx

???

Shadow ★★★★★
(14.07.26 16:58:22 MSK)

Ответ на: комментарий от Shadow 14.07.26 16:58:22 MSK

man lynx

Первая ссылка в Гугле: https://dwarffortresswiki.org/index.php/DF2014:Lynx_man :)

Серьёзнее: как в lynx убрать ограничение ширины для -dump? Даже с -width не позволяет больше 1000. И раздувает пробелами строки с <center>.

question4 ★★★★★
(14.07.26 17:14:43 MSK) автор топика
Последнее исправление: question4 14.07.26 17:14:59 MSK (всего исправлений: 1)

Если бы задача была не локальные файлы, а прям ссылки, то я бы просто использовал r.jina.ai

anonymous_sama ★★★★★
(14.07.26 17:32:58 MSK)

Ответ на: комментарий от anonymous_sama 14.07.26 17:32:58 MSK

r.jina.ai

Unavailable For Legal Reasons

question4 ★★★★★
(14.07.26 17:56:18 MSK) автор топика

← Не запускается exim4-base.service в Astra Linux 1.8.5.46

General

Почему сайты некоторые не открываются по айпи? →

Похожие темы