LINUX.ORG.RU

Кто чем конвертирует книги?

 , , ,


0

1

Вообще, понадобилось сконвертировать пачку PDF во что-нибудь с произвольной шириной страниц. Например, HTML. EPUB или FB2 тоже сгодятся.

В идеале нужно что-нибудь предельно простое в командной строке, типа soffice --convert-to html filename.pdf (который не работает).
Про Calibre знаю, но в его интерфейсе можно блуждать неделями. И он не умеет сохранять HTML.
pdftohtml из poppler работает, но картинки кладёт отдельными файлами. Хотелось бы, чтобы мог сразу в HTML внедрять.

Кто чем пользуется?

★★★★★

А как ему еще класть картинку в html? Если хочешь одним файлом, то это chm. Не знаю, чем его сделать.

Irma ★★★
()

ПКМ -> исследовать элемент

<img class="photo" src="/photos/44554:209552558.jpg" alt="" width="111" height="150">

И как эта картинка должна быть внедрена в текст? Это не SVG.

wonit
()

Кто чем пользуется?

В инете преобразовываю книги бесплатно. Качество страниц хорошее получается.

Enthusiast ★★★
()

Кто чем конвертирует книги?

В 2к24 - никто и ничем. Незачем: любой самый дешманский планшет на ура открывает pdf, epub и даже fb2, на крайняк поставить вьювер.

LamerOk ★★★★★
()
Ответ на: комментарий от Irma

как ему еще класть картинку в html?

В base64.

Оп, перегоняй с картинками отдельно, а потом конвертируй через singlefile (реализаций много).

anonymous
()
Ответ на: комментарий от question4

Есть плагин для браузера, есть cli версии через безголовый браузер, может ещё другие варианты есть.

anonymous
()
Ответ на: комментарий от Irma

А как ему еще класть картинку в html?

<img src="data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAA...">

question4 ★★★★★
() автор топика
Ответ на: комментарий от wonit

И как эта картинка должна быть внедрена в текст? Это не SVG.

<img src="data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAA...">

question4 ★★★★★
() автор топика
Последнее исправление: question4 (всего исправлений: 1)
Ответ на: комментарий от Enthusiast

В инете преобразовываю книги бесплатно.

3 страницы в сутки, больше — за деньги.

Качество страниц хорошее получается.

Как повезёт. Иконку с букву размером растянуло на всё страницу, первую фотографию сжало по ширине вчетверо, но остальные 80 фотографий вставились нормально.

question4 ★★★★★
() автор топика

Про Calibre знаю, но в его интерфейсе можно блуждать неделями.

$ rpm -qf /usr/bin/ebook-convert
calibre-7.5.1-alt1.3.x86_64
$
saahriktu ★★★★★
()
Ответ на: комментарий от question4

Обычная сумка-«барсетка» через плечо. Где кошелёк, мобила, ключи и остальное. Не в карманах же штанов всё это носить?

LamerOk ★★★★★
()
Последнее исправление: LamerOk (всего исправлений: 1)

Abbyy FineReader, если пачку. Он умеет выдёргивать текстовый слой, но почему-то только после распознания. Кстати, если склероз не изменяет, то в отличие от AFR, онлайн конверторы не понимают, что такое перенос — для них это символ. То есть, в идеале, без рихтовки не обойтись в любом случае.

Дистрибутив AFR 14 с тихой установкой запускается на wine-lutris-GE-Proton7-28-x86_64.tar.xz почти полностью работоспособным, только сохранение проекта не работает (можно просто грохнуть — восстановить при следующем запуске).

luiswoo ★★
()
Последнее исправление: luiswoo (всего исправлений: 1)
Ответ на: комментарий от anonymous

Нет уж, мухи отдельно, котлеты отдельно. HTML это текст со ссылками. Но судя по всему, пределов идиотизма мирового масштаба не существует.

wonit
()
Ответ на: комментарий от wonit

Нет уж

Ты «скозал»? По спекам можно, значит можно. Вариант популярный, а твое личное мнение никого не интересует.

anonymous
()
Ответ на: комментарий от wonit

HTML это текст со ссылками.

Или без. Тут уж как повезёт.

LamerOk ★★★★★
()

phind выдал коротенькую программулину на пайтоне с использованием fitz library from pymupdf.

Irma ★★★
()

Про Calibre знаю, но в его интерфейсе можно блуждать неделями.

их несколько, что ли? В моём: выбрал книгу, выбрал экспорт (или конвертирвоать?) в… и всё.

есть еще всякие консольные pdf2… или pdfto…

TPPPbIHDELj
()
Ответ на: комментарий от anonymous

ОНОнимусс. Или частями будет загружаться в память, или (____!____) закорячится и всё колом встанет. Что за д-изм пошёл, то в шапку на десяток МБ картинку воткнут, то рулон туалетной бумаги с картинками и видяшками на одну страницу закатят, то тонну JS в тело документа воткнут. Куда катится мир? Ясен пень с таким подходом нужен интернет безлимит со скоростью светы и ОЗУ много не бывает, она дешёвая, только покупать будешь как хлеб. HTML это гипертекст, то есть, поделённый на составные части и собранный ссылками. Нет, даунам этого не понять, они свою дурь быстрее реализуют.

wonit
()
Последнее исправление: wonit (всего исправлений: 1)
Ответ на: комментарий от wonit

HTML это гипертекст, то есть, поделённый на составные части и собранный ссылками.

К сожалению, в этот текст любят вставлять картинки.

с таким подходом нужен интернет безлимит со скоростью светы

Наоборот, на плохом канале чем меньше файлов, тем лучше. Тем более, для флоппонета удобнее, когда всё в одном файле :)

и ОЗУ много не бывает

У нас уже есть файл с сотней мегабайт картинок, и вопрос только в том, как их засунуть в программу, которая нормально умеет подстраиваться под необычные размеры экрана.

question4 ★★★★★
() автор топика
Ответ на: комментарий от question4

которая нормально умеет подстраиваться под необычные размеры экрана.

Резиновый размер картинок?

У нас уже есть файл с сотней мегабайт картинок

Знаете толк в извращениях. Вам 128 гигов ОЗУ хватит на смартфоне?

wonit
()
Ответ на: комментарий от wonit

Знаете толк в извращениях.

Ты знаешь, где скачать «Лингвистические задачи» Алпатова с векторными иллюстрациями? Или «Oxford Handbook of Sound and Imagination»?

question4 ★★★★★
() автор топика
Ответ на: комментарий от pasquale

Конечно умеет.

Или я путаю, и он не смог открыть текст в HTML… Давно дело было. Я его снёс, а теперь он не собирается.

question4 ★★★★★
() автор топика
Ответ на: комментарий от question4

Есть вполне качественный pdf https://sheba.spb.ru/shkola/lingvo-zada-1983.pdf

Какая проблема его не использовать? Или нужна такая же, но с другими пуговицами?

https://books.google.ru/books?id=X26fDwAAQBAJ&printsec=frontcover&hl=ru#v=onepage&q&f=false

В читалке от гугла есть полная версия, всего лишь за 125$

wonit
()
Ответ на: комментарий от wonit

Какая проблема его не использовать?

Попробуй прочитать его с телефона — почувствуешь :)

В процессе есть риск ослепнуть.

Гугл продаёт её же, насколько могу судить.

P.S. И я говорил про векторный, а не зазубренный скан.

question4 ★★★★★
() автор топика
Последнее исправление: question4 (всего исправлений: 1)
Ответ на: комментарий от question4

А HTML в абстракции будет читаться? Чем fb2 не нравится? Или ps? ИМХО, пытаетесь сделать странное, страдания очевидны.

wonit
()
Ответ на: комментарий от wonit

То же самое. Таймаут на сложных, лимит на мелких.

question4 ★★★★★
() автор топика
Ответ на: удаленный комментарий

Казалось бы, какое твое дело?

Интересно посмотреть на чтение pdf’ок с нокии 3310. В этнографических целях.

LamerOk ★★★★★
()
Ответ на: комментарий от wonit

Есть фундаментальное различие PDF и HTML, которое состоит в том, что PDF предполагает фиксированный размер страницы и не делает переформатирование текста в то время как HTML изначально предназначен для экранов с разными параметрами. Проще говоря, на смартфонах просмотр PDF – это почти всегда горизонтальная прокрутка, что неудобно.

Странно, что такому видному эксперту как Вы нужно объяснять такие простые вещи.

anonymous
()

Calibre. Тяжелая штука, конечно, но работает нормально.

Zhbert ★★★★★
()
Ответ на: комментарий от anonymous

fb2 тот же XML одним файлом. И CHM тоже XML одним файлом. И список не исчерпывающий. Но нет же, нам нужно через голову трусы надеть и чтобы под штанами сразу оказались. Если вы умом тронулись, зачем насильно этот бред распространять?

https://yamadharma.github.io/ru/post/2023/12/05/preparing-documents-reading/

Не благодарите.

Проще говоря

Я не один десяток книг из сканов в разные форматы собрал. Потому, прекрасно знаю форматы книг. Я даже больше скажу, в PDF можно встроить видео и аудио, то есть, создавать детские книги. И интерактивность (диалог) можно добавить.

wonit
()
Ответ на: комментарий от wonit

fb2 тот же XML одним файлом.

И чем это лучше засовывания картинок в HTML? Почему в FB2 можно, а в HTML нельзя? :)

И CHM тоже XML одним файлом.

Да? Тогда почему его 7z распаковывает в пачку HTML и картинок? :)

question4 ★★★★★
() автор топика

Зачем книги, если есть ютуб?

ox55ff ★★★★★
()
Ответ на: комментарий от question4

Тот же XML, только с head и ограниченным набором тегов.

wonit
()

Если я правильно помню, то pdf это как postscript, только другой. То есть, произвольная векторная графика. В .svg её преобразовать можно, то reflowing это не даст. Т.е. топикстартовая задача вообще не решаемая в общем случае (ну, или может быть через распознавание текста тессерактом)

Shushundr ★★★★★
()
Ответ на: комментарий от Shushundr

Вообще-то через распознание текста и вручную устранением ошибок, либо через копирование текста, с последующей обработкой текста и картинок такие работы и выполняются. А полностью на автомате получается вагон ошибок.

wonit
()
Ответ на: комментарий от Shushundr

топикстартовая задача вообще не решаемая в общем случае

Да. Но частные случаи, когда получается приемлемый результат, довольно распространены.

question4 ★★★★★
() автор топика
Ответ на: комментарий от LamerOk

Кошелек не нужен, а мобила и ключи носятся в кармане.

tiinn ★★★★★
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.