LINUX.ORG.RU

Конвертация книжки из множества html в один архив

 , , , ,


0

2

Привет.

Есть такая книжка http://physiclib.ru/books/item/f00/s00/z0000026/

Еще я нашел djvu на флибусте, но там совсем нераспознаный вариант.

Хочу из упомянутой ссылки сделать один архив, типа MAFF, MHTML или подобный. pdf не желателен. Что-то я туплю. Плагин MAFF для Firefox сыплет ошибками при попытке конвертнуть скачанные страницы все вместе. Если по-обезьяньи, по одной ссылке руками сохранять, то не получается сделать один связный архив.

Короче, помогите. Спасибо!

Deleted

Последнее исправление: CYB3R (всего исправлений: 3)

Ответ на: комментарий от Deleted

https://lh6.ggpht.com/_lG58t3XWd3c/SwsfKwvvC0I/AAAAAAAAABo/dnQgVrEwinw/s800/c...
где-то там, скорее всего
очень давно ее пользовал

посмотри в сторону всяких меню Create/Convert/Import и в сторону плагинов
я помню оно делало из rss-лент книжки по расписанию, должно и с html справиться

но я не уверен (потому и "?")

anTaRes ★★★★
()

Можно попробовать вытащить всё с помощью wget и затем слить в одну html.

anonymous
()
Ответ на: комментарий от anonymous

Для слияния в одну HTML какие есть автоматические инструменты?

Калибри, с горем пополам, делает некий htmlz, зазипованный каталог со всеми страничками, ссылки в которых перестали работать. Уныло.

Руками переверстать осталось

Deleted
()

О, народ! Вот это лучшее: Sigil is a multi-platform EPUB ebook editor https://github.com/Sigil-Ebook/Sigil

А ведь знал про нее. Кодировки поправляем, конвертим в utf8 странички, потом загружаем все html в Sigil - и все шоколадно (ну почти, немного табличная верстка в шапке поехала почему-то)

Deleted
()
Последнее исправление: Deleted (всего исправлений: 1)

Открыл несколько случайных страниц. Есть причина MAFF, MHTML и другую экзотику использовать? Я к тому, что кроме картинок там ничего нет

А так. Берешь wget и качаешь

.../z0000026/st001.shtml
.../z0000026/st002.shtml
...
.../z0000026/st114.shtml

Приблизительно так

wget -nd -P book/$X -A jpeg,jpg,bmp,gif,png http://.../$X.shtml

Затем парсишь сам текст (HTML здесь в лоб распарсится). Можно использовать jQuery. Затем легко делать что захочешь, например собрать в один большой HTML, или просто вытащить все в plaintext

gopnik
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.