LINUX.ORG.RU

Как заархивировать страницу из интернета? Firefox.

 , ,


1

3

Я читал на LOR'е и в википедии про mhtml, но видимо это всё уже давно не актуально. Плагинов о которых писали на википедии — я не нашёл, а статью на LOR'е не знаю как найти.

Что нужнос сейчас использовать для архивации (не обязательно firefox, можно и консоль, сторонние программы, утилиты)?

это всё уже давно не актуально

Чего вдруг? Ну есть ещё велосипедные мозилловский MAFF и сафаревский webarchive, но у MHTML с поддержкой куда получше. Можешь ещё с файлами сохранять, паковать в архив и монтировать при надобности fuse-zip'ом, или вообще не паковать и так и хранить, тебе не пофиг? :D

не обязательно firefox, можно и консоль

wget -rk. Но браузером надёжнее, он скрипты выполнит и сохранит конечный слепок DOM.

bodqhrohro_promo
()
Последнее исправление: bodqhrohro_promo (всего исправлений: 1)

Для архивации статичных страничек в PDF юзаю puppeteer, если тебе так сойдёт, то просто скопипасть:

index.js:

const argparser = require("command-line-args");
const puppeteer = require("puppeteer");

const args = argparser([
	{ name: "output", alias: "o", defaultValue: "output.pdf" },
	{ name: "format", alias: "f", defaultValue: "A4" },
	{ name: "url", defaultOption: true }
]);

puppeteer.launch().then(async browser => {
	const page = await browser.newPage();
	await page.goto(args.url);
	await page.pdf({
		path: args.output,
		format: args.format
	});

	await browser.close();
});

package.json:

{
  "name": "puppeteer-example",
  "version": "1.0.0",
  "main": "index.js",
  "author": "emperor",
  "license": "MIT",
  "dependencies": {
    "command-line-args": "^5.0.2",
    "puppeteer": "^1.4.0"
  },
  "scripts": {
    "start": "node index.js"
  }
}

WitcherGeralt ★★
()
Последнее исправление: WitcherGeralt (всего исправлений: 1)

Что нужнос сейчас использовать для архивации (не обязательно firefox, можно и консоль, сторонние программы, утилиты)?

Под андройдом фирефокс неплохо сохраняет страницы в виде pdf.

torvn77 ★★★★★
()
Ответ на: комментарий от th3m3

Надёжнее открыть LibreOffice, скопипастить туда нужный контент и экспортировать в PDF уже оттуда. Если сохранять прямо из Firefox'а, то местами контент может вылазить за поля страницы.

saahriktu ★★★★★
()
Ответ на: комментарий от Kuzz

Где-то там читал что оно сохраняет только html. Или я не правильно прочитал, страничка будет выглядеть так же как я её сохранил?

just_a_brake
() автор топика
Ответ на: комментарий от bodqhrohro_promo

Можешь ещё с файлами сохранять, паковать в архив и монтировать при надобности fuse-zip'ом, или вообще не паковать и так и хранить, тебе не пофиг? :D

Так хранить — долгое копирование после.

Архивирование — мышиная возня.

just_a_brake
() автор топика
Ответ на: комментарий от th3m3

Просто сохрани страницу в виде .pdf, да и всё.
print to pdf

Jopich1, не сохраняются изображения(в том что в FF), хотя я вообще не понял зачем этот пакет нужен.

just_a_brake
() автор топика
Ответ на: комментарий от saahriktu

Надёжнее открыть LibreOffice, скопипастить туда нужный контент и экспортировать в PDF уже оттуда. Если сохранять прямо из Firefox'а, то местами контент может вылазить за поля страницы.

Мышиная возня. Местами контент не сохраняется(изображения).

just_a_brake
() автор топика
Ответ на: комментарий от just_a_brake

css, скрипты и картинки встраивает. Это быстрее самому проверить на нужных сложных сайтах.

Kuzz ★★★
()
Ответ на: комментарий от just_a_brake

долгое копирование после

Чойта? Один файл и одна папка на страницу.

Архивирование — мышиная возня

Хто тебе виноват, что у тебя работа с архивами непрозрачная? :P Командеры вон сами долбят прозрачно, как папочки.

bodqhrohro_promo
()
Ответ на: комментарий от just_a_brake

Местами контент не сохраняется(изображения)

Если сайт обмазан скриптами и без скриптов показывает фигу, то скраулить его вообще задача нетривиальная.

bodqhrohro_promo
()
Ответ на: комментарий от just_a_brake

Кстати, хинтец: если сайт грузит ресурсы аяксом, то современные браузеры из соображений секурности не дадут ему работать по протоколу file:///, это надо специально включать. Ну или засёрвить чем-то мелким, типа nws или питоновского SimpleHTTPServer.

bodqhrohro_promo
()
Ответ на: комментарий от just_a_brake

да вроде нет, на машине.

я этакой хй не балуюсь и вытаскиваю его иконку с панели.
можете проверить.
пиали , вродекаг для этого его сиздали, для оффлайна.
просто если есть фффский акк, то да, под ним могут куда нить заслать.
тока на... зачем? если оно есть в сети? зачем идти на сервак если можно взять оригинал?

lzfour
()
Ответ на: комментарий от just_a_brake

На пеке хром нормально сохраняет, собственно puppeteer — обёрткк вокруг хромиуна. В хроме просто вызываешь печать и выбираешь сохранение в pdf. Мб фаерфокс тоже, я не пробовал.

WitcherGeralt ★★
()
Ответ на: комментарий от just_a_brake

Да, оно полностью рендерит страницу. Т.е. даже скрипты исполняет, причём это всё можно контролировать. Это офигенный многоцелевой инструмент.

WitcherGeralt ★★
()
Последнее исправление: WitcherGeralt (всего исправлений: 1)

Плагин для firefox ScrapBook.

rumgot ★★★★★
()
Ответ на: комментарий от just_a_brake

причем тут пакет - просто настраиваешь виртуальный принтер через cups который печатает в pdf файл и посылаешь файл на печать в этот файл.

Jopich1
()

Хром умеет сохранять в mht, если во флагах включить. Помню лет 10 назад престоопера лучше всего сохраняла страницы, только она умела сохранять фоновые изображения, прописанные в css.

anonymous
()
Ответ на: комментарий от anonymous

Если бы ты попробовал mht в хроме, то понял бы насколько он глючен на сложных сайтах.

По теме используй: Web ScrapBook. Save Page WE, SingleFile

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.