LINUX.ORG.RU

lynx, wget, etc.: проблема редиректа


0

1

Есть сайт газеты. На нем есть страница которая редиректит на epub свежего выпуска. Захотелось научить крон скачивать выпуск и закидывать его в дропбокс.

Проблема со скачиванием такая: wget скачивает epub, но дает ему имя перенаправляющей страницы. Переименовать файл автоматически нельзя: время обновления файла не нормировано, не известно, скачался ли новый выпуск или вчерашний.

Текущее решение тупое: lynx подхватывает куки, заходит на страницу и отрабатывает -cmd_script вида

key D
key Down Arrow
key ^J
key ^J
key q
key ^J

Так, конечно, работает. Недостаток ― опять же, вероятно перезаписывание уже имеющегося файла. Весит файл мало, но глупо так делать.

А как сделать по-умному? Может lynx может не скачивать файл, а только захватить его $имя, а потом уже wget > $имя ? Или как-то еще.

Заранее спасибо.


Вообще зависит от того, как это имя файла задано. Тут есть много вариантов, и от этого зависит возможное решение.

Например не подходит ли решение с grep’ом/перловым скриптом/етц по коду страницы для получения ссылки и имени файла?

ynn
()
Ответ на: комментарий от ynn

Я молодец. Сам написал «etc.», а Curl не попробовал. С опциями -JO он действительно работает. В отличие от lynx, curl, похоже, проверяет наличие такого же файла прежде чем его скачать. И крешится, обнаружив что потребуется перезапись. Можно считать ― то что надо.

Спасибо. Если не сложно, подскажите, а как выудить из curl файловое remote-name без скачивания? На будущее.

p201
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.