Скормить содержимое пайпа как параметр

0

1

Пилю скриптец для сграбливания картинок из галереи сайта на MediaWiki. Копирую нужный кусок исходников галереи (там тупо имя с пробелами и расширением) в текстовик. Потом пропускаю через пайп, конвертируя текст в ссылку. Ссылки выходят из пайпа, только как их wget-у скормить? Или я вообще идиот и wget умеет из файла ссылки брать?

UPD: тьфу, я забыл, что оно по пути ещё веб-страницу отдаёт, а там уже прямые ссылки с кашей. Чем парсить HTML? Когда-то пробовал регулярками на sed и perl, вышло черезжопно. Для того же Perl в репах куча модулей для работы с HTML есть, какой для данной задачи лучше подходит?

Ссылка

←	А чего так все на php психуют?

Ядерная отладка

→

xargs

theNamelessOne ★★★★★
(13.05.14 16:20:00 MSK)

Ответ на: комментарий от theNamelessOne 13.05.14 16:20:00 MSK

Или wget -i-.

theNamelessOne ★★★★★
(13.05.14 16:31:35 MSK)

Или я вообще идиот и wget умеет из файла ссылки брать?

Вообще да, с помощью того же ключа -i.

theNamelessOne ★★★★★
(13.05.14 16:32:39 MSK)

Ссылка

wget `my_script`

Waterlaz ★★★★★
(13.05.14 16:39:08 MSK)

Ответ на: комментарий от theNamelessOne 13.05.14 16:31:35 MSK

Годится, спасибо. Ещё хочу диапазон входных строк задавать (типа limit в SQL), а то картинок дофига, я их в несколько заходов качать буду.

~~MiniRoboDancer~~ ★☆
(13.05.14 16:39:09 MSK) автор топика

Ответ на: комментарий от Waterlaz 13.05.14 16:39:08 MSK

Это обратные кавычки, которые на одной клавише с тильдой.

Waterlaz ★★★★★
(13.05.14 16:39:45 MSK)

Ответ на: комментарий от Waterlaz 13.05.14 16:39:45 MSK

Я похож на полного нуба?

//Ой, а ведь да.

~~MiniRoboDancer~~ ★☆
(13.05.14 16:41:17 MSK) автор топика

Ссылка

Ответ на: комментарий от Waterlaz 13.05.14 16:39:08 MSK

Или wget $(my_script).

theNamelessOne ★★★★★
(13.05.14 16:42:31 MSK)

Ссылка

Ответ на: комментарий от MiniRoboDancer 13.05.14 16:39:09 MSK

head, tail, awk, sed.

theNamelessOne ★★★★★
(13.05.14 16:44:22 MSK)

в bash можно wget $(command|sec_command|...)
А вообще wget умеет пайп

~~ubuntuawp~~ ★★
(13.05.14 16:46:22 MSK)

Ссылка

Ответ на: комментарий от theNamelessOne 13.05.14 16:44:22 MSK

split -l же

anonymous
(13.05.14 16:47:53 MSK)

Ссылка

парсить HTML регулярками

Сразу вспомнил эпичный тред на stackoverflow.

mtk ★
(13.05.14 17:24:16 MSK)

Ссылка

Пилю скриптец для сграбливания картинок из галереи сайта на MediaWiki. Копирую нужный кусок исходников галереи (там тупо имя с пробелами и расширением) в текстовик. Потом пропускаю через пайп, конвертируя текст в ссылку. Ссылки выходят из пайпа, только как их wget-у скормить?

ты текстовый файл распарси sed'ом, а потом уже получившийся список со ссылками скорми wget'у. Пайпы тут не нужны.

Чем парсить HTML?

если только ссылки выдрать — sed.

Если там сложная структура, то sed не очень удобен. В твоём случае специальный парсер нафиг не нужен.

emulek ★
(13.05.14 22:39:03 MSK)

Ответ на: комментарий от emulek 13.05.14 22:39:03 MSK

Парсер мне всё равно понадобится для более сложной штуки. Это как раз хорошая возможность его осилить и обкатать.

~~MiniRoboDancer~~ ★☆
(13.05.14 23:08:38 MSK) автор топика

Ответ на: комментарий от MiniRoboDancer 13.05.14 23:08:38 MSK

ну тогда возьми парсер. Какой? Откуда я знаю, что такое «сложная штука»?

emulek ★
(13.05.14 23:18:32 MSK)

Ссылка

lynx -image_links -dump -listonly -nonumbers $url >links.txt

anonymous
(14.05.14 00:58:53 MSK)

Ответ на: комментарий от anonymous 14.05.14 00:58:53 MSK

Как это мне поможет, если прямые ссылки только на отдельных страницах?

~~MiniRoboDancer~~ ★☆
(14.05.14 01:06:20 MSK) автор топика

Ответ на: комментарий от MiniRoboDancer 14.05.14 01:06:20 MSK

да, похоже никак

#!/bin/bash

function filterurl() {
  grep "blog/2013/05" |
  fgrep -vf "$1"
}
function filterimg() {
  grep "jpg$" |
  fgrep -vf "$1"
}

rm -f list.*
touch list.full list.img
echo "http://wikimedia.ru/blog/categories/releases/" >list.txt
while [ -f list.txt ]; do
  mv list.txt list.tmp
  cat list.tmp |
  while read url; do
    echo ">>>$url"
    echo "$url" >>list.full
    lynx -image_links -dump -listonly -nonumbers $url | sort -u >page.log
    cat page.log | filterurl list.full >>list.txt
    cat page.log | filterimg list.img | tee -a list.img
  done
done

anonymous
(14.05.14 01:32:34 MSK)

Ссылка

Ответ на: комментарий от MiniRoboDancer 14.05.14 01:06:20 MSK

lynx -image_links -dump -listonly -nonumbers 'http://wikimedia.ru/blog/categories/releases/' \
    | grep '/commons/thumb/' \
    | sed 's!thumb/!!;s!/[^/]*$!!' \
    | wget -i-

, не?

anonymous
(14.05.14 16:26:35 MSK)

Ссылка

21 августа 2014 г.

Может быть, поможет. Я библиотеку ИФРАН так тянул:

RAS="http://iph.ras.ru/elib/monogr.html"
wget $RAS -qO - | grep -o '\.\./uplfile/.*\.pdf' | wget -B $RAS -nc -i -

Затем переопределял $RAS и тянул другой раздел. Парсить урлы довольно удобно по grep -o.

~~Bagrov~~ ★★★★★
(21.08.14 22:22:10 MSK)

Ссылка

Если не хочешь уходить из bash в perl, посмотри xmlstarlet.

ABW ★★★★★
(22.08.14 12:19:03 MSK)

Ответ на: комментарий от ABW 22.08.14 12:19:03 MSK

Он же только для XHTML подходит.

~~MiniRoboDancer~~ ★☆
(22.08.14 15:28:04 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	А чего так все на php психуют?

Development

Ядерная отладка

→

Похожие темы