скрипт для скачивания robots.txt

0

1

подскажите пожалуйста скрипт для решения такой задачи: есть файл со списком адресов сайтов, каждый сайт с новой строки, адрес начинается с http:// Нужно скачать файл robots.txt у каждого сайта, и сохранить с именем домена, например: mysiteru.txt (содержит robots.txt сайта mysite,ru), mysitecomua.txt (mysite.com.ua), subdomainmysitenet.txt (subdomain.mysite.net).

Ссылка

←	Посоветуйте хостинг/ретранслятор для интернет радио

eeecontrol под Ubuntu 10.04

→

1000$ & 24hours

anonymous
(08.10.10 00:04:36 MSD)

Ответ на: комментарий от anonymous 08.10.10 00:04:36 MSD

ну не всем же быть кодерами

h0lder
(08.10.10 00:08:01 MSD) автор топика

man bash

man wget

~~fool_anon~~ ☆
(08.10.10 00:16:02 MSD)

Ссылка

Ответ на: комментарий от h0lder 08.10.10 00:08:01 MSD

cat /home/%user%/sites.txt | while read some; do wget $some/robots.txt && mv robots.txt $some.txt done

где sites.txt - файл со списком адресов сайтов, http://www. желательно затереть в текстовом редакторе через заменить на «»

что-то вроде этого (:

Dhoine
(08.10.10 00:17:08 MSD)

Ответ на: комментарий от Dhoine 08.10.10 00:17:08 MSD

> ~~http://www.~~ желательно затереть в текстовом редакторе через заменить на «»
sed s#^~~http://www.~~##

wget $some/robots.txt && mv robots.txt $some.txt

wget -O $some.txt $some/robots.txt

AITap ★★★★★
(08.10.10 00:21:07 MSD)

Ответ на: комментарий от AITap 08.10.10 00:21:07 MSD

Не совсем вас понял... В общем завтра доберусь до Линуксовой машины и попробую. Спасибо.

h0lder
(08.10.10 00:34:31 MSD) автор топика

Ответ на: комментарий от h0lder 08.10.10 00:34:31 MSD

пробовал так

cat /home/myuser/Desktop/robotstxt/sites.txt | while read some; do wget $some/robots.txt && mv robots.txt $some.txt

и так

cat /home/myuser/Desktop/robotstxt/sites.txt | while read some; do wget -O $some.txt $some/robots.txt

Не работает. Так же пробовал приписать к доменам "~~http://www~~".

В чем может быть ошибка?

h0lder
(08.10.10 14:38:07 MSD) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Посоветуйте хостинг/ретранслятор для интернет радио

General

eeecontrol под Ubuntu 10.04

→

Похожие темы