LINUX.ORG.RU

скрипт для скачивания robots.txt


0

1

подскажите пожалуйста скрипт для решения такой задачи: есть файл со списком адресов сайтов, каждый сайт с новой строки, адрес начинается с http:// Нужно скачать файл robots.txt у каждого сайта, и сохранить с именем домена, например: mysiteru.txt (содержит robots.txt сайта mysite,ru), mysitecomua.txt (mysite.com.ua), subdomainmysitenet.txt (subdomain.mysite.net).

Ответ на: комментарий от h0lder
cat /home/%user%/sites.txt | while read some; do wget $some/robots.txt && mv robots.txt $some.txt done

где sites.txt - файл со списком адресов сайтов, http://www. желательно затереть в текстовом редакторе через заменить на «»

что-то вроде этого (:

Dhoine ()
Ответ на: комментарий от Dhoine

> http://www. желательно затереть в текстовом редакторе через заменить на «»
sed s#^http://www.##

wget $some/robots.txt && mv robots.txt $some.txt

wget -O $some.txt $some/robots.txt

AITap ★★★★★ ()
Ответ на: комментарий от AITap

Не совсем вас понял... В общем завтра доберусь до Линуксовой машины и попробую. Спасибо.

h0lder ()
Ответ на: комментарий от h0lder

пробовал так

cat /home/myuser/Desktop/robotstxt/sites.txt | while read some; do wget $some/robots.txt && mv robots.txt $some.txt

и так

cat /home/myuser/Desktop/robotstxt/sites.txt | while read some; do wget -O $some.txt $some/robots.txt

Не работает. Так же пробовал приписать к доменам "http://www".

В чем может быть ошибка?

h0lder ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.