LINUX.ORG.RU

tobrazo

как настроить свой сервер чтобы wget -r мог вытащить только index

OS - debian

Убрать из index все ссылки на другие страницы?

april
()

Делай ссылки яваскритом, но не обижайся потом, что автора твоего сайта будут называть последними словами.

staseg ★★★★★
()

man robots.txt

Естественно, в wget'е есть ключик, чтобы эти самые robots.txt игнорировать.

red_eyed_peguin
()

как уже посоветовали выше - можешь генерировать ссылки яваскриптом на клиентской машине. Правда такие люди должны гореть в аду. Если не хочешь несанкционированного доступа к контенту - лучше прикрути авторизацию или ограничь количество запросов с одного IP в единицу времени

Pinkbyte ★★★★★
()
Ответ на: комментарий от Pinkbyte

как уже посоветовали выше - можешь генерировать ссылки яваскриптом на клиентской машине.

а такие ссылки можно забирать с помощью HtmlUnit/PhantomJS/..etc.
Правда, конечно, не так просто, как wget'ом (хотя и не особо сложно).

kovrik ★★★★★
()
Ответ на: комментарий от kovrik

чувак попросил заблокировать именно wget :-)
То, что это не панацея(как и предложенное мной ограничение кол-ва запросов с одного IP) - ежу понятно.

Pinkbyte ★★★★★
()

Сделать морду в виде жаба- или флеш- апплета

af5 ★★★★★
()

Точно также как запретить поисковикам индексировать сайт:

$ cat >$SITE_ROOT/robots.txt <<END
User-agent: google
User-agent: Wget
Disallow: /
END
kim-roader ★★
()

А никак. Только закрутить ссылки на жабаскрипт, но тогда «открыть в новой/фоновой вкладке» не будет работать как надо, тебя и твоих ближайших родственников будут вспоминать не самыми лучшими словами. Да и вообще, зачем это?

IPR ★★★★★
()
<location /var/www/my_personal_website/public_html/>
SetEnvIf User-Agent "^wget" badUA

Order Allow,Deny
Allow from all
Deny from env=badUA
</location>

Как то так, но все равно обойти можно.

sugresmax
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.