LINUX.ORG.RU

Выполнение ботом своих и общих правил в robots.txt

 , , ,


2

3

Например, есть такой robots.txt:

User-agent: SomeBot
Crawl-delay: 86400

User-agent: *
Disallow: /somepage

Будет ли для бота SomeBot действовать правило Disallow: /somepage, а если нет то как сделать чтобы оно действовало? Понять этот момент маны не помогли.

P.S. Почему-то проверялка от гугла выдаёт предупреждение что правило Crawl-delay: 86400 проигнорировано Googlebot, хотя он не в свою секцию по идее вообще не должен смотреть, или так и должно быть?

Т.е. суть в том чтобы ограничить количество запросов от одного наглого бота, при этом общие правила должны действовать и на него.

h578b1bde ★☆
() автор топика
Ответ на: комментарий от h578b1bde

ограничить количество запросов от одного наглого бота

есть мнение, что если бот действительно наглый, то клал он на твои robots.txt с пробором.

ищи другие методы. например, придумай как сделать так, чтобы сайт твой не загибался от полутора посетителей+бот ;)

aol ★★★★★
()
Ответ на: комментарий от aol

есть мнение, что если бот действительно наглый, то клал он на твои robots.txt с пробором.

Не, по отзывам этот бот не настолько наглый.

например, придумай как сделать так, чтобы сайт твой не загибался от полутора посетителей+бот ;)

Сайт работает нормально, просто логи смотреть неудобно.

h578b1bde ★☆
() автор топика
Ответ на: комментарий от aol

grep -v? нет, не слышал! ;)

У меня tail -F лог в реальном времени выводит, что-то с грепом костылять лень :) Тем более что тот бот таки наглеет.

h578b1bde ★☆
() автор топика
Ответ на: комментарий от aol

В общем у меня robots.txt динамически генерируется, так что проблему с дублированием правил я уже решил. Мешает лишь скудность информации по обработке этих правил и размытость/неоднозначность „стандартов”.

h578b1bde ★☆
() автор топика

Да, гуглебот походу не поддерживает Crawl-delay, поэтому их проверялка и матюгается, даже если это не его секция.

h578b1bde ★☆
() автор топика
Ответ на: комментарий от h578b1bde

У меня tail -F лог в реальном времени выводит, что-то с грепом костылять лень :)

Грепать tail никто не запрещал. Дописывай его через пайп с -v ключём как советовали выше и радуйся.

Тем более что тот бот таки наглеет.

А это уже вопрос посложнее. Если этот бот мешает то может его вырезать где-нибудь пониже веб-сервера (iptables, например). (извиняюсь если хрень сморозил. с ботами дел не имел никогда)

a0041
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.