LINUX.ORG.RU

Googlebot регулярно запрашивает левые рандомные страницы с расширением html

 , , ,


1

1

Пару лет назад в каком-то треде на ЛОРе я уже описывал это явление, но тогда мне некоторые местные фашисты с банхаммером не поверили. Сейчас в логах опять увидел подобное:

66.249.67.88 - - [25/03/2015 18:39:20 +0200] "GET /vaeulqmzbg.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Натравив на старые логи gzip и grep получил список таких запросов в прошлом:
66.249.74.22 - - [14/04/2013 03:05:40 +0300] "GET /akbzufqscr.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.145 - - [01/05/2013 23:26:26 +0300] "GET /jxnffeprfjxg.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.76.124 - - [13/05/2013 20:11:12 +0300] "GET /givdvpljmxm.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.146 - - [20/05/2013 05:32:28 +0300] "GET /hevwwjjubzjrblfl.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.138 - - [27/05/2013 05:56:13 +0300] "GET /lpcdqwhcwcntxin.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.75.124 - - [03/06/2013 12:27:12 +0300] "GET /gfgkwutfcrxe.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.73.146 - - [11/06/2013 13:56:58 +0300] "GET /odpxyekhxtdltl.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.138 - - [18/06/2013 14:13:46 +0300] "GET /jchtfnhbtip.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.74.22 - - [25/06/2013 14:43:50 +0300] "GET /llntrpyj.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.138 - - [02/07/2013 14:58:43 +0300] "GET /gwbyuyoxhmbwyrod.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.138 - - [09/07/2013 15:21:40 +0300] "GET /ybxtmxmawgshva.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.74.22 - - [16/07/2013 18:42:44 +0300] "GET /bkbgttbjd.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.75.124 - - [23/07/2013 19:03:50 +0300] "GET /joxkfiqrlnaps.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.74.22 - - [31/07/2013 07:20:25 +0300] "GET /jmcsqaalfegzfrkx.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.138 - - [07/08/2013 19:40:03 +0300] "GET /boguihmvapsz.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.66.124 - - [28/09/2013 10:10:58 +0300] "GET /kmqvoopzgovtzw.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.66.124 - - [05/10/2013 19:52:45 +0300] "GET /ecwqzwzd.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.138 - - [12/10/2013 18:06:47 +0300] "GET /rtdkivjdeyeflyc.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.66.124 - - [19/10/2013 12:48:17 +0300] "GET /anlmfmpdskf.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.66.124 - - [26/10/2013 11:57:24 +0300] "GET /znjshlffyvgjixm.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.138 - - [02/11/2013 15:46:51 +0200] "GET /aompnptqylpnbcg.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.66.124 - - [09/11/2013 13:22:18 +0200] "GET /vbfosjdwp.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.138 - - [16/11/2013 14:23:56 +0200] "GET /qsukettctli.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.76.146 - - [23/11/2013 16:48:09 +0200] "GET /analqjapd.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.138 - - [30/11/2013 20:42:12 +0200] "GET /pwwkwrqgw.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.75.124 - - [07/12/2013 17:59:43 +0200] "GET /txvxxkrxfjdszqnh.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.66.124 - - [14/12/2013 17:30:38 +0200] "GET /mldtskfawc.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.65.7 - - [21/12/2013 13:46:06 +0200] "GET /rcyjnxmx.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.76.146 - - [25/01/2014 16:23:55 +0200] "GET /rjtaxbkupxyvhbez.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.66.124 - - [01/02/2014 11:54:41 +0200] "GET /iewwlnll.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.138 - - [08/03/2014 04:44:04 +0200] "GET /nzejredtphcb.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.76.146 - - [11/04/2014 23:19:04 +0300] "GET /cftyboqhfwwcrloe.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.64.235 - - [16/05/2014 10:12:08 +0300] "GET /rduhrzzbdwwii.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.188 - - [09/08/2014 22:34:40 +0300] "GET /plhjsljlhao.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.139 - - [17/08/2014 12:28:18 +0300] "GET /usbtytkia.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.153 - - [18/09/2014 05:04:42 +0300] "GET /kpgzuzhibjegxabb.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.139 - - [25/09/2014 09:46:05 +0300] "GET /rjxaencycatah.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.65.123 - - [23/10/2014 20:37:29 +0300] "GET /yrrzwkjnfhuaudcn.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.146 - - [30/10/2014 22:38:55 +0200] "GET /pfmhrstpho.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.64.163 - - [28/11/2014 09:01:26 +0200] "GET /bhqkoclrwufj.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.147 - - [05/12/2014 05:40:53 +0200] "GET /gnqfmjejc.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [13/02/2015 02:49:09 +0200] "GET /wmvtilsspcf.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.64.164 - - [19/03/2015 02:18:54 +0200] "GET /hlavklrbrbba.html HTTP/1.1" 404 320 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Whois говорит что диапазон 66.249.64.0 - 66.249.95.255 принадлежит гуглю. Очевидно что таких страниц которые он запрашивает не было и нет ни на сайте (у меня страницы вообще без расширения отдаются), ни в индексе. Зачем гуглобот запрашивает такие страницы? Не является ли это симптомом какой-то проблемы с моей стороны? Может это просто штатная борьба с динамически сгенерированным поисковым мусором и волноваться не о чём? Кто-то ещё сталкивался с таким?

Напиши им письмо в поддержку

vertexua ★★★★★
()

Ну, примерно таким способом гугл идентифицирует владельца сайта, например. Тебе дают .html файл с определенным содержимым, ты должен залить его в корень, потом бот проверяет содержимое этого файла. А по делу хз.

WiseAlex
()
Последнее исправление: WiseAlex (всего исправлений: 1)

это знак, ты должен создать эти страницы :)

инструкции для следующего этапа поступят при выполнении этого условия

Harald ★★★★★
()
Ответ на: комментарий от WiseAlex

Ну, примерно таким способом гугл идентифицирует владельца сайта, например. Тебе дают .html файл с определенным содержимым, ты должен залить его в корень, потом бот проверяет содержимое этого файла

Там для этого вроде нужно было просто засунуть метатег с ID в head главной страницы.

h578b1bde ★☆
() автор топика
Ответ на: комментарий от Harald

это знак, ты должен создать эти страницы :)

Да легко, mod_rewrite будет отдавать какие хочешь страницы.

h578b1bde ★☆
() автор топика

It does invent web page names with random characters, specifically to check what your server will respond with for a 404 (not found) type request.

ref1: http://ubuntuforums.org/archive/index.php/t-1724948.html
ref2: https://forums.digitalpoint.com/threads/googlebot-is-requesting-pages-that-do...

TL;DR: скорей всего проверка «на вшивость», т.е. на то что сервер настроен корректно и отдаёт 404 на несуществующие страницы. От куда, правада, ноги растут — не скажу. Может быть Webmaster Tools.

beastie ★★★★★
()
Последнее исправление: beastie (всего исправлений: 2)
Ответ на: комментарий от WiseAlex

Есть разные варианты)

Да, только что зарегистрировался в Webmaster Tools и увидел. Но в том случае имя файла имеет вид google*.html, т.е. хотя бы первые шесть символов осмыслены.

h578b1bde ★☆
() автор топика
Ответ на: комментарий от beastie

скорей всего проверка «на вшивость», т.е. на то что сервер настроен корректно и отдаёт 404 на несуществующие страницы

Тоже склоняюсь к этой версии, но смущает что в сети как-то мало информации по этому вопросу.

Может быть Webmaster Tools

Вряд-ли, я в нём только что зарегистрировался.

h578b1bde ★☆
() автор топика
Ответ на: комментарий от beastie

За ссылки спасибо, помнится тогда во время поисков тоже дошёл до подобного ответа и успокоился.

h578b1bde ★☆
() автор топика
Ответ на: комментарий от h578b1bde

Тоже склоняюсь к этой версии, но смущает что в сети как-то мало информации по этому вопросу.

Как оно работает — и так большая magic. ;) Так это они тебе и раскажут, держи карман шире! :D

У меня это, кстати, тоже есть:

66.249.64.112 - - [13/Feb/2015:20:31:09 +0100] "GET /wcywqevnhuq.html HTTP/1.1" 404 19 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.248 - - [26/Feb/2015:17:00:52 +0100] "GET /yuwcwgnvntkk.html HTTP/1.1" 404 256 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.67.108 - - [02/Mar/2015:20:06:52 +0100] "GET /qjnerfgymf.html HTTP/1.1" 404 247 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.1 - - [05/Mar/2015:13:27:08 +0100] "GET /ecozrxzggjukwndh.html HTTP/1.1" 404 247 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.79.100 - - [07/Mar/2015:20:31:45 +0100] "GET /iqocgbbbea.html HTTP/1.1" 404 247 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.248 - - [18/Mar/2015:02:50:00 +0100] "GET /aheyiqgyploilxjd.html HTTP/1.1" 404 247 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Т.ч., в самом деле, похоже на стандартную проверку. Бывает ведь, что 404 с 200 отдаётся — вот они и смотрят, можно ли этому верить.

beastie ★★★★★
()
Последнее исправление: beastie (всего исправлений: 3)
Ответ на: комментарий от beastie

У меня это, кстати, тоже есть

Спасибо, значит можно спать спокойно ☺

h578b1bde ★☆
() автор топика
Ответ на: комментарий от CYB3R

Дай линк на сайт. Сколько лет назад ты домен купил?

Анонимность же. Домен у меня с 2010 года, до этого он был свободным (это не слишком интересная региональная доменная зона, поэтому есть большая вероятность что свободным он был всегда). Как минимум, в интернетах следов его возможной прошлой жизни не обнаружено.

h578b1bde ★☆
() автор топика
Ответ на: комментарий от h578b1bde

А, ну тогда вряд ли это страницы предыдущего владельца домена. Просто у меня он регулярно старьё всякое запрашивает.

CYB3R ★★★★★
()
Последнее исправление: CYB3R (всего исправлений: 1)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.