LINUX.ORG.RU

Парсинг сайта

 


1

2

Здравствуйте! Может кто нибудь помочь запретить парсинг с вредоносного сайта redo.me.uk/8nigb/mysite.ru , где mysite.ru - мой сайт. Пробовал блокировать по домену и по IP. После блокировки по домену, не показываются картинки и не выполняются некоторые js скрипты, но главное текст остался и ссылки работают, что может вызвать дублирование контента в яндексе. Вредоносный сайт есть в яндексе ТИЦ 20. В поиске обнаружил что сайт создает кучу клонов сайтов во всем мире, на его главной странице можно создать клон любого сайта, работает по принципу анонимайзера, но с сохранением работающей автоматической копии любого сайта. Раньше он стремительно взлетал по позициям в Японии, может там нашли какой то способ борьбы с ним, сейчас похоже принялся за Россию, из анализа сайта основной трафик сейчас идет из России из органического поиска. В поиске обнаружил что он даже каким то образом встраивает свои ссылки на некоторые картинки чужих сайтов, при этом в адресной строке стоит адрес не клона, а картинки индексируются ПС. Кто нибудь может подсказать что можно еще сделать на nginx для полного запрета парсинга.


Попробуй определить IP с которых парсят и подсовывать им вместо актуального сайта какой-нибудь мусор или что похуже.

anonymous_incognito ★★★★★
()

Кто нибудь может подсказать что можно еще сделать [..]

Не париться, ибо Вы откровенной фигнёй страдете.

beastie ★★★★★
()
Ответ на: комментарий от beastie

Не париться, ибо Вы откровенной фигнёй страдете.

Каждый конечно сам выбирает степень безопасности своего ресурса, если ваш ресурс не имеет конкурентов, то можно и не париться. Если на сайте нет защиты, этот парсер может быть миной замедленного действия, неплохим средством для конкурентов, страницы парсера с вашим контентом сохраняются в веб архиве, в кэше поиска (можно и самому накидать ссылок для быстрой индексации ПС) и ваш сайт станет клоном парсера. Если вы заранее не вносите свой уникальный контент в вебмастере яндекса (где также не гарантируется ваше авторство), а в гугле вообще отменили подверждение авторства, то ваш сайт может вообще выпасть из индекса. На одном из чужих сайтов клонов обнаружил ссылки с размещенных на нем фото на парсер, но не на всех фото, думаю что владелец сайта не указал url и alt на этих фото, теперь ПС считает их авторскими фото парсера и они находятся в индексе ПС. Почитал зарубежные статьи о данном парсере - он уже повлиял на позиции многих зарубежных сайтов - дублированием контента, в поиске есть и выводы seo специалиста из России - о выпадении страниц вверенного ему сайта для продвижения, в результате выпадения страниц дублированием контента этим парсером. Отрицательные действия сразу конечно не заметишь, может выявиться через пол года - год. Ради интереса попробовал поклонировать несколько сайтов, но уже на 4-й сайт не смог - стоит защита - первоначально создается зловредный код без хвоста сайта клона, но при переходе по внутренним ссылкам сайта отображается родной адрес сайта, на данном форуме тоже нет защиты - клонируется свободно. Блокировка по IP думаю не поможет, не заблокируешь ведь свой сайт. Здесь скорее всего нужно прописать редирект своего домена со всех чужих доменов. Может кто нибудь правильно составить код?

rodio
() автор топика

По большому счёту тут три варианта: наплевать, юридический и технический. Если наплевать не получается, юридический никак не проходит, например клонер на абузоустойчивом хостинге, а ресурсов судиться нет. То остаётся пробовать технический.

Как я уже говорил, можно попробовать выбранным IP, про которые точно уверен, что это IP ботов, скармливать им что-то индивидуальное. Что именно зависит от извращенности фантазии, единственное, что-то совсем незаконное, лучше не надо.

anonymous_incognito ★★★★★
()

Ты написал какую-то чушь.

Прописывай полные пути для всех ресурсов на твоем сайте, прописывай http://htmlbook.ru/html/base прописывай в XML карте сайта lastmod, сделай защиту от встраивания в ифрейм и не парь себе мозг, он и так у тебя уже закипел.

deep-purple ★★★★★
()
Ответ на: комментарий от anonymous_incognito

Я думаю что IP ботов определить нельзя, потому что их просто нет, в логах только отображаются IP пользователей перешедших по ссылкам парсера. Блокировка по IP ресурса тоже ничего не дает, мне наполовину помогла только блокировка по домену. Трансляция идет с вашего сайта непостоянно, а только когда пользователь переходит по ссылкам парсера, при этом он меняет все ваши ссылки на свои, создавая свои страницы с хвостом адреса страниц клонируемого сайта и эти страницы можно загнать в индекс ПС. Я думаю что парсер не имеет своего дискового пространства для хранения и трансляции клонов (можно сделать сколько угодно клонов). Но еше раз повторяюсь что защита от этого парсера и от других подобных есть, так эксперементируя, я не смог создать клона для одного из сайтов, сам первоначальный клон главной страницы этого сайта site.ru создается - вставив в адресную строку первоначально отображается сайт типа redo.me.uk/wt2he, затем при переходе по внутренним страницам сайта отображается нормальный адрес site.ru/stranica , а создавая клона сайта без защиты, при переходе по внутренним страницам сайта отображаются все страницы с видом redo.me.uk/wt2he/site.ru/stranica, которые и представляют главную опасность дублирования, так как они уже являются страницами парсера. Здесь скорее всего нужно прописать редирект своего домена со всех чужих доменов. Может кто нибудь правильно написать код для nginx и куда его лучше вставить?

rodio
() автор топика
Ответ на: комментарий от deep-purple

У меня правильно прописаны все пути, к примеру вот клон данного форума http://redo.me.uk/rt2he/www.linux.org.ru/forum/ любую страницу которого можно загнать в индекс от сайта парсера, но сайты с защитой не сможешь отобразить. Что здесь непонятного?

rodio
() автор топика
Ответ на: комментарий от rodio

Я думаю что IP ботов определить нельзя, потому что их просто нет, в логах только отображаются IP пользователей перешедших по ссылкам парсера.

Если нет IP ботов, то как парсер получает данные с сайта?

Дальнейшие рассуждения, я как-то не очень понял даже. Разумеется, можно затруднить построение правильного клона сайта известными программами такого рода.

Здесь скорее всего нужно прописать редирект своего домена со всех чужих доменов. Может кто нибудь правильно написать код для nginx и куда его лучше вставить?

Можно запретить переход без реферала и без кукисов. Только это всё обходится при желании, а с другой стороны, парсинг гуглом нужен или нет? А то и он тоже не сможет проиндексировать сайт.

anonymous_incognito ★★★★★
()
Ответ на: комментарий от anonymous_incognito

Если вам интересно вы можете сами создать клон своего какого нибудь заброшенного сайта не представляющего ценности и посмотреть логи. Я думаю что может быть он скрывает свой ip и меняет на ip пользователя, не знаю. Хочу сказать что мне попался сайт с защитой и он не клонируется, в индексе и в гугл и в яндекс на хороших позициях, он как то сумел поставить защиту, я думаю что не только от этого сайта. Попробовал зайти на этот сайт с нескольких анонимайзеров отдает Forbidden. Я хотел бы поставить тоже такую защиту.

rodio
() автор топика
Ответ на: комментарий от anonymous_incognito

Не хочу делать рекламу сайту с защитой, если хотите могу выслать вам его адрес в личку.

rodio
() автор топика
Ответ на: комментарий от rodio

Для начала советую изучить содержимое файла robots.txt с этого сайта с защитой.

Я думаю что может быть он скрывает свой ip и меняет на ip пользователя, не знаю.

Что-то я с трудом представляю как это можно сделать, разве что через js на стороне клиента, но это будет слишком заметно и не надёжно. Скорее всего, просто маскирует User-Agent под какой-нибудь популярный браузер. А в логах какой-то IP должен засветиться как прошедший по всем страничкам. Хотя теоретически это может быть вообще распределённый ботнет, тогда действительно почти бесполезно искать.

Попробовал зайти на этот сайт с нескольких анонимайзеров отдает Forbidden. Я хотел бы поставить тоже такую защиту.

Сами составили или взяли где-то списки анонимайзеров и т.п. Или как вариант заблокировали аномальную активность с определённых адресов (если с анонимайзера много пользователей заходит так и будет)

anonymous_incognito ★★★★★
()
Последнее исправление: anonymous_incognito (всего исправлений: 2)
Ответ на: комментарий от anonymous_incognito

Спасибо за совет, я об этом и забыл. robots.txt открыл, но он не представляет особой ценности - запреты на индексацию системных папок и файлов, а вот его .htaccess - это отличный объект для изучения и экспериментов, много правил и запретов целых стран по ip и многое другое. Хорошо что он не закрыл к нему доступ.

rodio
() автор топика
Ответ на: комментарий от rodio

Ничего он не скрывает. Лезет с адреса 91.208.99.2 на саму страницу, а всю статику пользователь подтягивает напрямую. По IP блокируется элементарно.

Похоже это не творение злого гения, а давно заброшенный pet project начинающего погромиста

NeOlip ★★
()
Ответ на: комментарий от NeOlip

Большое спасибо за IP заблокировал без проблем. Не разобрался толком в логах, в Notepad++ не очень удобно их читать, не подскажете есть какая нибудь удобная бесплатная программа для чтения логов без установки на сервер. Я блокировал не те IP whois ns1.gridhost.co.uk 95.142.155.4 ns2.gridhost.co.uk 185.52.27.27 IP 185.119.173.69 Хост: 185.119.173.69

rodio
() автор топика
Ответ на: комментарий от rodio

Не разобрался толком в логах, в Notepad++ не очень удобно их читать, не подскажете есть какая нибудь удобная бесплатная программа для чтения логов без установки на сервер.

Я использую в основном tail, grep, less. В сортах говна софте под windows не разбираюсь.

NeOlip ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.