Мониторинг изменений на сайтах с помощью поисковых систем.

0

1

навеяно этой Почему блокируется краулер? темой. Многим нужен мониторинг отдельных страниц avito да и других сайтов, постоянно сталкиваюсь с этим. А если такой способ вообще без обращения к сайту?

Вкратце звучит так: получаем кэш гугла и записывается контент куда нибудь в переменную потом периодически сравниваем то что у нас уже есть и то что в кэше если не изменилось то ничего не делаем, а вот если изменилось то вычисляем что изменилось на нужных нам страницах. Такие сайты как авито индексируются довольно часто и задержка будет небольшой. Будет работать такой способ как думаете? Главное что не надо обращаться непосредственно к сайту с его защитой. Гугл тоже вроде не будет против это ведь не SERP а кэш

Ссылка

← USB LTE модем с отдельным питанием от БП пашет в компе, а в роутере нет.

Игры и температура процессора →

Можно ещё archive.org использовать.

mydibyje ★★★★
(05.02.21 02:02:03 MSK)

Ответ на: комментарий от mydibyje 05.02.21 02:02:03 MSK

он редко что то архивирует, ну не так часто как google.

и потом внутренние страницы он вообще редко архивирует и там часть контента может пропасть.

~~XoFfiCEr~~ ★★☆☆
(05.02.21 02:03:42 MSK) автор топика
Последнее исправление: XoFfiCEr 05.02.21 02:07:42 MSK (всего исправлений: 1)

Думаю ПС введет ограничительные меры еще быстрее avito (капча, например). Тут или делать нормальный эмулятор действий пользователя/поискового робота и не наглеть с запросами к торговой площадке или воспользоваться сервисом предоставляющим готовое API (https://rest-app.net/api, если не для какой-то фигни описанное в ОП, то 3000 руб./месяц - это недорого).

~~Stack77~~
(05.02.21 04:35:07 MSK)

Ответ на: комментарий от Stack77 05.02.21 04:35:07 MSK

ну пока скрипт на python при коннекте выдает 200 ok не знаю сколько это будет продолжаться, но ведь так и парсить можно спокойно. А 3k рублей в месяц дороговато как то.

~~XoFfiCEr~~ ★★☆☆
(05.02.21 04:37:08 MSK) автор топика
Последнее исправление: XoFfiCEr 05.02.21 04:39:29 MSK (всего исправлений: 1)

Ответ на: комментарий от XoFfiCEr 05.02.21 04:37:08 MSK

ну пока скрипт на python при коннекте выдает 200 ok

Не факт (наверное), что с капчей обязан вернуться код отличный от 200

А 3k рублей в месяц дороговато как то.

Как посмотреть, от цели зависит. Магазины поболее 3к в сутки тратят за размещение объявлений на подобных площадках.

~~Stack77~~
(05.02.21 05:01:41 MSK)

Ответ на: комментарий от Stack77 05.02.21 05:01:41 MSK

да нет контент он тоже вернул но там что то с кодировкой. И вообще кэш это статика.

~~XoFfiCEr~~ ★★☆☆
(05.02.21 05:15:43 MSK) автор топика
Последнее исправление: XoFfiCEr 05.02.21 05:16:09 MSK (всего исправлений: 1)

Ответ на: комментарий от XoFfiCEr 05.02.21 02:03:42 MSK

Там вроде можно вручную отправлять адреса для архивации. Также есть кэш яндекса, на русскоязычных сайтах выручал, когда у гугла не находилось кэша.

mydibyje ★★★★
(05.02.21 08:39:16 MSK)

Ссылка

Сам я такие задачи питоном решаю, а когда вешают защиту от ддоса, то добавляю вебдрайвер. Например так сделал автоскачивание сериалов с лоста.

А если такой способ вообще без обращения к сайту?

Да, если у ты админ данного сервера или у тебя есть доступ к БД.

Lordwind ★★★★★
(05.02.21 10:47:29 MSK)

Ответ на: комментарий от XoFfiCEr 05.02.21 05:15:43 MSK

И вообще кэш это статика.

Никто и не спорит :)

да нет контент он тоже вернул но там что то с кодировкой

Там, наверное, не с кодировкой проблема, а парсер не разбирает нормально код. Гугл не очень валидную «шапку» вставляет. Нужно код до !DOCTYPE вырезать, потом с DOM работать.

Просто, сам факт того, что рано или поздно появится каптча или иная защита - обязывает обрабатывать подобные ситуации, соответственно автоматизировать на 100% процесс не получится.

To @mydibyje

Можно ещё archive.org использовать.

У них, кстати, даже API есть. Но, скорость кэширования вряд ли устроит.

Там вроде можно вручную отправлять адреса для архивации

Может спасет, хотя как-то геморройно это всё.

Как бы основная цель сбора подобных данных - извлечение прибыли (своя база/торговая площадка/etc), какой тогда смысл изобретать велосипед с постоянно спадающей цепью, если можно заплатить 3к в месяц и пользоваться нормальным API. А если прибыль от затеи даже это не покрывает, на фига тогда такой проект нужен?!

~~Stack77~~
(05.02.21 14:18:14 MSK)

Ответ на: комментарий от Lordwind 05.02.21 10:47:29 MSK

Обойдемся без админ. прав и без доступа к БД не впервой

~~XoFfiCEr~~ ★★☆☆
(05.02.21 14:48:59 MSK) автор топика

Ответ на: комментарий от XoFfiCEr 05.02.21 14:48:59 MSK

Я не понял, ты хочешь получить данные, не имея вообще доступа? Тогда только libastral.

Lordwind ★★★★★
(05.02.21 14:51:43 MSK)

Ответ на: комментарий от Stack77 05.02.21 14:18:14 MSK

какой парсер? там просто file_get_contents и все, а что я могу к этому добавить? На php перешел. А до doctype и нет ничего.

~~XoFfiCEr~~ ★★☆☆
(05.02.21 14:52:53 MSK) автор топика
Последнее исправление: XoFfiCEr 05.02.21 15:06:47 MSK (всего исправлений: 1)

Ответ на: комментарий от Lordwind 05.02.21 14:51:43 MSK

так я не пытаюсь подключиться к базе данных, просто скриптик 3-4 раза в сутки будет запускаться с помощью cron и проверять изменилась ли страница в кэше, если изменилась то какие изменения.

~~XoFfiCEr~~ ★★☆☆
(05.02.21 14:55:22 MSK) автор топика
Последнее исправление: XoFfiCEr 05.02.21 14:55:58 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Stack77 05.02.21 14:18:14 MSK

если можно заплатить 3к в месяц и пользоваться нормальным API

Плюсану, даже если это для себя и дорого, можно найти кому оно ещё нужно и скинуться.

ddidwyll ★★★★
(05.02.21 14:55:56 MSK)

Ответ на: комментарий от XoFfiCEr 05.02.21 14:52:53 MSK

там просто file_get_contents и все, а что я могу к этому добавить?

libastral говорит, что ты не передаешь заголовки, а дядя Вася за тебя их передавать тоже не хочет.

<?php
    $url = "https://webcache.googleusercontent.com/search?q=cache:avito.ru";

    $options = array(
        "http"=>array(
            "header"=>"User-Agent: Mozilla/5.0 (Linux x86_64; rv:85.0) Gecko/20100101 Firefox/85.0\r\n"
        )
    );

    $result = file_get_contents($url, false, stream_context_create($options));
    echo $result;

А до doctype и нет ничего.

Есть.

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><base href="https://www.avito.ru/rossiya"><style>body{margin-left:0;margin-right:0;margin-top:0}#bN015htcoyT__google-cache-hdr{background:#f8f9fa;font:13px arial,sans-serif;text-align:left;color:#202124;border:0; .....

<!DOCTYPE html>

~~Stack77~~
(05.02.21 15:56:38 MSK)
Последнее исправление: Stack77 05.02.21 16:05:07 MSK (всего исправлений: 2)

Ответ на: комментарий от Stack77 05.02.21 15:56:38 MSK

да пока не передавал я же только пробую.

Зы я в view-code смотрел.

~~XoFfiCEr~~ ★★☆☆
(05.02.21 16:17:19 MSK) автор топика
Последнее исправление: XoFfiCEr 05.02.21 16:17:53 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от ddidwyll 05.02.21 14:55:56 MSK

на практике это нереально: кто то обязательно забудет заплатить или откажется от дальнейшего участия. В результате придется тянуть самому. И не очень предсказуемо как отнесется к запросам с разных ip-адресов но с одного токена этот самый https://rest-app.net/api

~~XoFfiCEr~~ ★★☆☆
(06.02.21 04:10:30 MSK) автор топика

Ссылка

Ответ на: комментарий от Stack77 05.02.21 15:56:38 MSK

В твоем коде какая то ошибка, не работает. Ну вообщем сделал файл checker.php это чисто по avito по главной странице настроил cron чтоб он запускал этот файлик каждые 6 часов. Завершено с кодом 255 это все ок?

~~XoFfiCEr~~ ★★☆☆
(07.02.21 03:32:21 MSK) автор топика

Ответ на: комментарий от XoFfiCEr 07.02.21 03:32:21 MSK

В твоем коде какая то ошибка, не работает.

Х.з. что у тебя не работает. С кодом все хорошо.

Писал бы на питоне, раз все равно локально CRON’ом запускаешь. Зачем тебе php, который ко всему ты плохо знаешь? Тебе же данные вытащить, разобрать и в локальную базу записать - питон в твоем случае лучше. А уже с готовыми записями в БД, можно и на php работать, если web-бэк нужен.

Завершено с кодом 255 это все ок?

Явно нет. Путь к файлу неверный в CRON или со скриптом что-то.

~~Stack77~~
(07.02.21 16:09:42 MSK)

Ответ на: комментарий от Stack77 07.02.21 16:09:42 MSK

ну я не буду запускать каждый раз вручную python скрипт ибо у бегета только python 2. что то такое получилось в результате после обработки

https://xofficer.ru/services/monitoring-content-changes/

~~XoFfiCEr~~ ★★☆☆
(07.02.21 16:20:18 MSK) автор топика
Последнее исправление: XoFfiCEr 07.02.21 16:21:16 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Stack77 07.02.21 16:09:42 MSK

да, странное что то (фрагмент):

$arr = explode('и введите запрос в поле поиска.', $rcnt);    //разделение
$gcon = $arr[0];        //это та гугловская вставка сверху google content
$pcon = $arr[1];        //это сам контент страницы
$data_md5 = md5($pcon);
echo $data_md5;             //добавлял эту строку в процессе отладки если убрать эту строку скрипт почему то вообще не работает хз что

~~XoFfiCEr~~ ★★☆☆
(08.02.21 01:37:05 MSK) автор топика
Последнее исправление: XoFfiCEr 08.02.21 01:54:45 MSK (всего исправлений: 3)

Ссылка

Ответ на: комментарий от Stack77 07.02.21 16:09:42 MSK

короче полный облом получился Stack77 google оказывается не кэширует по глубине каталогов. Только один каталог и все типа avito.ru/saratov например вот это да! То что дальше ничего не кэшируется.

~~XoFfiCEr~~ ★★☆☆
(11.02.21 01:16:12 MSK) автор топика
Последнее исправление: XoFfiCEr 11.02.21 01:31:40 MSK (всего исправлений: 2)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← USB LTE модем с отдельным питанием от БП пашет в компе, а в роутере нет.

Talks

Игры и температура процессора →

Похожие темы