LINUX.ORG.RU

Как распарсить такой сайт?

 ,


0

1

Дано:
На сайте строчками информация. Все изначально подгружается хитрожопомегатонными скриптами, поэтому напрямую не вышло. Использую Phantom.JS

Но! Даже с ним не все парсится. Дело в том, что все что сильно ниже экрана как бы удаляется, и видно как оно появляется после прокрутки.

Как такое парсить?

★★★★★

Я слышал есть специальные дополнения для браузеров, которые позволяют внешним программа анализировать показываемое содержимое.

А ещё если у сайта есть упрощённая или мобильная версия, то стоит парсить её.

rezedent12 ☆☆☆
()
Ответ на: комментарий от crutch_master

Реверс скриптов

Хотел сначала. Насилил - слишком большой объем. Хотя один сайт так отреверсил, но там сильно проще было

Qwentor ★★★★★
() автор топика
Ответ на: комментарий от Qwentor

Есть какая-то херня на java, которая эмулирует браузер, скрипты, парсит dom, но ничего не рисует. Забыл как называется.

crutch_master ★★★★★
()
Ответ на: комментарий от Qwentor

Упрощеннной / мобильной версии нет

Попробуй зайти на сайт через linx

rezedent12 ☆☆☆
()

Посмотреть каким-нибудь фидлером запросы которые оно посылает при запросе нового контента.

Dred ★★★★★
()
Последнее исправление: Dred (всего исправлений: 1)

Почему нельзя просто открыть в браузере панель запросов, выцепить нужные и дёргать их напрямую?

Kilte ★★★★★
()
Ответ на: комментарий от Kilte

Не вижу запросов вообще. Смотрю через инструменты разработчика. Когда открыта страница идут запросы только на mc.yandex.ru (вроде так, ща не за компом), причём в теле ответа ничего ясного

Qwentor ★★★★★
() автор топика
Ответ на: комментарий от sholom

Нафига, если селениумом можно пробел жамкать.

Shadow ★★★★★
()
Ответ на: комментарий от Qwentor

магия в треде! фильтр типа запросов не забыл переключить случаем?

genryRar ★★
()
Ответ на: комментарий от Kilte

Да не может быть такого. Оно же их грузит откуда-то.

Там, наверное, websockets. Тогда только 1 upgrade запрос будет показываться.

ThrowOut
()
Ответ на: комментарий от ThrowOut

Там веб-приложение на Ангуляре, тонна кода. А эти websockets как-то отловить и сымитировать реально?

Qwentor ★★★★★
() автор топика
E L E C T R O N
L
E
C
T
R
O
N
anonymous
()
Ответ на: комментарий от Qwentor

найти обработчик принятых событий в коде и посмотреть, что он с этими бинарниками делает. наверняка декодирует. а там видно будет, что с этим делать дальше.

а дальше любой клиентской либо симулировать. только бери готовую, писать ее самому то еще удовольствие..

з.ы. хром имеет встроенное средство для отладки вебсокетов, возможно оно более функционально.

genryRar ★★
()
Ответ на: комментарий от anonymous

Да, оно) Спс, попробую хром

Qwentor ★★★★★
() автор топика

Очевидно прокручивать окно в фантоме. Да, он умеет.

anonymous
()
Ответ на: комментарий от genryRar

Так и пользовался, видно только от googleapi

А в Firefox их куча

Qwentor ★★★★★
() автор топика
Последнее исправление: Qwentor (всего исправлений: 1)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.