Как парсить динамические страницы

1

1

Сейчас в инете полно динамических страниц ( т е часть страницы рисуется на клиенте ). Как их парсить всякими скритпами ? Всякие wget, curl вроде бы это не умеют, а вот гугл например ( судя по результатам поиска ) вполне с этим справляется. Есть ли готовые opensource решения ?

Ссылка

← Универсальная программа создания мультизагрузочных дисков существует?

rosa общие папки →

selenium

lmrazor
(25.10.14 13:30:46 MSK)

Ссылка

а что ты хочешь парсить? может имеет смысл вручную глянуть какие json запросы делает динамическая страница и их прям curl-у и скормить, при этом и парсить практически ничего не придется

Goganchic ★★
(25.10.14 22:45:19 MSK)

Ответ на: комментарий от Goganchic 25.10.14 22:45:19 MSK

какие json запросы делает динамическая страница

Наверное, прежде чем перехватить запросы, надо наверное на чем то выполнить сначала? И не JSON (это формат данных), а AJAX-запросы.

По сабжу: слышал про pantom.js, он хорошь тем, что можно без гуя. (сам не юзал, детали не знаю)

~~terminator-101~~
(26.10.14 10:48:47 MSK)

Ответ на: комментарий от terminator-101 26.10.14 10:48:47 MSK

phantom.js

//fixed

~~terminator-101~~
(26.10.14 10:50:09 MSK)

Ссылка

Ответ на: комментарий от Goganchic 25.10.14 22:45:19 MSK

при этом и парсить практически ничего не придется

И, да, чо ты гонишь, парсить то надо ответы от сервера, а не запросы клиента, если уж на то пошло.

~~terminator-101~~
(26.10.14 10:53:38 MSK)

Ответ на: комментарий от terminator-101 26.10.14 10:48:47 MSK

json запросы = любые запросы которые возвращают json, ajax - это несколько иное понятие, ajax - это когда делается запрос без перезагрузки страницы целиком, в ajax может приходить хоть json, хоть xml, хоть кусок готового html

Когда я говорил про json запросы - имел ввиду что большинство современных сайтов загружают пустую страницу + набор js-ок а с сервером общаются с помощью json сообщений и да, json может быть как в запросе так и в ответе. И когда делается парсинг современных сайтов то вполне возможно, что если сайты будут заранее известны, то намного лучше с точки зрения производительности - посмотреть какие запросы делает сайт и делать эти запросы без какого либо headless браузера, типа phantom.js

Goganchic ★★
(26.10.14 12:15:52 MSK)

Ссылка

Ответ на: комментарий от terminator-101 26.10.14 10:53:38 MSK

продолжай, мне очень важно твое мнение

как ты будешь парсить ответы, если ты не знаешь какие запросы сделать? чтобы знать какие запросы сделать - нужно посмотреть именно эти самые запросы, и да, после того как ты разобрался как и какие запросы делает single page приложение - можно и ответы парсить

Goganchic ★★
(26.10.14 12:18:25 MSK)

динамически?

anonymous
(26.10.14 12:23:44 MSK)

Ссылка

Ответ на: комментарий от Goganchic 26.10.14 12:18:25 MSK

Не надо так нервничать

~~terminator-101~~
(26.10.14 12:30:45 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Универсальная программа создания мультизагрузочных дисков существует?

General

rosa общие папки →

Похожие темы