LINUX.ORG.RU

Как парсить динамические страницы


1

1

Сейчас в инете полно динамических страниц ( т е часть страницы рисуется на клиенте ). Как их парсить всякими скритпами ? Всякие wget, curl вроде бы это не умеют, а вот гугл например ( судя по результатам поиска ) вполне с этим справляется. Есть ли готовые opensource решения ?


а что ты хочешь парсить? может имеет смысл вручную глянуть какие json запросы делает динамическая страница и их прям curl-у и скормить, при этом и парсить практически ничего не придется

Goganchic ★★
()
Ответ на: комментарий от Goganchic

какие json запросы делает динамическая страница

Наверное, прежде чем перехватить запросы, надо наверное на чем то выполнить сначала? И не JSON (это формат данных), а AJAX-запросы.

По сабжу: слышал про pantom.js, он хорошь тем, что можно без гуя. (сам не юзал, детали не знаю)

terminator-101
()
Ответ на: комментарий от Goganchic

при этом и парсить практически ничего не придется

И, да, чо ты гонишь, парсить то надо ответы от сервера, а не запросы клиента, если уж на то пошло.

terminator-101
()
Ответ на: комментарий от terminator-101

json запросы = любые запросы которые возвращают json, ajax - это несколько иное понятие, ajax - это когда делается запрос без перезагрузки страницы целиком, в ajax может приходить хоть json, хоть xml, хоть кусок готового html

Когда я говорил про json запросы - имел ввиду что большинство современных сайтов загружают пустую страницу + набор js-ок а с сервером общаются с помощью json сообщений и да, json может быть как в запросе так и в ответе. И когда делается парсинг современных сайтов то вполне возможно, что если сайты будут заранее известны, то намного лучше с точки зрения производительности - посмотреть какие запросы делает сайт и делать эти запросы без какого либо headless браузера, типа phantom.js

Goganchic ★★
()
Ответ на: комментарий от terminator-101

продолжай, мне очень важно твое мнение

как ты будешь парсить ответы, если ты не знаешь какие запросы сделать? чтобы знать какие запросы сделать - нужно посмотреть именно эти самые запросы, и да, после того как ты разобрался как и какие запросы делает single page приложение - можно и ответы парсить

Goganchic ★★
()

динамически?

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.