LINUX.ORG.RU

Как и чем распарсить такой сайт для получения ссылок на картинки

 , , ,


2

2

Есть сайт Метрополитан-музея с выдачей картинок, там немного по-хитрому, в html'е картинок не видно:

http://www.metmuseum.org/art/collection#!?perPage=20&geolocation=Mexico&a...

Но их можно узнать, ссылки и названия типа:

http://images.metmuseum.org/CRDImages/ao/mobile-large/DP229188.jpg
Мне важно узнать из выдачи конкретной страницы все вот такие DP229188.jpg, я смогу их потом выкачивать полноразмерными просто изменив ссылку на:
http://images.metmuseum.org/CRDImages/ao/original/DP229188.jpg

Есть также ссылки на выдачи постранично, которые можно скормить парсеру или что там будет получать ссылки на картинки, вот такого типа:

http://www.metmuseum.org/art/collection#!?geolocation=Anatolia&showOnly=withImage&offset=20&pageSize=0&sortBy=Relevance&sortOrder=asc&perPage=20

http://www.metmuseum.org/art/collection#!?geolocation=Anatolia&showOnly=withImage&offset=40&pageSize=0&sortBy=Relevance&sortOrder=asc&perPage=20

http://www.metmuseum.org/art/collection#!?geolocation=Anatolia&showOnly=withImage&offset=60&pageSize=0&sortBy=Relevance&sortOrder=asc&perPage=20

Чем можно пропарсить такую выдачу, например gem какой-нибудь или модуль для node или еще что-то, подскажите пожалуйста.

Если не к спеху, можно через PhantomJS загрузить и расковырять.

Vit ★★★★★ ()
Ответ на: комментарий от Vit

Если напрямую скриптовать его не хочешь, можно через обертки:

https://github.com/nodeca/navit#other-scripting-projects

Быстрее всего через фантом, чуть помедленнее - через электрон. Фантом очень падучий. Там по списку половина и фантом и электрон и слаймер поддерживают.

Vit ★★★★★ ()

jq+wget там ссылки на картиночки в жсон прилетают.

ya-betmen ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.