Как и чем распарсить такой сайт для получения ссылок на картинки

javascript, parser, parsing, парсинг веб-страниц

2

2

Есть сайт Метрополитан-музея с выдачей картинок, там немного по-хитрому, в html'е картинок не видно:

http://www.metmuseum.org/art/collection#!?perPage=20&geolocation=Mexico&a...

Но их можно узнать, ссылки и названия типа:

http://images.metmuseum.org/CRDImages/ao/mobile-large/DP229188.jpg

Мне важно узнать из выдачи конкретной страницы все вот такие DP229188.jpg, я смогу их потом выкачивать полноразмерными просто изменив ссылку на:

http://images.metmuseum.org/CRDImages/ao/original/DP229188.jpg

Есть также ссылки на выдачи постранично, которые можно скормить парсеру или что там будет получать ссылки на картинки, вот такого типа:

http://www.metmuseum.org/art/collection#!?geolocation=Anatolia&showOnly=withImage&offset=20&pageSize=0&sortBy=Relevance&sortOrder=asc&perPage=20

http://www.metmuseum.org/art/collection#!?geolocation=Anatolia&showOnly=withImage&offset=40&pageSize=0&sortBy=Relevance&sortOrder=asc&perPage=20

http://www.metmuseum.org/art/collection#!?geolocation=Anatolia&showOnly=withImage&offset=60&pageSize=0&sortBy=Relevance&sortOrder=asc&perPage=20

Чем можно пропарсить такую выдачу, например gem какой-нибудь или модуль для node или еще что-то, подскажите пожалуйста.

Ссылка

← Критика реакционной клики разрабов «ECMA6 в продакшне»

Презентация проекта инвесторам и партнерам - best practices →

Если не к спеху, можно через PhantomJS загрузить и расковырять.

Vit ★★★★★
(05.03.17 20:10:35 MSK)

http://www.metmuseum.org/api/collection/collectionlisting?artist=&departm...

Вот такие ссылки возвращают json с содержимым страницы.

ЗЫЖ Аватарка больше на Цоя похожа, чем на Брюса Ли.

kostik87 ★★★★★
(05.03.17 20:13:33 MSK)

cheerio

anonymous
(05.03.17 20:14:03 MSK)

Ссылка

Ответ на: комментарий от Vit 05.03.17 20:10:35 MSK

Если напрямую скриптовать его не хочешь, можно через обертки:

https://github.com/nodeca/navit#other-scripting-projects

Быстрее всего через фантом, чуть помедленнее - через электрон. Фантом очень падучий. Там по списку половина и фантом и электрон и слаймер поддерживают.

Vit ★★★★★
(05.03.17 20:14:54 MSK)