LINUX.ORG.RU

[scripting] Стянуть с сайта инфу


0

1

Спецы, помогите. Есть сайт sanatorium.net.ua . Там есть информация по всем санаториям и она размещается на отдельных страницах http://sanatorium.net.ua/node/[1-565]. Подскажите способ как стянуть эту инфу. Может есть какой то доунлоадер который понимает тэги или ещё что то. На выходе хотельсь бы иметь просто текст.

★★★

Ответ на: комментарий от sdio

Сорри, я затупил. Забыл написать что мне нужна информация только о конкретном санатории. Например со страницы http://sanatorium.net.ua/node/200, нужно вытянуть только

Славский

пансионат Органы пищеварения, опорно-двигательный аппарат Aдрес:82660 Сколевский р-н, пгт Славское, ул. Устияновича, 35

Тел: (03251)42134, 42235,42541 Факс:

Сезонность: -

GoNaX ★★★
() автор топика
Ответ на: комментарий от sdio

Спасибо. Впринцыпе всё ок. Было бы ещё круто знать как удалить все строки ниже слова СЕЗОННОСТЬ

GoNaX ★★★
() автор топика
Ответ на: комментарий от sdio

Странно, если я эту строку просто выполняю, то результат то что нужно. Если с цикле, то результат другой

GoNaX ★★★
() автор топика

Подскажите а diff умеет показывать только отличия? Маны и гугель не помогли

GoNaX ★★★
() автор топика
Ответ на: комментарий от GoNaX

> Подскажите а diff умеет показывать только отличия?
Это его непосредственная обязанность.
Или имеется в виду показывать только добавленные и удалённые строки?
awk, sed, grep на выбор в помощь.

Когда задаёте вопрос, пишите, что было, что хотите, что сделали, что получилось, что не получилось.

Lumi ★★★★★
()

Я делал на Perl+XML::DOM::Lite. Распарсивал как мне надо, и гнал в базу. Скриптом могу поделиться, но дорабатывать прийдется самому...

Saloed
()
Ответ на: комментарий от Saloed

Спасибо. Уже вроде добились нужных результатов.

GoNaX ★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.