LINUX.ORG.RU

Обойти рекурсивно сайт

 , ,


0

2

Здравствуйте, нужно не закачивая сайт, обойти его рекурсивно, и выдрать всё, что находится между тегами, допустим между <h1>...</h1> и соответственно, результаты записать в файл.Страницы закачивать не нужно, слишком жирно.
Чем и как бы всё это организовать? Я так понял, что с вгетом это плохо получится?


Страницы закачивать не нужно

Из серии «посмотреть фильм не скачивая его».

anonymous
()
Ответ на: комментарий от anonymous

может он контент имел в виду, картинки там и пр хрень

sparks ★★★
()

и выдрать всё, что находится между тегами

Это называется «паук». В основном «пауки» пишутся на пайтоне.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.