Обойти рекурсивно сайт

wget, рекурсия, сайт

0

2

Здравствуйте, нужно не закачивая сайт, обойти его рекурсивно, и выдрать всё, что находится между тегами, допустим между <h1>...</h1> и соответственно, результаты записать в файл.Страницы закачивать не нужно, слишком жирно.
Чем и как бы всё это организовать? Я так понял, что с вгетом это плохо получится?

Ссылка

← посыпалась панель задач kubuntu 18.04

Как обновить Python в OpenSUSE Leap 15.01 →

Страницы закачивать не нужно

Из серии «посмотреть фильм не скачивая его».

anonymous
(17.01.20 14:06:04 MSK)

Ответ на: комментарий от anonymous 17.01.20 14:06:04 MSK

может он контент имел в виду, картинки там и пр хрень

sparks ★★★★
(17.01.20 15:09:23 MSK)

Ссылка

попробуй питон-руби скрипты : вот например nokogiri для ruby: https://www.rubyguides.com/2012/01/parsing-html-in-ruby/ .

xionovermazes ★
(17.01.20 19:03:30 MSK)
Последнее исправление: xionovermazes 17.01.20 19:04:14 MSK (всего исправлений: 1)

Ссылка

На Питоне посмотри в сторону Requests и Beautyful Soup

~~Twissel~~ ★★★★★
(17.01.20 20:52:44 MSK)
Последнее исправление: Twissel 17.01.20 20:55:25 MSK (всего исправлений: 2)

Ссылка

и выдрать всё, что находится между тегами

Это называется «паук». В основном «пауки» пишутся на пайтоне.

anonymous
(17.01.20 21:48:45 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← посыпалась панель задач kubuntu 18.04

Как обновить Python в OpenSUSE Leap 15.01 →