LINUX.ORG.RU

История изменений

Исправление dimuska139, (текущая версия) :

Эм… Но ведь это и правда легко. Скачиваешь страницу с помощью requests, с помощью beautifulsoup находишь на ней все элементы a (ссылки). Берёшь у них атрибут href и смотришь, внутренняя это ссылка или нет. Если внутренняя, то проверяешь, обрабатывал ты её или нет, и повторяешь то же самое для неё (если она ещё не обрабатывалась, иначе пропускаешь). Одновременно с этим собираешь с обрабатываемых страниц нужную информацию. И так далее. Это максимум строк 20 на питоне (не считая самой логики сбора информации со страниц).

P.s. если сайт не рендерится на сервере, а прямо в браузере (например, на React сделан), то можно либо просто соответствующие API вызывать (тогда вообще html парсить и не придётся), либо использовать Selenium (но обычно это не требуется даже).

Исходная версия dimuska139, :

Эм… Но ведь это и правда легко. Скачиваешь страницу с помощью requests, с помощью beautifulsoup находишь на ней все элементы a (ссылки). Берёшь у них атрибут href и смотришь, внутренняя это ссылка или нет. Если внутренняя, то проверяешь, обрабатывал её или нет, и повторяешь то же самое для неё (если она ещё не обрабатывалась, иначе пропускаешь). Одновременно с этим собираешь с обрабатываемых страниц нужную информацию. И так далее. Это максимум строк 20 на питоне (не считая самой логики сбора информации со страниц).