LINUX.ORG.RU
ФорумAdmin

Lynx и httpS

 ,


1

1

Доброго всем времени суток!

Для получения списка ссылок на все страницы сайта использовал в скрипте

lynx -crawl -traversal

Пример подобного скрипта: http://www.kompx.com/en/lynx-browser-creating-sitemap.xml

но выяснилось с httpS такая конструкция напрочь отказывается работать, например:

lynx -crawl -traversal -accept_all_cookies "https://www.yandex.ru/"
на выходе получаем:
lynx: Start file could not be found or is not text/html or text/plain<br>
          Exiting...
Чем можно заменить lynx -crawl -traversal ?

Ответ на: комментарий от Nuclerdragon

Ты используешь мёртвый (да и при жизни малораспространённый) браузер для сбора ссылок и удивляешься тишине? Ты ещё спроси как лучше точить серп или по какие-то нюансы ковки вил.

MimisGotAPlan
()
Ответ на: комментарий от MimisGotAPlan

То, что lynx мёртвый я уже понял, так что в замен использовать?

Какой другой консольный браузер умеет подобное: «lynx -crawl -traversal» ?

Или каким образом можно получить список всех ссылок с сайта?

Nuclerdragon
() автор топика
Ответ на: комментарий от Nuclerdragon

/me надевает колпак и плащ, усеянные звёздами и различными каббалистическими символами:
Гугуль-Шмугель-Катманду
Парсинг сайта я ищу
Я запрос тебе скажу
Знаний много я найду.

Запрос: «linux get all links from site»
Ответ:https://stackoverflow.com/questions/2804467/spider-a-website-and-return-urls-...

MimisGotAPlan
()
Ответ на: комментарий от MimisGotAPlan

Спасибо Капитан очевидность!

Я без сарказма, а ведь почему-то не мог найти :)

В итоге вот это то что надо:

lynx -listonly -nonumbers -dump https://www.ya.ru | awk '/http/{print $1}'

Nuclerdragon
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.