LINUX.ORG.RU

Скачать множество страниц с сайта

 


0

2

Есть много (десяток тысяч) страниц на сайте, на которые нет ссылок нигде на сайте (на них попадаю только через поиск на нём). Хочу их все скачать. Конкретно речь идёт об одном телефонном справочнике, где страницы выхлопа поиска имеют формат http://www.sitename/lastName_фамилия_pagenumber_номерстраницы.html

Есть ли более изящный метод их все скачать, кроме как подставлять wget-у {А...Я} на место первой буквы фамилии, {а...я} на места всех остальных букв (раз 10, чтобы наверняка) и то же самое приблизительно сделать с номерами страниц? Заранее, спасибо.



Последнее исправление: KendovNorok (всего исправлений: 1)

Ответ на: комментарий от KendovNorok

А гугл на поиск ФИО site:nomer.org не пробовал? У меня что-то выдал. Правда маловато (Иванов ~ 1600). База-то с гулькин нос.

ziemin ★★
()
Ответ на: комментарий от ziemin

Это я к тому, что wgetить надо ответ поисковика

ziemin ★★
()

Я попробовал WebHTTrack — он лихо стал выжирать всё. Но окончания дожидаться не стал — слишком долго. Попробуй, может получится чего.

DeVliegendeHollander ★★
()
Ответ на: комментарий от aristocraft

Гуглом неоптимально по той причине, что там страницы с выдачей поиска и на имя, и на фамилию. Нахрена мне отдельная страница с Ивановыми Иваными, если он упомянут на странице просто с Ивановыми? HTTrack, боюсь, так же поступит.

KendovNorok
() автор топика
Ответ на: комментарий от KendovNorok

Хотя, хрен с ним. Пусть качает... Когда смогу (тут интернет через модем) - попробую.

KendovNorok
() автор топика
Ответ на: комментарий от aristocraft

конечно нет. я только к тому, что wget с задачей загрузки сайта справится.

wget -rH -Dnomer.org -k -K http://nomer.org

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.