Скачать множество страниц с сайта

0

2

Есть много (десяток тысяч) страниц на сайте, на которые нет ссылок нигде на сайте (на них попадаю только через поиск на нём). Хочу их все скачать. Конкретно речь идёт об одном телефонном справочнике, где страницы выхлопа поиска имеют формат http://www.sitename/lastName_фамилия_pagenumber_номерстраницы.html

Есть ли более изящный метод их все скачать, кроме как подставлять wget-у {А...Я} на место первой буквы фамилии, {а...я} на места всех остальных букв (раз 10, чтобы наверняка) и то же самое приблизительно сделать с номерами страниц? Заранее, спасибо.

Ссылка

←	почему текущая реализация dri - говно

slim

→

http://www.sitename/lastName_фамилия_pagenumber_номерстраницы.html

К сожалению, _________ не может найти страницу http://www.sitename.

Ссылку поправьте!

petav ★★★★★
(05.07.13 22:44:51 MSK)

проверить все что скажет google на запрос вида: site:http://www.sitename

anonymous
(05.07.13 22:48:44 MSK)

Ссылка

Ответ на: комментарий от petav 05.07.13 22:44:51 MSK

Чтобы не сочли за рекламу, я не написал сайт. Он и не важен, я описал структуру. Если нужно, nomer.org

KendovNorok ★
(06.07.13 00:46:45 MSK) автор топика

Ответ на: комментарий от KendovNorok 06.07.13 00:46:45 MSK

wget -r -k http://nomer.org

anonymous
(06.07.13 01:01:22 MSK)

Ответ на: комментарий от anonymous 06.07.13 01:01:22 MSK

Если нету линков http://nomer.org/дальше/еще_дальше.php как wget узнает структуру сайта?

~~aristocraft~~
(06.07.13 01:46:51 MSK)

Ответ на: комментарий от KendovNorok 06.07.13 00:46:45 MSK

А гугл на поиск ФИО site:nomer.org не пробовал? У меня что-то выдал. Правда маловато (Иванов ~ 1600). База-то с гулькин нос.

ziemin ★★
(06.07.13 01:52:26 MSK)

Ответ на: комментарий от ziemin 06.07.13 01:52:26 MSK

Это я к тому, что wgetить надо ответ поисковика

ziemin ★★
(06.07.13 01:53:47 MSK)

Ссылка

Ответ на: комментарий от aristocraft 06.07.13 01:46:51 MSK

где нет ссылок? куда можно дойти поиском и нельзя дойти ссылками?

anonymous
(06.07.13 02:50:28 MSK)

Я попробовал WebHTTrack — он лихо стал выжирать всё. Но окончания дожидаться не стал — слишком долго. Попробуй, может получится чего.

DeVliegendeHollander ★★
(06.07.13 02:59:56 MSK)

Ссылка

Ответ на: комментарий от anonymous 06.07.13 02:50:28 MSK

По-твоему надо взять из гугла список ссылок и скормить его wget'у? Это оптимальный вариант?

~~aristocraft~~
(06.07.13 11:28:20 MSK)

Ответ на: комментарий от aristocraft 06.07.13 11:28:20 MSK

Гуглом неоптимально по той причине, что там страницы с выдачей поиска и на имя, и на фамилию. Нахрена мне отдельная страница с Ивановыми Иваными, если он упомянут на странице просто с Ивановыми? HTTrack, боюсь, так же поступит.

KendovNorok ★
(06.07.13 11:34:39 MSK) автор топика

Ответ на: комментарий от KendovNorok 06.07.13 11:34:39 MSK

Хотя, хрен с ним. Пусть качает... Когда смогу (тут интернет через модем) - попробую.

KendovNorok ★
(06.07.13 11:51:23 MSK) автор топика

Ссылка

Ответ на: комментарий от aristocraft 06.07.13 11:28:20 MSK

конечно нет. я только к тому, что wget с задачей загрузки сайта справится.

wget -rH -Dnomer.org -k -K http://nomer.org

anonymous
(06.07.13 12:45:06 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	почему текущая реализация dri - говно

General

slim

→

Похожие темы