LINUX.ORG.RU

Grep по web страницам

 ,


1

2

У меня есть набор ссылок (несколько десятков), за каждой из которых web страничка. Мне нужно сделать поиск по ключевым словам в пределах всех этих ссылок. Как это сделать проще всего?

★★★

Последнее исправление: LIKAN (всего исправлений: 1)

Ответ на: комментарий от SevikL

В современном вебе столько дерьма, что grep с этим может и не совладать — это тебе не HTML 4 с табличной версткой.

Есть ещё вариант с chromium headless, что сохраняет в pdf, потом pgftotext, а уже потом grep.

Vsevolod-linuxoid ★★★★★
()
Ответ на: комментарий от Vsevolod-linuxoid

задача была самый простой способ, что за ссылки - неизвестно.

а зачем с безголовым хромом шаг с pdf и конвертация - тоже неясно.

SevikL ★★★★★
()
Ответ на: комментарий от SevikL

а зачем с безголовым хромом шаг с pdf и конвертация - тоже неясно

Затем, что на средней web-странице сейчас кода размером с «Войну и мир» Льва Толстого, и это даже не гипербола. Посетитель видит только текст, что для него предназначен, конечно — но grep-то будет анализировать код целиком. Вот для этого и нужен chromium headless и конвертации.

Vsevolod-linuxoid ★★★★★
()
Последнее исправление: Vsevolod-linuxoid (всего исправлений: 1)
Ответ на: комментарий от ugoday

О да, запросто. Возможен даже вариант, что каждая страница скачивает пол-сайта, а уже потом JS определяет, что именно выдавать. Вебмакаки же не ведают преград.

Vsevolod-linuxoid ★★★★★
()
Ответ на: комментарий от Vsevolod-linuxoid

а то я не знаю, сколько там кода. я только тем и занят что парсингом этого сраного веба. когда приходит первое ТЗ на новый продукт - даём решение уровня моего первого ответа. а потом приходит пара уточнений и в итоге выходит мутант с тремя браузерами, каждый в трёх режимах и нейронка, которая старается не офигеть от того, какое ещё дерьмо можно запихать в браузер.

SevikL ★★★★★
()
Ответ на: комментарий от ugoday

так телепаты то по отпускам разбежались. а пока не озвучено обратное - curl вытягивает решение поставленной задачи

SevikL ★★★★★
()
Ответ на: комментарий от SevikL

Препаратъ для наружного премененiя «Вытяжка из веб2.0».

anonymous
()

Грепать хтмл?

Это даже нереальнее, чем егрепать и регекспать: https://stackoverflow.com/a/1732454/3558278

Правильным решением будет полученные страницы загрузить в xml (html) парсер на любом ЯП который ты знаешь, и прочекать DOM-дерево через xpath, а вот там уже регулярочки, если xpath «не справится».

deep-purple ★★★★★
()
Ответ на: комментарий от deep-purple

Я успешно грепал jdk с сайта оркала. Потом они убрали файлы, похоже.

anonymous
()
Ответ на: комментарий от ugoday

может генерироваться на клиенте джабоскриптом

тоже интересно. а, допустим, без джаваскрипта. как-то можно получить wget'ом страницу, как она выглядит в браузере? т.е. текст, не html?? может ключик какой есть у вгета?

teod0r ★★★★★
()
Последнее исправление: teod0r (всего исправлений: 1)
for url in "https://google.com" "https://github.com"
do
	links -dump $url | grep ru;
done
          Рекламные программыРешения для бизнесаВсё о GoogleGoogle.ru
          * Community forum
     * Community Forum

Проблема со склеиванием слов.

kostyarin_ ★★
()
Ответ на: комментарий от teod0r

Можно использовать pandoc

curl https://www.fsf.org/ | pandoc -t plain -f html 
ugoday ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.