Grep по web страницам

1

2

У меня есть набор ссылок (несколько десятков), за каждой из которых web страничка. Мне нужно сделать поиск по ключевым словам в пределах всех этих ссылок. Как это сделать проще всего?

Ссылка

←	Книга по матану

При установке SUID бита на скрипт, whoami показывает пользователя, а не рута

→

for .... curl ... | grep ....

SevikL ★★★★★
(04.05.19 17:55:40 MSK)

Ответ на: комментарий от SevikL 04.05.19 17:55:40 MSK

В современном вебе столько дерьма, что grep с этим может и не совладать — это тебе не HTML 4 с табличной версткой.

Есть ещё вариант с chromium headless, что сохраняет в pdf, потом pgftotext, а уже потом grep.

Vsevolod-linuxoid ★★★★★
(04.05.19 17:59:37 MSK)

Ответ на: комментарий от Vsevolod-linuxoid 04.05.19 17:59:37 MSK

задача была самый простой способ, что за ссылки - неизвестно.

а зачем с безголовым хромом шаг с pdf и конвертация - тоже неясно.

SevikL ★★★★★
(04.05.19 18:09:06 MSK)

Ответ на: комментарий от SevikL 04.05.19 18:09:06 MSK

а зачем с безголовым хромом шаг с pdf и конвертация - тоже неясно

Затем, что на средней web-странице сейчас кода размером с «Войну и мир» Льва Толстого, и это даже не гипербола. Посетитель видит только текст, что для него предназначен, конечно — но grep-то будет анализировать код целиком. Вот для этого и нужен chromium headless и конвертации.

Vsevolod-linuxoid ★★★★★
(04.05.19 18:13:18 MSK)
Последнее исправление: Vsevolod-linuxoid 04.05.19 18:13:27 MSK (всего исправлений: 1)

Ответ на: комментарий от SevikL 04.05.19 18:09:06 MSK

так содержимое страницы может генерироваться на клиенте джабоскриптом. Curl такое не вытянет.

ugoday ★★★★★
(04.05.19 18:13:34 MSK)

Ответ на: комментарий от ugoday 04.05.19 18:13:34 MSK

О да, запросто. Возможен даже вариант, что каждая страница скачивает пол-сайта, а уже потом JS определяет, что именно выдавать. Вебмакаки же не ведают преград.

Vsevolod-linuxoid ★★★★★
(04.05.19 18:16:43 MSK)

Ссылка

Ответ на: комментарий от Vsevolod-linuxoid 04.05.19 18:13:18 MSK

а то я не знаю, сколько там кода. я только тем и занят что парсингом этого сраного веба. когда приходит первое ТЗ на новый продукт - даём решение уровня моего первого ответа. а потом приходит пара уточнений и в итоге выходит мутант с тремя браузерами, каждый в трёх режимах и нейронка, которая старается не офигеть от того, какое ещё дерьмо можно запихать в браузер.

SevikL ★★★★★
(04.05.19 18:19:42 MSK)

Ссылка

Ответ на: комментарий от ugoday 04.05.19 18:13:34 MSK

так телепаты то по отпускам разбежались. а пока не озвучено обратное - curl вытягивает решение поставленной задачи

SevikL ★★★★★
(04.05.19 18:21:16 MSK)

Ответ на: комментарий от SevikL 04.05.19 18:21:16 MSK

Препаратъ для наружного премененiя «Вытяжка из веб2.0».

anonymous
(04.05.19 18:45:59 MSK)

Ссылка

Грепать хтмл?

Это даже нереальнее, чем егрепать и регекспать: https://stackoverflow.com/a/1732454/3558278

Правильным решением будет полученные страницы загрузить в xml (html) парсер на любом ЯП который ты знаешь, и прочекать DOM-дерево через xpath, а вот там уже регулярочки, если xpath «не справится».

deep-purple ★★★★★
(04.05.19 20:07:05 MSK)

Ответ на: комментарий от deep-purple 04.05.19 20:07:05 MSK

Я успешно грепал jdk с сайта оркала. Потом они убрали файлы, похоже.

anonymous
(04.05.19 23:52:47 MSK)

Ссылка

Ответ на: комментарий от SevikL 04.05.19 17:55:40 MSK

Вот такой вот вид имеют все странички http://www.hcm.uni-bonn.de/people/faculty/profile/carl-friedrich-boedigheimer/ Вся нужная инфа вроде в plain text.

LIKAN ★★★
(05.05.19 16:42:01 MSK) автор топика

Ссылка

Ответ на: комментарий от ugoday 04.05.19 18:13:34 MSK

может генерироваться на клиенте джабоскриптом

тоже интересно. а, допустим, без джаваскрипта. как-то можно получить wget'ом страницу, как она выглядит в браузере? т.е. текст, не html?? может ключик какой есть у вгета?

teod0r ★★★★★
(05.05.19 18:03:18 MSK)
Последнее исправление: teod0r 05.05.19 18:03:55 MSK (всего исправлений: 1)

Ответ на: комментарий от teod0r 05.05.19 18:03:18 MSK

wget --use-wishmaster --at-full-power

anonymous
(05.05.19 18:28:11 MSK)

Ссылка

Ответ на: комментарий от teod0r 05.05.19 18:03:18 MSK

Зато 5 звезд.

anonymous
(05.05.19 18:45:46 MSK)

Ссылка

for url in "https://google.com" "https://github.com"
do
	links -dump $url | grep ru;
done

          Рекламные программыРешения для бизнесаВсё о GoogleGoogle.ru
          * Community forum
     * Community Forum

Проблема со склеиванием слов.

~~kostyarin_~~ ★★
(05.05.19 18:58:41 MSK)

Ссылка

Ответ на: комментарий от teod0r 05.05.19 18:03:18 MSK

Можно использовать pandoc

curl https://www.fsf.org/ | pandoc -t plain -f html

ugoday ★★★★★
(06.05.19 11:59:59 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Книга по матану

General

При установке SUID бита на скрипт, whoami показывает пользователя, а не рута

→

Похожие темы