Как пользоваться регулярками в грепе вообще?

1

2

Есть большой html файл, нужно оттуда выдрать ссылки, оканчивающиеся на «none», например. Пробую grep -P -o "http:\/\/.+?;none" index.html, однако захватывает очень много, видимо от первого «http» в файле и до последнего «none» (жадный режим?), несмотря на ".+?" (без знака вопроса такая же фигня). Ключ -w не помогает (вообще ничего не выводит).

Пробовал pcregrep, такая же фигня. Думаю написать свой grep на питоне…

Ссылка

← Разметка в формате GPT

Как запустить tkabber версия 1.1.? →

Покажи пример входных данных

zolden ★★★★★
(03.08.14 21:42:01 MSK)

Ссылка

Так, к размышлению.

iMac-xtraeft:~ xtra$ curl 'https://www.linux.org.ru/forum/general/10732801?lastmod=1407087721584' -s |grep -Pow 'http:\/\/.+?'
http://www
http://www
http://www
http://schema
http://juick
http://schema
http://www
iMac-xtraeft:~ xtra$ curl 'https://www.linux.org.ru/forum/general/10732801?lastmod=1407087721584' -s |grep -Po 'http:\/\/.+?'
http://w
http://w
http://w
http://s
http://j
http://s
http://w

~~xtraeft~~ ★★☆☆
(03.08.14 21:44:32 MSK)

Ссылка

видимо от первого «http» в файле и до последнего «none»'

Да ну, скорее от первого до первого. Только первый http-то может и не оканчиваться на none.

гк кругом: -P - экспериментальный вроде, \/ -> /, вместо . лучше [^«>] (да и по возможности лучше не регулярками).

anonymous
(03.08.14 21:47:06 MSK)

Ссылка

Замени двойные кавычки на одинарные сначала. Потом греши на греп

unanimous ★★★★★
(03.08.14 21:47:45 MSK)

Сделай замену http -> \nhttp и none -> none\n, а потом делай выборку.

kostik87 ★★★★★
(03.08.14 21:47:53 MSK)

Ссылка

Ответ на: комментарий от unanimous 03.08.14 21:47:45 MSK

Хм, что именно это изменит в данном случае?

anonymous
(03.08.14 21:53:03 MSK)

'http:[^"]+none'

E ★★★
(03.08.14 22:02:31 MSK)

Ссылка

Ответ на: комментарий от anonymous 03.08.14 21:53:03 MSK

Хм, что именно это изменит в данном случае?

Гарантирует отсутствие подстановок со стороны шелла.

unanimous ★★★★★
(03.08.14 22:02:46 MSK)

У тебя же там <a href="http://....none"> т.е. " тоже присутствуют

grep -P -o '"http:\/\/[^"]*;none"' index.html | tr -d '"'

~~sdio~~ ★★★★★
(03.08.14 22:07:07 MSK)
Последнее исправление: sdio 03.08.14 22:07:21 MSK (всего исправлений: 1)

Ссылка

У тебя ошибка в регулярке. Оно захватывает каждую ссылку (даже если она без ";none"), но останавливается только когда найдет ";none". А это может быть две и более ссылок с промежуточным текстом.

Дай пример ссылки, которую ты хочешь отловить.

Kroz ★★★★★
(03.08.14 22:07:39 MSK)

Ссылка

Ответ на: комментарий от unanimous 03.08.14 22:02:46 MSK

Хм, что именно это изменит в данном случае?
Гарантирует отсутствие подстановок со стороны шелла.

А какой шелл что-нибудь подставит? Просто изначальное «а потом греши на grep» подразумеват _конкретный_ косяк в экранировании.

anonymous
(03.08.14 22:11:07 MSK)

Ссылка

Ну, или вот:

$ cat delme.txt 
text
http://somelink1;none
text http://somelink2;none http://anotherlink3;none bla
text http://somelink4_bad http://anotherlink5;none bla http://anotherlink6;none bla
nothing
nothing
text http://somelink7;none http://anotherlink8;none bla http://anotherlink9;none bla

$ cat delme.txt | grep -P -o 'http:\/\/.+?(;none|(?=http:\/\/))' | grep ';none'
http://somelink1;none
http://somelink2;none
http://anotherlink3;none
http://anotherlink5;none
http://anotherlink6;none
http://somelink7;none
http://anotherlink8;none
http://anotherlink9;none

На правах угадывания что тебе нужно.

Но лучше чтобы ты выдал пример ссылки, которую тебе нужно отловить. А еще лучше - с куском исходного текста.

Kroz ★★★★★
(03.08.14 22:16:40 MSK)