sed,grep извлечь домены

0

2

Имеется N-ое колличество файлов HTML,каким образом можно извлечь все домены между <a href='http://my.site.com/random_domain.com'> и </a>

<a href='http://my.site.com/random_domain.com'>RANDOM_DOMAIN.COM</a>

Ссылка

←	Plasma, 2 монитора - пропадает панель

Протокол, который невозможно идентифицировать и блокировать

→

на коленке делал, без проверки

grep 'href=\'http://' * | sed s/'</a>'// | awk -F\> '{print $2}'

смысл:
грепаем нужные строки, седом удаляем закрывающий тег, авком разбиваем сткроку на поля (разделитель >) и выводим вторую часть

скорее всего напутал с ' и \

outsider ★★
(14.07.16 09:05:12 MSK)

Ответ на: комментарий от outsider 14.07.16 09:05:12 MSK

Да,да что-то не так,у меня не вышло... .

iNdexoiD
(14.07.16 09:27:45 MSK) автор топика

Ссылка

Ответ на: комментарий от outsider 14.07.16 09:05:12 MSK

Может тогда вместо awk cut заюзать лучше?

s/'</a>'//

s#</a>##g

Вроде тогда ничего экранировать не надо.

Можно еще с pcregrep загнаться.

Radjah ★★★★★
(14.07.16 09:34:44 MSK)

grep -oE 'https?://[^/]*/'

futurama ★★★★★
(14.07.16 09:34:49 MSK)

Ссылка

Ответ на: комментарий от Radjah 14.07.16 09:34:44 MSK

Может тогда вместо awk cut заюзать лучше?

можно и кут

s#</a>##g

а вот про такое не знал, спасибо

outsider ★★
(14.07.16 09:43:25 MSK)

Ответ на: комментарий от outsider 14.07.16 09:05:12 MSK

grep 'href=\'http://' * | sed s/'</a>'// | awk -F\> '{print $2}'

Какой хрестоматийный говнокод.

Zmicier ★★★★★
(14.07.16 12:43:35 MSK)

Ответ на: комментарий от outsider 14.07.16 09:43:25 MSK

а вот про такое не знал

Можно использовать и другие символы, чтобы не экранировать регулярки. Читать так проще, дебажить тоже.

r3lgar ★★★★★
(14.07.16 12:59:38 MSK)

Ответ на: комментарий от r3lgar 14.07.16 12:59:38 MSK

К сожилению у меня он не работает,выдаёт такое

grep 'href=\'http://' * | sed s/'</a>'// | awk -F\> '{print $2}' fast.html
>

iNdexoiD
(14.07.16 13:09:27 MSK) автор топика

Ответ на: комментарий от iNdexoiD 14.07.16 13:09:27 MSK

fast.html должен быть за место * где grep

outsider ★★
(14.07.16 13:34:29 MSK)

Ответ на: комментарий от Zmicier 14.07.16 12:43:35 MSK

Как хочу, так и говнокодю(жу)

outsider ★★
(14.07.16 13:35:53 MSK)

Ссылка

Ответ на: комментарий от outsider 14.07.16 13:34:29 MSK

Пробовал бро,тоже самое

iNdexoiD
(14.07.16 13:39:21 MSK) автор топика

Ответ на: комментарий от iNdexoiD 14.07.16 13:09:27 MSK

Так и не должно. Экранировать кавычками нельзя, нужно экранировать только бэкслэшами.

r3lgar ★★★★★
(14.07.16 13:41:19 MSK)

Ссылка

Ответ на: комментарий от iNdexoiD 14.07.16 13:39:21 MSK

давай тогда по порядку

1. grep 'href=\'http://' fast.html - выводит нужные строки?
2. grep 'href=\'http://' fast.html | s#</a>##g - а так?

outsider ★★
(14.07.16 13:41:38 MSK)

Ответ на: комментарий от outsider 14.07.16 13:41:38 MSK

У меня после команды выводит только это >

iNdexoiD
(14.07.16 13:45:47 MSK) автор топика

Ответ на: комментарий от iNdexoiD 14.07.16 13:45:47 MSK

покажи выхлоп консоли вместе с тем что вводишь?

outsider ★★
(14.07.16 13:47:11 MSK)

Ссылка

HTML файлы мусор содержат?

Если нет, то должно хватить банального постпросмотра

echo '<a href='http://my.site.com/random_domain.com'>RANDOM_DOMAIN.COM</a>' | grep -oPe '[^><]*(?=</a>)'

Deleted
(14.07.16 13:50:15 MSK)

Ссылка

Ответ на: комментарий от iNdexoiD 14.07.16 13:45:47 MSK

grep http:// fast.html | sed 's#</a>##' | cut -d> -f2

проверил

outsider ★★
(14.07.16 13:52:54 MSK)

Ссылка

function myhrefs
{
   echo 'cat //a/@href' | xmllint --html --shell $1 2>/dev/null | grep -Po '\s*href\s*=\s*"\K.*(?=")'
}

export -f myhrefs

find . -name '*.html' | xargs bash -c 'myhrefs "$@"'

anonymous
(14.07.16 14:26:19 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Plasma, 2 монитора - пропадает панель

General

Протокол, который невозможно идентифицировать и блокировать

→

Похожие темы