Как вытащить список ссылок из html файлов?

0

1

Положим есть файл xxx.html. В нем присутствуют ссылки на ресурс example.com типа "https://example.com/article1.xml". Как мне башем вытащить оттуда список этих ссылок? Ссылка может быть в любом теге или свойстве.

Пробовал sed, но он вытаскивать либо жадно либо всю встроку:

sed 's/^.*href="\([^"]*\).*$/\1/'

Ссылка

← Перестал работать браузер Chromium на Raspberry Pi 3

Есть способ регулировать уровень звука в каждой вкладке в Firefox-e? →

А зачем bash, если это просто сделать на python + lxml?

P.S. Не bash, а sed + regex.

conformist ★★★
(02.05.17 10:45:46 MSK)
Последнее исправление: conformist 02.05.17 10:46:34 MSK (всего исправлений: 1)

Ответ на: комментарий от conformist 02.05.17 10:45:46 MSK

Сделал на grep:

grep -Eo 'href="[^"]*' | cut -d\" -f2-

А зачем bash, если это просто сделать на python + lxm

Действительно, зачем писать встроенную в шелл команду в одну строку если можно писать тонны кода на пистоне?

PPP328 ★★★★★
(02.05.17 10:47:19 MSK) автор топика

urlview

IPR ★★★★★
(02.05.17 10:47:56 MSK)

Ссылка

Ответ на: комментарий от PPP328 02.05.17 10:47:19 MSK

можно писать тонны кода на пистоне

from bs4 import BeautifulSoup
with open('../lor.html', 'r') as f:
    soup = BeautifulSoup(f.read(), 'lxml')
    print(*[link.get('href') for link in soup.findAll('a')])

ну и не тонны.

conformist ★★★
(02.05.17 10:58:54 MSK)
Последнее исправление: conformist 02.05.17 10:59:45 MSK (всего исправлений: 1)

Ссылка

sed -n '/href="[^"]+"/ { s/^.*href="\([^"]*\)".*$/\1/; p}' ?

evilface ★★
(02.05.17 22:23:16 MSK)

Ссылка

Не надо парсить html регекспами.

#!/usr/bin/env perl

use strict;
use warnings;

use File::Slurp;
use Mojo::DOM;

my $html = read_file('test.htm');
my $dom = Mojo::DOM->new->parse($html);
$dom->find('a')->each(sub { print $_->{href} . "\n" });

anonymous
(03.05.17 02:37:42 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Перестал работать браузер Chromium на Raspberry Pi 3

Есть способ регулировать уровень звука в каждой вкладке в Firefox-e? →