Как вырезать tag из html-файла?

Например есть html-файл:

<body><TAG 12312937> asldasjld
asdl'a;sld
asdas;dk;la
asdpl[asp
qwekopqkwe </TAG></body>

Как можно вырезать TAG вместе с содержимым,
то есть чтоб осталось только:

<body>
</body>

sed-ом не получается, по-мойму он понимает только то,
что в одной строке, а что на несколько разнесено, то не понимает.

Ссылка

← Файл символьного устройства

Как переместить QDialog на экране? →

Зачем с седом мучиться? Делай на перле или на питоне

Selecter ★★★★
(25.04.06 19:12:44 MSK)

Ответ на: комментарий от Selecter 25.04.06 19:12:44 MSK

действительно, перл попроще будет...
выдаёт на stdout переделанный текст, который берёт из stdin

#!/usr/bin/perl -w
use strict;
{
  my $r;
  {local $/;$r=<>;}
# если хочешь можно вот так
  $r=~s/<TAG(\s+\w+(\s*=\s*(\w+|'[^']*'|"[^"]*"))?)*\s*>//g;

# но проще вот так (не учитывает > внутри тега, то есть <TAG aaa="hello>world">
  $r=~s/<TAG(.*?)>//g;
  $r=~s/<\/TAG>//g;
  print $r;
}

vahvarh ★★★
(25.04.06 20:43:43 MSK)

Ответ на: комментарий от vahvarh 25.04.06 20:43:43 MSK

тьфу это сам тег.
с содержимым:


#!/usr/bin/perl -w
use strict;
{
  my $r;
  {local $/;$r=<>;}
  $r=~s/<TAG(.*?)>.*?<\/TAG>//mg;
  print $r;
}

vahvarh ★★★
(25.04.06 20:44:40 MSK)

А если удалить '\n' и вырезать sed'ом?

ugoday ★★★★★
(26.04.06 00:08:36 MSK)

Ссылка

Ответ на: комментарий от vahvarh 25.04.06 20:44:40 MSK

Что-то не работает:

$ cat tag.html
<body><TAG 12312937> asldasjld
asdl'a;sld
asdas;dk;la
asdpl[asp
qwekopqkwe </TAG></body>

$ cat remtag.pl
#!/usr/bin/perl -w

use strict;
{
        my $r;
        {local $/;$r=<>;}
        $r=~s/<TAG(.*?)>.*?<\/TAG>//mg;
        print $r;
}

$ cat tag.html | ./remtag.pl
<body><TAG 12312937> asldasjld
asdl'a;sld
asdas;dk;la
asdpl[asp
qwekopqkwe </TAG></body>

vasirck
(26.04.06 10:23:25 MSK) автор топика

2vasirck:

Тут тебе насоветовали использовать regular expressions из perl'а.
Для простых случаев regular expressions будут работать, однако
в общем случае regular expressions не умеют работать с balanced text
(а HTML и XML это balanced text).
Рекомендую ознакомиться с FAQ в http://perldoc.perl.org/perlfaq6.html
смотри вопрос "Can I use Perl regular expressions to match balanced text?"

HTH

Onanim ★
(26.04.06 11:16:59 MSK)

Ответ на: комментарий от Onanim 26.04.06 11:16:59 MSK

Мне не нужно общее, правильное решение, мне надо по паре десятков файлов пройтись, если что не так - увижу и поправлю. TAG не может быть вложенным, то есть внутри него могут быть другие теги, но таких же не может быть, я думаю, что в данном случае и regex можно обойтись. Мне надо чтоб хоть тот пример, что я привел заработал.

vasirck
(26.04.06 11:35:30 MSK) автор топика

Ссылка

Ответ на: комментарий от vasirck 26.04.06 10:23:25 MSK

> $r=~s/<TAG(.*?)>.*?<\/TAG>//mg;

$r=~s/<TAG(.*?)>.*?<\/TAG>//sg;

Модификатор s позволяет точке соответствовать концу строки.

DKorolkov ★
(26.04.06 11:55:38 MSK)

Ответ на: комментарий от DKorolkov 26.04.06 11:55:38 MSK

Спасибо, заработало.

vasirck
(26.04.06 11:58:47 MSK) автор топика

Ссылка

Ответ на: комментарий от DKorolkov 26.04.06 11:55:38 MSK

Теперь другая проблема:

$ cat remtag.pl #!/usr/bin/perl -w

use strict; { my $r; {local $/;$r=<>;} $r=~s/<TAG(.*?)>.*?asd111.*?<\/TAG>//sg; print $r; }

$ cat tag.html <body><TAG 12312937> asldasjld asdl'a;sld asdas;dk;la </TAG><a>this should remain</a><TAG 3294823> asd111pl[asp qwekopqkwe </TAG></body>

$ cat tag.html | ./remtag.pl <body></body>

Хочу вырезать только второй тег, то есть в котором есть asd111, а вырезается всё. Как с этим бороться?

vasirck
(26.04.06 15:50:32 MSK) автор топика

Ответ на: комментарий от vasirck 26.04.06 15:50:32 MSK

Теперь другая проблема:

$ cat tag.html
<body><TAG 12312937> asldasjld
asdl'a;sld
asdas;dk;la
</TAG><a>this should remain</a><TAG 3294823>
asd111pl[asp
qwekopqkwe </TAG></body>

$ cat remtag.pl
#!/usr/bin/perl -w

use strict;
{
        my $r;
        {local $/;$r=<>;}
        $r=~s/<TAG(.*?)>.*?asd111.*?<\/TAG>//sg;
        print $r;
}

$ cat tag.html | ./remtag.pl
<body></body>

Т.е. хочу вырезать только второй тег, то есть в котором есть "asd111",
а вырезается всё. Как с этим бороться?

vasirck
(26.04.06 15:53:05 MSK) автор топика

Ответ на: комментарий от vasirck 26.04.06 15:53:05 MSK

#!/usr/bin/perl -w

use strict;
{
my $r;
{local $/; $r=<>;}
$r=~s!(<TAG(.*?)>.*?</TAG>)!replacer($1)!egs;
print $r;
}

sub replacer
{
$_[0] =~ /asd111/ ? '' : $_[0];
}

Хотя криво это все...

Onanim ★
(27.04.06 17:06:12 MSK)

Ответ на: комментарий от Onanim 27.04.06 17:06:12 MSK

Спасибо, работает!

vasirck
(27.04.06 19:28:11 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Файл символьного устройства

Development

Как переместить QDialog на экране? →

Похожие темы