LINUX.ORG.RU

Избранные сообщения loweshv

Удалить все комментарии и теги из HTML файла

Форум — Development

Есть задание: Написать сценарий для sed и awk для удаления тегов и комментариев HTML. Теги и комментарии могут быть многострочными. Обеспечить правильную подстановку для знаков <, >, & и ". В общем нужно убрать теги и комменты вокруг текста, а сам текст оставить. Из такого:

<!-- commentary -->
<html><head><meta http-equiv="Content-Type" content="text/html; charset=KOI8-R">
   
   <title>hello</title>
<link rel="stylesheet" crossorigin="anonymous" href="./hello_files/main.css"><style type="text/css">
<body>
<center>
<b>
Text1
</b>
</center>
<br>
Text2
<br>
<br>
Text3
<input type="text" name="field1" value="" size="32" maxlength="64">
<input type="submit" value="Start">
<input type="reset" value="Clear">
</form>
<hr>
</body></html>

Должно получиться такое:


    commentary
   
   hello




Text1



Text2


Text3

Написал пока что только такой код, но он удаляет только теги:

sed -n '1h;2~1H;${g;s/<[^>]*>//g;p}' test.html >htmlres.txt

Как написать чтобы еще удалялись комментарии? А так же как написать это на awk'e?

 , ,

loweshv
()

Замещение файла другим

Форум — General

Есть такое задание:

Написать программу-фильтр overwrite, которая направляет входной поток во временный файл. Когда поток входных данных иссякнет, временный файл переименовывается в имя, заданное параметром overwrite. Например, вызов

sort data.txt| overwrite data.txt
должен означать следующую последовательность операций: отсортированные строки файла data.txt помещаются во временный файл, временный файл замещает исходный файл data.txt. При вызове overwrite с двумя параметрами первый из них должен рассматриваться как имя программы, а второй как имя файла данных. Таким образом, должно быть возможным использовать вызов
overwrite sort data.txt
вместо приведенной выше «трубы».

Как заменить один файл другим? А так же не могли бы вы написать как примерно должна выглядеть программа?

 , ,

loweshv
()

Удалить все комментарии и теги HTML

Форум — General

1)Написать скрипт для sed для удаления тегов и комментариев HTML из заданного файла. Теги и комментарии могут быть многострочными. Обеспечить правильную подстановку для знаков <, >, & и ". 2)Как задание 1, но на awk.

Есть 2 таких задания. Я не совсем понял какие теги нужно удалить, а так же про подстановку для знаков. Если у кого то есть готовый скрипт или идеи как его написать, то помогите, пожалуйста.

 , , ,

loweshv
()