LINUX.ORG.RU

Почистить HTML


0

0

Есть html (получился от конвертации pdf). В нем куча грязи типа

<SPAN style=«font-size:10pt; color:#000000»

s </SPAN

<SPAN style=«font-size:10pt; color:#000000»

bee</SPAN

<SPAN style=«font-size:10pt; color:#000000»

n </SPAN

<SPAN style=«font-size:10pt; color:#000000»

supportiv</SPAN

<SPAN style=«font-size:10pt; color:#000000»

e </SPAN

<SPAN style=«font-size:10pt; color:#000000»

o</SPAN

<SPAN style=«font-size:10pt; color:#000000»

f </SPAN

<SPAN style=«font-size:10pt; color:#000000»

th</SPAN

<SPAN style=«font-size:10pt; color:#000000»

e </SPAN

<SPAN style=«font-size:10pt; color:#000000»

boo</SPAN


В результате он весит 20 мегабайт и тормозит.
Как мне его почистить?

Попробуй через Google Docs сконвертить.

anonymous ()
Ответ на: комментарий от nbdarvin

На перле налабать скрипт, или текстовым редактором типа geany через поиск/замену

Deleted ()
Ответ на: комментарий от GotF

tidy прогнал, получилось:


<span class=«c59»>Onc</span><span class=
«c59»>e</span> <span class=«c59»>a</span><span class=«c59»>n</span>
<span class=«c59»>objec</span><span class=«c59»>t</span>
<span class=«c59»>ha</span><span class=«c59»>s</span> <span class=
«c59»>n</span><span class=«c59»>o</span> <span class=
«c59»>name</span><span class=«c59»>s</span> <span class=
«c59»>boun</span><span class=«c59»>d</span> <span class=
«c59»>t</span><span class=«c59»>o</span> <span class=
«c59»>it</span><span class=«c59»>,</span> <span class=
«c59»>i</span><span class=«c59»>t</span> <span class=
«c59»>i</span><span class=«c59»>s</span> <span class=
«c59»>schedule</span><span class=«c59»>d</span> <span class=
«c59»>fo</span><span class=«c59»>r</span> <span class=
«c59»>garbag</span><span class=«c59»>e</span> <span class=
«c59»>collection</span><span class=«c59»>,</span> <span class=
«c59»>an</span><span class=«c59»>d</span> <span class=
«c59»>i</span><span class=«c59»>n</span> <span class=

это конечно лучше, но как бы эту хрень удалить

nbdarvin ()
Ответ на: комментарий от Deleted

Помоему ему нужно тупо убрать теги <span>, но чтобы осталось то что внутри.

firestarter ★★★☆ ()

Открыть в браузере

А не проще открыть это 20-мегабайтное чудо в браузере, дождаться пока отрендерится и скопипастить из браузера в любой текстовый редактор? Правда если в книжке есть картинки, могут быть сложности.

litovetc ()
Ответ на: комментарий от nbdarvin

sed'ом заменить на пустое «ничто» <span class=«c59»> а потом </span>.
только экранировать нужно всё это.

system-root ★★★★★ ()

Оффтоповой DreamVeawer это умеет. Под Linux не знаю есть ли программы с подобным функционалом.

unikum ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.