скриптик обработки html

0

1

Никто случайно не баловался sed'ом или awk или не писал однострочники на перле который вырезает из входного потока всё что находится между символами '<' и '>' (вместе с самими символами) и вставляя символ перевода строки после каждого блока, отдельно обрабатывая блок начинающийся строки «<a» выводя из этого блока всё что начинается с 'href=\«' и заканчивающийся ближайшим символом '\»', а так же дополнительно не выводящий всё что находится между «<script» и ближайшим «/script>» ну может быть ещё парочки тегов типа «style» и других не содержащих осмысленный текст

если приглядеться то получится упрощенный аналог links работающий только со стандартными утилитами

Ссылка

← Ошибка парсинга lxml

Qt4.8 m_process->waitForFinished() →

http://ofb.net/~egnor/xml2/

Ничего лучше для выкусывания из html данных с помощью awk и sed не видел.

anonymous
(20.05.12 23:14:01 MSK)

http://search.cpan.org/~gaas/HTML-Parser-3.69/

AITap ★★★★★
(20.05.12 23:20:56 MSK)

Ссылка

Ответ на: комментарий от anonymous 20.05.12 23:14:01 MSK

ставить целую библиотеку только ради того с чем легко справится не очень сложный регэксп? это как-то не спортивно

mm3 ★★★
(20.05.12 23:28:05 MSK) автор топика

Ответ на: комментарий от mm3 20.05.12 23:28:05 MSK

Если он не очень сложный, хватит разглагольствоать, садись писать его.

Kalashnikov ★★★
(20.05.12 23:39:28 MSK)

Ответ на: комментарий от Kalashnikov 20.05.12 23:39:28 MSK

ах если бы я только умел писать корректные регэкспы.... при попытке разобраться как их писать у меня начинает плавиться мозг

mm3 ★★★
(20.05.12 23:52:17 MSK) автор топика

Ответ на: комментарий от mm3 20.05.12 23:52:17 MSK

А, ну с этого и надо было начинать. В общем-то однострочником тут скорее всего не обойдёшься, а в либе которая умеет дом можно просто взять document.body.innerText

Kalashnikov ★★★
(20.05.12 23:56:35 MSK)

Ответ на: комментарий от Kalashnikov 20.05.12 23:56:35 MSK

в топике описаны достаточно чёткие и однозначные правила обработки входного потока, которые можно применить последовательно, только в обратном от описанного порядке, и какое из этих правил невозможно обработать однострочником?

mm3 ★★★
(21.05.12 00:03:18 MSK) автор топика

Ответ на: комментарий от mm3 21.05.12 00:03:18 MSK

В теории - никакое. На практике скорее всего споткнёшься о вложенность, невалидность вёрстки и другие прелести. Хтмл нельзя парсить регэкспами.

Я щас парсю разметку вики, тоже казалось бы, правила простые, но однострочником мой велосипед никак не назовёшь...

Kalashnikov ★★★
(21.05.12 00:11:28 MSK)

Ссылка

Так в чем проблема? Если не хочется использовать HTML::TreeBuilder и тп., то просто пишешь набор регулярок какие надо и все...
ну и http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml...

kovrik ★★★★★
(21.05.12 14:28:40 MSK)

Ссылка

Я так понимаю, тебе нужен html2text? Может его и использовать?

gnunixon ★★★
(21.05.12 14:34:39 MSK)

Ответ на: комментарий от gnunixon 21.05.12 14:34:39 MSK

не то чтобы уж очень нужен, но загорелся идеей сделать аналог html2text с использованием только sed (а больше и не нужно) для комфортного серфинга по сети там где в принципе невозможно поставить какие либо дополнительные библиотеки

и даже почти уже сделал но конструкция вида

 
sed 's/<script[^>]*>[^<][^\/][^s][^c][^r][^i][^p][^t][^>]*<\/script>//g'

упорно не желает вырезать скрипты

mm3 ★★★
(21.05.12 15:04:37 MSK) автор топика

А мне мама в детстве говорила, что нельзя конечным автоматом обрабатывать тексты, порожденные контекстно-свободными грамматиками.

ugoday ★★★★★
(21.05.12 16:26:45 MSK)

Ответ на: комментарий от ugoday 21.05.12 16:26:45 MSK

не мешайте человеку завтракать кактусом

mm3 ★★★
(21.05.12 16:35:56 MSK) автор топика

Ссылка

Ответ на: комментарий от mm3 21.05.12 15:04:37 MSK

Что это? Регэксп скорее должен быть таким:

<script[^>]*>.*?<\/script>

Kalashnikov ★★★
(21.05.12 16:46:39 MSK)

Я бы сделал обработку текста в несколько этапов.
С начало вырезать из текста все script css...
Потом заменить все «<a href=»http://site.ru«>blablabla</a>» на «blablabla - http://site.ru"
А потом уже убрать все остальные теги, поставить переводы строки...

вставляя символ перевода строки после каждого блока

Если на регэкспах, можно попробовать заменять все </p>,</div>,<br> на \n. Остальные теги просто удалять.
Непонятно как быть с таблицами.

Общего решения для вех сайтов на одних только регэкспах не получится.

TDrive ★★★★★
(21.05.12 17:04:42 MSK)

Ссылка

Ответ на: комментарий от Kalashnikov 21.05.12 16:46:39 MSK

Что это? Регэксп скорее должен быть таким:

а что в нём означает знак вопроса "?" !?! так для общего развития но в любом случае этот регэксп не отрабатывает, чтобы отвязаться от необходимости учитывать множественного вхождения тега </script> в строке проще разбить строку както так:

sed 's/<\/script>/<\/script>\n/g' | sed 's/<script.*<\/script>//g'

и вообще вот не причёсанный вариант:

wget -q -O - http://linux.org.ru | tr -d "\n\r\f" | sed 's/<!--[^-][^>]*-->//g' | sed 's/<script[^\/][^>]*\/>//g' | sed 's/<\/script>/<\/script>\n/g' | sed 's/<script.*<\/script>//g' | sed 's/<style[^\/][^>]*\/>//g' | sed 's/<\/style>/<\/style>\n/g' | sed 's/<style.*<\/style>//g' | sed 's/>/>\n/g' | sed 's/<[^>]*>//g' | sed '/^\s*$/d' | sed 's/\&[^\;]*\;/ /g'

вечерком попробую причесать и подумать над тегом <a>

mm3 ★★★
(21.05.12 17:13:33 MSK) автор топика

Иди лучше xpath осиливать.

anonymous
(21.05.12 17:41:51 MSK)

Ссылка

Ответ на: комментарий от mm3 21.05.12 17:13:33 MSK

а что в нём означает знак вопроса "?"

Не жадная квантификация, тоесть .* остановится сразу как встретит первый </script>. На вики хорошо описано.

Kalashnikov ★★★
(21.05.12 18:46:08 MSK)

Ссылка

С sed'ом разобрались, получив красивенький скриптик:

wget -q -O - http://linux.org.ru | sed ':a; /$/N; s/\n//; ta' | sed 's/<!--[^-][^>]*-->//g;s/\&[^\;]*\;/ /g;s/<script[^\/][^>]*\/>//g;s/<style[^\/][^>]*\/>//g' | sed 's/<\/script>/<\/script>\n/g;s/<\/style>/<\/style>\n/g;s/<br/\n<br/g;s/<\/div>/<\/div>\n/g;s/<a /\n<a /g;s/<\/a>/<\/a>\n/g' | sed 's/<script.*<\/script>//g;s/<style.*<\/style>//g;s/<a\(.*\)href=\"\([^\"]*\)\"\([^>]*\)>\(.*\)<\/a>/\4 \( \2 \)/g' | sed 's/<[^>]*>/ /g' | sed '/^\s*$/d;s/\ \{1,\}/ /g'

который отображает лор даже лучше FireFox'а (осталось только adblock прикрутить)

теперь можно и в AWK поковыряться

mm3 ★★★
(21.05.12 20:47:21 MSK) автор топика