Быстрый парсинг HTML

0

3

Представьте такую парсилку:

1. Сначала разобрать HTML-документ на линейную последовательность тегов. Линейную, карл. Никаких отношений между тегами. Парсер не знает про то, что теги вложены друг в друга, имеют закрывающих собратьев и другое. Тег - имя + набор атрибутов. Иерархии нет. Закрывающий тег - тупо отдельное имя в той же плоской последовательности. Есть тег «TD», а есть тег «/TD», у них просто вот такие имена и парсеру неважно почему они такие. Какой-нибудь простой текст будет в итоге превращён в объект-тег типа «TEXT» с атрибутом value равный самому тексту, допустим.

2. Рассмотреть всю эту последовательность как строку, где вместо char объект «тег» (с атрибутами).

3. Сделать как-бы regexp-машинку, но не совсем regexp: она оперирует не символами текста (char), а этими самыми объектами-тегами, линейно следующими, как обычный текст.

В таком духе:

// заматчить любую пару тегов <TD> + </TD> с любыми тегами между ними.
// повторю: здесь всем пофиг на имена тегов. Никаких отношений между TD и /TD парсер HTML и данная regexp-машина не знают. Для неё это просто 2 каки-то там тега.
TD, * *, /TD


// то же самое, но только <TD> имеющий атрибут "hello" равный 123
TD hello=="123", * *, /TD

// можно замутить встроенный язык с переменными
// При встрече тега HTML создать i = 0
// Пропустить сколько угодно каких угодно тегов
// заматчить много последовательностей <TD> ... </TD>
// При матчинге очередного TD инкрементнуть переменную
// В итоге мы посчитаем число пар <TD>...</TD> заодно.

HTML $i=0, * *, (TD $i++, * *, /TD)*

Не будет ли такое быстрее, чем построение в памяти всего DOM-дерева и исполнение на этом дереве XPath-запросов?

Ссылка

←	Можно узнать отправлены ли данны по UART?

Баг андроида нуждается в фиксе

→

← 1 2 3 →

Это называется SAX-парсер.

NeXTSTEP ★★
(08.05.19 13:44:02 MSK)
Последнее исправление: NeXTSTEP 08.05.19 13:44:13 MSK (всего исправлений: 1)

Ссылка

Тебе нужно быстро или корректно? Потому что браузер все равно превращается щитимеле в дерево, и именно дерево для него имеет смысл. Вот если дерево обратно экспортировать в XHTML, то уже можно прыгать с регулярками или их подобиями.

byko3y ★★★★
(08.05.19 13:45:56 MSK)

Ответ на: комментарий от byko3y 08.05.19 13:45:56 MSK

Тебе нужно быстро или корректно? Потому что браузер все равно превращается щитимеле в дерево, и именно дерево для него имеет смысл. Вот если дерево обратно экспортировать в XHTML, то уже можно прыгать с регулярками или их подобиями.

Браузер тут ни при чём вроде.

~~igloev~~
(08.05.19 13:55:24 MSK) автор топика

Ответ на: комментарий от igloev 08.05.19 13:55:24 MSK

HTML - это язык для браузеров, больше у него нет никаких применений. Что значит «браузер тут не при чем»?

byko3y ★★★★
(08.05.19 14:10:29 MSK)

Ответ на: комментарий от byko3y 08.05.19 14:10:29 MSK

html всего лишь подвид xml.
автор пытается переизобрести xslt/xpath?

etwrq ★★★★★
(08.05.19 14:15:22 MSK)

Ответ на: комментарий от byko3y 08.05.19 14:10:29 MSK

HTML - это язык для браузеров, больше у него нет никаких применений. Что значит «браузер тут не при чем»?

Я могу скачать HTML обратившись по HTTP к серверу, не являясь браузером. С целью выпарсить что-то с сайта. Оторажать страничку не трубуется. И сайт не отдаёт то же самое в другом формате.

~~igloev~~
(08.05.19 14:15:51 MSK) автор топика

Владимир

То о чем вы говорите - малая часть айсберга.
Погуглите типа «как работает рендеринг в браузере» ..., ...

anonymous
(08.05.19 14:16:51 MSK)

Ответ на: комментарий от anonymous 08.05.19 14:16:51 MSK

То о чем вы говорите - малая часть айсберга.
Погуглите типа «как работает рендеринг в браузере» ..., ...

Не надо это гуглить, тема не об этом.

~~igloev~~
(08.05.19 14:17:49 MSK) автор топика

Ссылка

Сделай и продемонстрируй разницу.

Но вообще, пытаться регулярками решить все проблемы попахивает диагнозом.

anonymous
(08.05.19 14:41:40 MSK)

Ссылка

Ътмл это чистый адок. Если есть вариант взять xml, берите его. Если нет, то придётся чем-то пожертвовать в любом случае. Будет ли такой подход быстрее? Наверное нет. Зависит от объёмов. Эффективней по памяти? Вполне вероятно.

~~linuxnewbie~~
(08.05.19 14:56:26 MSK)

Ссылка

<div>
<div>
</div>

<div data-div="</div foo=bar><div>">
<div>

Является валидным html5.

dear_amomynous_v2_1
(08.05.19 15:32:50 MSK)

Ответ на: комментарий от dear_amomynous_v2_1 08.05.19 15:32:50 MSK

Я это к тому что предварительный парсинг тегов тебе сильно не поможет с дальнейшим парсингом «регулярками».

dear_amomynous_v2_1
(08.05.19 15:35:54 MSK)

Ответ на: комментарий от igloev 08.05.19 14:15:51 MSK

Сайт отдавал браузеру браузерово, и его не волнует, что ты там что-то перехватил своей тулзой. В мое время такие проблемы решались регулярочками, которые дорабатывались после изменения сайта.

byko3y ★★★★
(08.05.19 15:37:39 MSK)

<тут должна быть картинка про парсинг HTML регулярками>

shuck ★★★
(08.05.19 15:40:21 MSK)

Ответ на: комментарий от shuck 08.05.19 15:40:21 MSK

Лучше сразу принести бессмертную классику.

dear_amomynous_v2_1
(08.05.19 15:44:00 MSK)

Ответ на: комментарий от shuck 08.05.19 15:40:21 MSK

<тут должна быть картинка про парсинг HTML регулярками>

Речь не про регулярки вообще.

~~igloev~~
(08.05.19 15:47:19 MSK) автор топика

Ссылка

Ответ на: комментарий от dear_amomynous_v2_1 08.05.19 15:35:54 MSK

Я это к тому что предварительный парсинг тегов тебе сильно не поможет с дальнейшим парсингом «регулярками».

Почему не поможет? На выходе будет последовательность объектов

DIV, DIV, /DIV, DIV data-div==«</div foo=bar><div>», DIV

И она не должна «помоч», она необходимый этап, машина регулярок ведь работает на этих объектов.

~~igloev~~
(08.05.19 15:49:22 MSK) автор топика

Ссылка

Ответ на: комментарий от dear_amomynous_v2_1 08.05.19 15:44:00 MSK

Лучше сразу принести бессмертную классику.

Тут тред не про регулярки совсем.

~~igloev~~
(08.05.19 15:49:54 MSK) автор топика

Ответ на: комментарий от byko3y 08.05.19 15:37:39 MSK

Сайт отдавал браузеру браузерово, и его не волнует, что ты там что-то перехватил своей тулзой.

Мы и не говорим, что его там что-то волнует.

~~igloev~~
(08.05.19 15:50:24 MSK) автор топика

Ссылка

Ответ на: комментарий от igloev 08.05.19 15:49:54 MSK

Хорошо. Повторю тебе то, что сказал первый комментатор - есть парсеры, которые дёргают коллбэк заместо построения дерева. Это подходит под описание твоей задачи.

dear_amomynous_v2_1
(08.05.19 15:56:01 MSK)

Ответ на: комментарий от dear_amomynous_v2_1 08.05.19 15:56:01 MSK

Если на входе

<div>
  <div class="foo">
    <p>FOO</p>
  </div>
  <div class="bar" data-bar="quux">
    <p><i>BAR</i></p>
  </div>
</div>

Твой колбэк получит по очереди что-то вроде:

<div>
<div><div class="foo">
<div><div class="foo"><p>
<div><div class="foo"><p>FOO
<div><div class="bar" data-bar="quux">
<div><div class="bar" data-bar="quux"><p>
<div><div class="bar" data-bar="quux"><p><i>
<div><div class="bar" data-bar="quux"><p><i>BAR

Но в виде объектов с метаинформацией, вроде порядкового номера доченего объекта.

dear_amomynous_v2_1
(08.05.19 16:03:34 MSK)

Ссылка

Ответ на: комментарий от etwrq 08.05.19 14:15:22 MSK

Ваше высказывание вызывающе неверное. HTML НЕ является подвидом XML.

anonymous
(08.05.19 16:16:06 MSK)

у тебя там гигабайт html на одной страничке или ты запускаешься на микроконтроллере?

иначе нахождение сразу всего дерева в памяти даст только буст по скорости выполнения.

Ford_Focus ★★★★★
(08.05.19 16:54:41 MSK)

Ссылка

Ответ на: комментарий от anonymous 08.05.19 16:16:06 MSK

С подмножеством не путаешь, пед-ант?

anonymous
(08.05.19 18:26:11 MSK)

Ссылка

Ты нуб. HTML — не XML, в нём не всегда теги закрыты. Например, <ul> часто не имеет парного </ul>: во-первых, потому что олдскульных вебмакак так учили, во-вторых — браузеры при наличии закрывающего тега ведут себя иначе и добавляют нежелательные отступы, которые приходится убирать дополнительными CSS-костылями. Непарные теги и вовсе поголовно без слеша юзаются, но это хотя бы решается словарём непарных тегов. Альзо, покури готовые парсеры, там уже наверняка есть нечто проще построения DOM.

anonymous
(08.05.19 21:33:00 MSK)

Ответ на: комментарий от anonymous 08.05.19 21:33:00 MSK

Ты нуб. HTML — не XML, в нём не всегда теги закрыты.

Совершеннейшим образом насрать. Закрытие не требовалось.

~~igloev~~
(08.05.19 21:57:53 MSK) автор топика

Ответ на: комментарий от etwrq 08.05.19 14:15:22 MSK

html всего лишь подвид xml.

Ахахахахахахаха. Скорми его xml валидатору и сходи туда, куда он скажет.

crutch_master ★★★★★
(08.05.19 22:04:30 MSK)

1. Сначала разобрать HTML-документ на линейную последовательность тегов. Тег - имя + набор атрибутов. Иерархии нет. Закрывающий тег - тупо отдельное имя в той же плоской последовательности.

Это называется лексический анализ.

2. Рассмотреть всю эту последовательность как строку символов, где символ - тег.

3. Сделать regexp-машинку, которая оперирует не символами текста, а тегами.

Регекспы были полезны на предыдущем этапе, но здесь они безвластны - произвольный уровень вложенности тегов означает контекстно-свободную грамматику, а если мы вдобавок не знаем, какие теги нам могут встретиться, то имеем дело с контекстно-зависимой грамматикой. Разбор таких грамматик называется синтаксический анализ.

Не будет ли такое быстрее, чем построение в памяти всего DOM-дерева и исполнение на этом дереве XPath-запросов?

Результатом работы синтаксического анализатора является синтаксическое дерево, чем, в некотором смысле, и является DOM. Как я понимаю, вопрос можно перформулировать следующим образом: «не будут ли мой клёвый парсер и моё клёвое дерево быстрее, чем те, что я сейчас использую?» Ответ - нет.

Laz ★★★★★
(08.05.19 23:28:13 MSK)

Ответ на: комментарий от Laz 08.05.19 23:28:13 MSK

Регекспы были полезны на предыдущем этапе, но здесь они безвластны

Неправильно. Речь не про рэгэкспы вообще. Дальше не четал.

~~igloev~~
(09.05.19 00:03:49 MSK) автор топика

Ссылка

man SAX

lovesan ★★☆
(09.05.19 00:04:51 MSK)

Ссылка

Ответ на: комментарий от Laz 08.05.19 23:28:13 MSK

Результатом работы синтаксического анализатора является синтаксическое дерево,

Ну нет, нам не нужен синтаксический анализатор.

~~igloev~~
(09.05.19 00:06:17 MSK) автор топика

Ответ на: комментарий от igloev 09.05.19 00:06:17 MSK

Сделать regexp-машинку
Речь не про рэгэкспы вообще.

Быстрый парсинг HTML
нам не нужен синтаксический анализатор

nuff said.

Laz ★★★★★
(09.05.19 07:00:33 MSK)

Ответ на: комментарий от Laz 09.05.19 07:00:33 MSK

Кто такой нуфф и чё он там сказал нам тоже как-то пофиг.

~~igloev~~
(09.05.19 08:02:27 MSK) автор топика

Ответ на: комментарий от igloev 09.05.19 08:02:27 MSK

не пойму, тебе его написать или что? ну хочешь колесо квадратное беъри и делайчего пристл то?

trashymichael ★★★
(09.05.19 08:25:49 MSK)

Ответ на: комментарий от trashymichael 09.05.19 08:25:49 MSK

Кого написать, нуффа?

~~igloev~~
(09.05.19 08:44:16 MSK) автор топика

Ссылка

Ответ на: комментарий от Laz 08.05.19 23:28:13 MSK

3. Сделать regexp-машинку, которая оперирует не символами текста, а тегами.
Регекспы были полезны ...

Регекспы были полезны ... когда они были «обыкновенными регулярными выражениями», которые эквивалентны детерминированными конечным автоматам без магазина. Но история ойти пошла другим путем, теперь «регулярными выражениями» называют хер знает что, что даже автомат с магазином не всегда разберет то, что подразумевают под регекспом. И автор темы движется в том же направлении - «сделать regexp-машинку, которая...»

anonymous
(09.05.19 08:47:02 MSK)

Ссылка

Ответ на: комментарий от igloev 08.05.19 21:57:53 MSK

Владимир

Совершеннейшим образом насрать

Комментарии излишни.

anonymous
(09.05.19 09:34:08 MSK)

// заматчить любую пару тегов <TD> + </TD> с любыми тегами между ними.
TD, * *, /TD

Я правильно понимаю, что для «<TD id=1></TD><TD id=2></TD>» этот парсер должен выдать

<TD id=1></TD>
<TD id=1></TD><TD id=2></TD>
<TD id=2></TD>

monk ★★★★★
(09.05.19 10:36:39 MSK)

Не будет ли такое быстрее, чем построение в памяти всего DOM-дерева и исполнение на этом дереве XPath-запросов?

Если п.1 читает в память, то объём памяти будет сравним с построением DOM. А вот задачу типа «получить строки таблицы, в которых ровно 16 ячеек» на этом regexp-парсере не решить.

monk ★★★★★
(09.05.19 10:39:33 MSK)

Ссылка

регекспом тег или не тег определить - уже задача

а еще и на подсчет пар замахнулся...

<div value="<div><div></div>">
  <textarea><div></div></div></textarea>
</div>

Kokonavtuz
(09.05.19 11:33:38 MSK)

Ответ на: комментарий от crutch_master 08.05.19 22:04:30 MSK

markup language.
extended vs hypertext.
всё валидации по ца согласно описанию DTD.
по html первое всплывает что strict, xhtml.
попробуй валидный html по strict скормить xml валидатору с strict.dtd. есть ненулевая вероятность что и он признает его валидным.

etwrq ★★★★★
(09.05.19 11:41:38 MSK)

Именно поэтому на смену лютому здецу под названием HTML пришел XHTML, как компромисс между страшным для машины HTML и страшным для человека XML.
Смысл гипертекстовой разметки как раз и заключается в иерархии.

:) При попытке рассматривать его как линейную (одномерную) последовательность, ты попадаешь на уровень абстракции ниже ожидаемого, где в иерархиях (двумерных сущностях) ещё нет смысла.

blexey ★★★★★
(09.05.19 11:55:52 MSK)

Ссылка

Я за бан.

Очередной нудный клоун, не боись скоро каникулы.

Не парь людям мозги, жалкий школолош :-D

~~Twissel~~ ★★★★★
(09.05.19 12:02:48 MSK)

Ответ на: комментарий от crutch_master 08.05.19 22:04:30 MSK

ИМХО, это тролль. Надо его потроллить в ответ)))

~~Twissel~~ ★★★★★
(09.05.19 12:04:43 MSK)

Ответ на: комментарий от Twissel 09.05.19 12:04:43 MSK

Владимир

ТС 18.04.19 зарегистрировался /троль не троль время покажет/.
Что касается парсинга страниц, то использую DOM /альтернатива DOM мне не известна/.

anonymous
(09.05.19 12:42:12 MSK)

Ссылка

Ответ на: комментарий от anonymous 09.05.19 09:34:08 MSK

Комментарии излишни.

От тебя их и не просят, чё.

~~igloev~~
(09.05.19 12:43:01 MSK) автор топика

Ссылка

Ответ на: комментарий от Twissel 09.05.19 12:02:48 MSK

Очередной нудный клоун, не боись скоро каникулы.

Я за бан тебя, пятизвёздочный пустомеля без сообщений по сути в треде.

~~igloev~~
(09.05.19 12:43:53 MSK) автор топика

Ответ на: комментарий от Kokonavtuz 09.05.19 11:33:38 MSK

регекспом тег или не тег определить - уже задача

Что за народ. В треде нет речb про регекспы вообще. Екарны екибастуз, полстраны читает не глазами.

~~igloev~~
(09.05.19 12:44:42 MSK) автор топика

Ответ на: комментарий от igloev 09.05.19 12:44:42 MSK

Екарны екибастуз

Что это? Это едят, или куда это запихивают?

~~DELIRIUM~~ ☆☆☆☆☆
(09.05.19 12:46:36 MSK)

Ответ на: комментарий от monk 09.05.19 10:36:39 MSK

Неправильно. Для указанного он выдаст

TD id=1, /TD, TD id=2, /TD

Всё тупо линейно. Откуда у вас взялись в «выдаче» закрывающие теги - загадка. Парсер не думает ни про какой DOM, а воспринимает входящий HTML как тупую последовательность любых тегов. Про то, что теги могут быть закрытые или нет он вообще не в курсе. Он рад любому тегу в любой момент последовательности. Закрывающий тег - просто другое имя тега для него. Есть тег TD и есть тег /TD, которые никак не связаны никакой логикой с точки зрения разбора.

~~igloev~~
(09.05.19 12:46:46 MSK) автор топика

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

←	Можно узнать отправлены ли данны по UART?

Development

Баг андроида нуждается в фиксе

→

Похожие темы